본문 바로가기
728x90

전체 글133

비전공자 국비생의 뒤늦은 빅분기 7회 필기 후기!! 먼저 빅분기를 준비한 기간을 작성하라면 한달하고 3~4일 정도 전에 시작했었다. 내 배경지식이라곤 그냥 국비수업을 들으면서 아 이런거도 있구나 했었던 것 뿐, 전공도 전기였기에 전혀 접점이 없었음을 미리 알리고 후기를 시작하겠다. 아 그리고 내가 아래에서 언급하는 카페는 네이버 카페 - 데이터 전문가 포럼이다. 시험 난이도 개인적으로 1과목은 난이도가 이전의 기출과 비교했을 때 비슷했다고 생각했다. 카페의 후기들을 보니 전공자들은 1과목이 힘들었다고 하시던데 오히려 책으로 개념 위주로 하신분들은 1과목이 쉬웠다는 추세다. 2과목부터는 멘탈이 털리기 시작했다. 약간의 변명을 하자면 포스팅이나 깃헙 주소를 보면 알듯, 국비 수강중 프로젝트를 진행하는 시기와 겹쳤어서 많은 시간을 할애하기가 힘들었다. 9-6시.. 2023. 9. 26.
프로젝트 최종 마무리 끝! 드디어 발표까지 프로젝트가 모두 마무리 되었다! 마무리 된 기념으로 발표에 사용한 ppt 파일을 첨부할 겸, 아쉬웠던 점을 작성하기도 할 겸 포스팅을 한다. 이미 트러블 슈팅부분은 중간중간 작성했기 때문에 굳이 다루지 않으려한다. 우리조는 수많은 변천사를 겪었다. 그래서 결과물이 이 정도 나온것에도 다들 너무 다행이라고 생각했다! 예측의 경우도 더 정확하게 하지 못했고, 데이터가 없는 부분들이 너무 아쉽고 어려웠다. 데이터가 더 많이 있었더라면 훨씬 낫지 않았을까 하는 생각이 있다. 발표전까지 스트림릿을 계속 다루다보니 아쉬운 부분이 많았다. 나는 ppt를 전반적으로 변경하느라 스트림릿은 다른 팀원이 홀로 해주셨지만, 이 정도 결과에도 너무 감사했다. 최종 프로젝트에는 더 열심히 해서 좋은 결과를 얻을 .. 2023. 9. 26.
프로젝트를 마무리하며.. 요 며칠 포스팅을 할 시간이 없었다. 빅데이터 분석기사 필기 준비와 세미 프로젝트를 병행해서 하다보니 정말 너무 쉬고싶은데 쉬지 못해 힘들정도였다. 그래서 프로젝트도 중요하지만, 당장의 눈앞을 해치우자는 생각으로 프로젝트 기록할 시간을 없애고, 빅분기에 시간을 할애했다. 빅분기와 관련해서는 따로 포스팅을 하겠다! 벌써 내일 최종 프로젝트를 앞두고 있다. 프로젝트 중간중간 겪은 어려움도 정말 많았던 주제였는데 그만큼 열심히 했던 것 같다. 주제를 생각했을 때, 예측은 사용하지 못할 것 같아서 예측을 할거라곤 생각도 못했었다. 근데 주제의 방향이 달라지고 종속변수가 관광객수가 아니라 월평균 지출금액이 되어버리면서, 예측을 돌릴 수 있게 되었고 갑자기 할일이 급격하게 늘어나게 됐다. 솔직하게 진짜 포기하고싶었.. 2023. 9. 25.
데이터 프레임 병합과정의 오류 해결과정 (pd.concat으로 해결!) 회귀분석을 진행하기 위해 데이터를 수집해서 데이터프레임으로 만들었다. 기존에 전처리를 하고 리스트 형태로 만들어서 하나의 데이터 프레임으로 4년치의 데이터를 추가했었는데, 기존 데이터프레임과 회귀용 데이터프레임을 병합하는 과정에서 문제가 생겼다. 에러 해결과정 merged_df = pd.merge(total_cost_comparison, Regression_analysis, on='평균', how='inner') TypeError: cannot concatenate object of type ''; only Series and DataFrame objs are valid 처음에 발생한 오류는 total_cost_comparison가 이전에 내가 리스트 형태로 묶은 것을 사용해서 났다. 그래서 데이터프레임.. 2023. 9. 20.
프로젝트 물가 데이터의 최종 방향성! 물가데이터의 최종 방향성이 오늘로 드디어 확립되었다!! 분산분석까지는 기존의 데이터들을 이용해서 나온 결과를 해석하는 것으로 하고, 회귀분석의 경우에는 환율, 전기요금, 유류할증료, 최저시급, 공산품 지수에 대한 데이터를 따로 수집했고, 이 부분의 전처리까지는 현재 진행된 상태이다. 23.09.20 내일을 기점으로 기존의 데이터프레임과 현재 데이터 프레임을 합칠 것이다. 그리고 전체 지출 비용에 대한 각각의 회귀 분석을 진행하고, 숙박 비용에 대한 각각의 회귀분석을 하는 등 이런 형태로 회귀분석을 진행해 나갈 것이다. 회귀분석이 끝나는대로 2022년에 대한 예측을 돌리려한다. 예측을 돌린 후에 인기관광지 파트까지 마무리 된 팀원이 맡아준 물가 관련 만족도 조사의 요인 분석을 합치면 마무리 될 것 같다. .. 2023. 9. 19.
제주도 물가에 대한 만족도 조사 요인 분석 기틀잡기 물가 데이터에 대한 종속변수를 월평균 지출금액으로 잡고, 최종적으론 물가에 대한 만족도 조사 결과를 요인 분석으로 할 생각이다. 이렇게되면 전체적인 프로젝트의 기틀이 달라지는 것이 아닌가? 에 대해서 말을 해보자면, 결론은 아니다. 물가 부분의 활용 방향이 살짝 달라질 뿐, 우리의 최종 목표는 제주 관광 공사에 인기 관광지와 함께 물가의 폭이 어떤 추세인지 보여주고 물가 조정을 부탁하는 것으로 하기 때문에 전혀 문제없다. 물가가 상승한 것이 아니라면, 연도별로 최저임금이 상승할 때 지출금액은 줄었어야 하는데 아니었다는 것을 활용해서 이 부분을 뒷받침 해주려 한다. 만족도에 대한 요인 분석을 하면 어떻게 활용할지는 아직 확정짓지는 않았지만, 현재 진행중인 분석과 비슷하게 카테고리별로 물가 만족도가 있으면 .. 2023. 9. 19.
금일 프로젝트 문제 + 현재 방향성에 대한 의문 금일 프로젝트 진행도에 대해 먼저 설명을 하자면, 결측치를 0으로 채웠던 부분을 스플라인 보간법을 활용해서 채워넣었다. 그리고 세부적으로 나눠졌던 지출금액 파트별로 해당 연도를 모두 모아 월별 평균값들을 하나의 데이터 프레임으로 만들었다. 그 데이터 프레임을 활용해서 일원 분산분석을 완료했으며, 회귀분석까지 진행한 상황이다. 여기서 드는 의문점!! 원래 우리가 다루려 했던 내용은 관광객수를 종속변수로 삼는 것이었다. 그런데 그 사실보다 데이터의 존재 유무가 너무 중요했어서 현재 데이터를 채택하면서 종속변수가 방향성을 잃었다.. ((이 부분은 내가 팀원과 같이 진행하는 물가 부분 한정이다. 그래서 기존의 관광객 수를 종속변수로 삼으려면 현재 진행 방향이 잘못 된 상황이라 갈아엎어야 할 것 같고, 이 방향성.. 2023. 9. 18.
분산분석을 진행하면서 발생한 이슈들 해결법 주말에 진행해본 라이브러리가 아닌 pingouin 라이브러리를 사용하라는 피드백을 받고 분산분석을 새로 진행했다. 주말에 진행한 코드에 문제가 있다고 생각해서 도움을 요청했는데 pingouin 라이브러리를 사용한 후 해결했다. ㅜㅜㅜㅜ 주말동안 이 부분으로 정말 골치 아팠는데 해결 되었다는 사실만으로 너무 다행이었다. 지금부터는 내가 라이브러리를 사용하면서 겪은 이슈와 해결한 방법을 작성해보려 한다. 기존 데이터프레임에 연도 설정이 없음 나는 4년치의 데이터를 비교하는 것이 목적이었기에 각 데이터가 몇년도를 뜻하는지를 코드에도 활용해야했다. 사람인 나는 코드 변수명을 보고 확인하면 그만이지만, 파이썬을 이용해 코드 분석을 진행하려면 어쩔 수가 없었다. 그래서 기존 데이터 프레임에 연도라는 컬럼을 생성해 .. 2023. 9. 18.
[박스플롯] labels와 positions 크기 호환 안되는 이슈 오늘 박스플롯으로 시각화 하는 것이 더 좋다는 피드백을 받고 변경하면서, 이슈가 발생했다. labels와 positions 크기 호환이 안된다는 문제였는데 이를 해결하는 방법에 대해 간단하게 작성한다. culture_cost_comparison = [culture_cost_2018, culture_cost_2019, culture_cost_2020, culture_cost_2021] colors = ['red', 'blue', 'green', 'purple'] plt.figure(figsize=(12, 6)) for i, df in enumerate(culture_cost_comparison): plt.boxplot(df['평균'], positions=[positions[i]], vert=False, p.. 2023. 9. 18.
분산분석을 시작하고 생긴 의문점과 코드 오류 어제 카테고리가 비어있는 곳에 각 월별에 대한 값을 집어넣고, 거기에 상응하는 평균값을 0으로 집어넣었다. 시각화까지는 구현하는데에 큰 문제없이 그냥 값이 없구나 할 정도로 넘길 수 있었는데, 귀무가설을 연도별로 비교했을 때, 큰 차이를 보이지 않는다. 로 잡고 분산분석을 시작했다. 그런데 코드를 여러번 수정해서 얻은 값을 보고 의문이 생겼다. (아래에 따로 다루겠다.) 현재 내가 코드부분을 정확하고 알아보기 쉽게 적용하는 능력이 부족하다. 코드를 보고 해설할 수 있는 능력은 생겼는데 내가 이 부분을 어떻게 해야 되는거지? 하고 적용은 아직 안되는 것 같다. 물론 파이썬 과정을 수강하면 실질적으로 코드 부분을 배운건 2달 남짓.. 2달만에 이 코드를 내 것처럼 구현한다는건 말이 되질 않는다. 그만큼 내가.. 2023. 9. 16.
데이터 결측치로 인한 시각화 오류 및 한글 깨짐 해결하기 프로젝트 진행 중에 수집한 데이터에 결측치로 인해 시각화 하는데 문제가 생겼다. 내가 겪은 결측치 이슈는 단순한 값만 없는 결측치로 인한 문제가 아닌, 아예 나뉜 카테고리 조차 없었다. 이 표를 보면 3월부터 5월의 분류 자체가 없다. 그래서 우리가 다루려는 평균값만 없던게 아니라, 해당 부분 자체가 아예 없는 결측치 이슈로 인해 그래프를 그리는것 자체가 문제가 생겼다. 그리고 한글을 제대로 입히지 못하는 인코딩 이슈 역시 일어났는데 이 부분과 함께 다뤄보려한다. 해결방법 1. 한글이 깨지는 현상 해결법 이 문제는 너무 간단하다. 아래의 한글 나눔고딕 폰트를 다운하면 된다. 먼저 아래의 코드를 복사해서 붙여넣는다. 이 방법은 코랩을 기반해서 작성함을 명시한다. !sudo apt-get install -y.. 2023. 9. 15.
프로젝트 물가 데이터 통계분석 변경사항 현재 물가파트에서 구한 2022년 데이터는 여름시즌에 한정됐다고 이전에 언급했던 것으로 기억한다. 여름시즌이라해도 몇달이 아니라 7, 8월으로 끝이라서 예측을 필히 돌려야 한다고 생각했다. 그래야 다른 주제로 프로젝트 하시는 분들과 너무 비교당하지 않아보일 것 같아서다. 이 부분에 대해서는 이전에 강사님께서 데이터가 정 없으면 이런식으로 해봐도 좋다고 하셔서 그랬는데, 주제가 코로나 부분이 삭제되면서 완전 갈아엎어진거라 어쩌다보니 정말 그렇게 활용해야하는 상황이 됐다. 그래서 오늘 다시 한번 피드백을 요청드렸다. 피드백 안건 정확하게 2가지에 대해 여쭤보았다. 1. 2022년의 데이터 결측치가 많아 예측을 돌리고 추정으로 해도 되는가? 그리고 그 데이터가 중심 극한 정리에 수렴하지 않아 분석을 진행하기 .. 2023. 9. 14.
728x90