본문 바로가기
반응형

프로젝트23

데이터 프레임 병합과정의 오류 해결과정 (pd.concat으로 해결!) 회귀분석을 진행하기 위해 데이터를 수집해서 데이터프레임으로 만들었다. 기존에 전처리를 하고 리스트 형태로 만들어서 하나의 데이터 프레임으로 4년치의 데이터를 추가했었는데, 기존 데이터프레임과 회귀용 데이터프레임을 병합하는 과정에서 문제가 생겼다. 에러 해결과정 merged_df = pd.merge(total_cost_comparison, Regression_analysis, on='평균', how='inner') TypeError: cannot concatenate object of type ''; only Series and DataFrame objs are valid 처음에 발생한 오류는 total_cost_comparison가 이전에 내가 리스트 형태로 묶은 것을 사용해서 났다. 그래서 데이터프레임.. 2023. 9. 20.
프로젝트 물가 데이터의 최종 방향성! 물가데이터의 최종 방향성이 오늘로 드디어 확립되었다!! 분산분석까지는 기존의 데이터들을 이용해서 나온 결과를 해석하는 것으로 하고, 회귀분석의 경우에는 환율, 전기요금, 유류할증료, 최저시급, 공산품 지수에 대한 데이터를 따로 수집했고, 이 부분의 전처리까지는 현재 진행된 상태이다. 23.09.20 내일을 기점으로 기존의 데이터프레임과 현재 데이터 프레임을 합칠 것이다. 그리고 전체 지출 비용에 대한 각각의 회귀 분석을 진행하고, 숙박 비용에 대한 각각의 회귀분석을 하는 등 이런 형태로 회귀분석을 진행해 나갈 것이다. 회귀분석이 끝나는대로 2022년에 대한 예측을 돌리려한다. 예측을 돌린 후에 인기관광지 파트까지 마무리 된 팀원이 맡아준 물가 관련 만족도 조사의 요인 분석을 합치면 마무리 될 것 같다. .. 2023. 9. 19.
제주도 물가에 대한 만족도 조사 요인 분석 기틀잡기 물가 데이터에 대한 종속변수를 월평균 지출금액으로 잡고, 최종적으론 물가에 대한 만족도 조사 결과를 요인 분석으로 할 생각이다. 이렇게되면 전체적인 프로젝트의 기틀이 달라지는 것이 아닌가? 에 대해서 말을 해보자면, 결론은 아니다. 물가 부분의 활용 방향이 살짝 달라질 뿐, 우리의 최종 목표는 제주 관광 공사에 인기 관광지와 함께 물가의 폭이 어떤 추세인지 보여주고 물가 조정을 부탁하는 것으로 하기 때문에 전혀 문제없다. 물가가 상승한 것이 아니라면, 연도별로 최저임금이 상승할 때 지출금액은 줄었어야 하는데 아니었다는 것을 활용해서 이 부분을 뒷받침 해주려 한다. 만족도에 대한 요인 분석을 하면 어떻게 활용할지는 아직 확정짓지는 않았지만, 현재 진행중인 분석과 비슷하게 카테고리별로 물가 만족도가 있으면 .. 2023. 9. 19.
금일 프로젝트 문제 + 현재 방향성에 대한 의문 금일 프로젝트 진행도에 대해 먼저 설명을 하자면, 결측치를 0으로 채웠던 부분을 스플라인 보간법을 활용해서 채워넣었다. 그리고 세부적으로 나눠졌던 지출금액 파트별로 해당 연도를 모두 모아 월별 평균값들을 하나의 데이터 프레임으로 만들었다. 그 데이터 프레임을 활용해서 일원 분산분석을 완료했으며, 회귀분석까지 진행한 상황이다. 여기서 드는 의문점!! 원래 우리가 다루려 했던 내용은 관광객수를 종속변수로 삼는 것이었다. 그런데 그 사실보다 데이터의 존재 유무가 너무 중요했어서 현재 데이터를 채택하면서 종속변수가 방향성을 잃었다.. ((이 부분은 내가 팀원과 같이 진행하는 물가 부분 한정이다. 그래서 기존의 관광객 수를 종속변수로 삼으려면 현재 진행 방향이 잘못 된 상황이라 갈아엎어야 할 것 같고, 이 방향성.. 2023. 9. 18.
분산분석을 진행하면서 발생한 이슈들 해결법 주말에 진행해본 라이브러리가 아닌 pingouin 라이브러리를 사용하라는 피드백을 받고 분산분석을 새로 진행했다. 주말에 진행한 코드에 문제가 있다고 생각해서 도움을 요청했는데 pingouin 라이브러리를 사용한 후 해결했다. ㅜㅜㅜㅜ 주말동안 이 부분으로 정말 골치 아팠는데 해결 되었다는 사실만으로 너무 다행이었다. 지금부터는 내가 라이브러리를 사용하면서 겪은 이슈와 해결한 방법을 작성해보려 한다. 기존 데이터프레임에 연도 설정이 없음 나는 4년치의 데이터를 비교하는 것이 목적이었기에 각 데이터가 몇년도를 뜻하는지를 코드에도 활용해야했다. 사람인 나는 코드 변수명을 보고 확인하면 그만이지만, 파이썬을 이용해 코드 분석을 진행하려면 어쩔 수가 없었다. 그래서 기존 데이터 프레임에 연도라는 컬럼을 생성해 .. 2023. 9. 18.
[박스플롯] labels와 positions 크기 호환 안되는 이슈 오늘 박스플롯으로 시각화 하는 것이 더 좋다는 피드백을 받고 변경하면서, 이슈가 발생했다. labels와 positions 크기 호환이 안된다는 문제였는데 이를 해결하는 방법에 대해 간단하게 작성한다. culture_cost_comparison = [culture_cost_2018, culture_cost_2019, culture_cost_2020, culture_cost_2021] colors = ['red', 'blue', 'green', 'purple'] plt.figure(figsize=(12, 6)) for i, df in enumerate(culture_cost_comparison): plt.boxplot(df['평균'], positions=[positions[i]], vert=False, p.. 2023. 9. 18.
분산분석을 시작하고 생긴 의문점과 코드 오류 어제 카테고리가 비어있는 곳에 각 월별에 대한 값을 집어넣고, 거기에 상응하는 평균값을 0으로 집어넣었다. 시각화까지는 구현하는데에 큰 문제없이 그냥 값이 없구나 할 정도로 넘길 수 있었는데, 귀무가설을 연도별로 비교했을 때, 큰 차이를 보이지 않는다. 로 잡고 분산분석을 시작했다. 그런데 코드를 여러번 수정해서 얻은 값을 보고 의문이 생겼다. (아래에 따로 다루겠다.) 현재 내가 코드부분을 정확하고 알아보기 쉽게 적용하는 능력이 부족하다. 코드를 보고 해설할 수 있는 능력은 생겼는데 내가 이 부분을 어떻게 해야 되는거지? 하고 적용은 아직 안되는 것 같다. 물론 파이썬 과정을 수강하면 실질적으로 코드 부분을 배운건 2달 남짓.. 2달만에 이 코드를 내 것처럼 구현한다는건 말이 되질 않는다. 그만큼 내가.. 2023. 9. 16.
데이터 결측치로 인한 시각화 오류 및 한글 깨짐 해결하기 프로젝트 진행 중에 수집한 데이터에 결측치로 인해 시각화 하는데 문제가 생겼다. 내가 겪은 결측치 이슈는 단순한 값만 없는 결측치로 인한 문제가 아닌, 아예 나뉜 카테고리 조차 없었다. 이 표를 보면 3월부터 5월의 분류 자체가 없다. 그래서 우리가 다루려는 평균값만 없던게 아니라, 해당 부분 자체가 아예 없는 결측치 이슈로 인해 그래프를 그리는것 자체가 문제가 생겼다. 그리고 한글을 제대로 입히지 못하는 인코딩 이슈 역시 일어났는데 이 부분과 함께 다뤄보려한다. 해결방법 1. 한글이 깨지는 현상 해결법 이 문제는 너무 간단하다. 아래의 한글 나눔고딕 폰트를 다운하면 된다. 먼저 아래의 코드를 복사해서 붙여넣는다. 이 방법은 코랩을 기반해서 작성함을 명시한다. !sudo apt-get install -y.. 2023. 9. 15.
프로젝트 물가 데이터 통계분석 변경사항 현재 물가파트에서 구한 2022년 데이터는 여름시즌에 한정됐다고 이전에 언급했던 것으로 기억한다. 여름시즌이라해도 몇달이 아니라 7, 8월으로 끝이라서 예측을 필히 돌려야 한다고 생각했다. 그래야 다른 주제로 프로젝트 하시는 분들과 너무 비교당하지 않아보일 것 같아서다. 이 부분에 대해서는 이전에 강사님께서 데이터가 정 없으면 이런식으로 해봐도 좋다고 하셔서 그랬는데, 주제가 코로나 부분이 삭제되면서 완전 갈아엎어진거라 어쩌다보니 정말 그렇게 활용해야하는 상황이 됐다. 그래서 오늘 다시 한번 피드백을 요청드렸다. 피드백 안건 정확하게 2가지에 대해 여쭤보았다. 1. 2022년의 데이터 결측치가 많아 예측을 돌리고 추정으로 해도 되는가? 그리고 그 데이터가 중심 극한 정리에 수렴하지 않아 분석을 진행하기 .. 2023. 9. 14.
반응형