본문 바로가기
반응형

분류 전체보기139

금일 프로젝트 문제 + 현재 방향성에 대한 의문 금일 프로젝트 진행도에 대해 먼저 설명을 하자면, 결측치를 0으로 채웠던 부분을 스플라인 보간법을 활용해서 채워넣었다. 그리고 세부적으로 나눠졌던 지출금액 파트별로 해당 연도를 모두 모아 월별 평균값들을 하나의 데이터 프레임으로 만들었다. 그 데이터 프레임을 활용해서 일원 분산분석을 완료했으며, 회귀분석까지 진행한 상황이다. 여기서 드는 의문점!! 원래 우리가 다루려 했던 내용은 관광객수를 종속변수로 삼는 것이었다. 그런데 그 사실보다 데이터의 존재 유무가 너무 중요했어서 현재 데이터를 채택하면서 종속변수가 방향성을 잃었다.. ((이 부분은 내가 팀원과 같이 진행하는 물가 부분 한정이다. 그래서 기존의 관광객 수를 종속변수로 삼으려면 현재 진행 방향이 잘못 된 상황이라 갈아엎어야 할 것 같고, 이 방향성.. 2023. 9. 18.
분산분석을 진행하면서 발생한 이슈들 해결법 주말에 진행해본 라이브러리가 아닌 pingouin 라이브러리를 사용하라는 피드백을 받고 분산분석을 새로 진행했다. 주말에 진행한 코드에 문제가 있다고 생각해서 도움을 요청했는데 pingouin 라이브러리를 사용한 후 해결했다. ㅜㅜㅜㅜ 주말동안 이 부분으로 정말 골치 아팠는데 해결 되었다는 사실만으로 너무 다행이었다. 지금부터는 내가 라이브러리를 사용하면서 겪은 이슈와 해결한 방법을 작성해보려 한다. 기존 데이터프레임에 연도 설정이 없음 나는 4년치의 데이터를 비교하는 것이 목적이었기에 각 데이터가 몇년도를 뜻하는지를 코드에도 활용해야했다. 사람인 나는 코드 변수명을 보고 확인하면 그만이지만, 파이썬을 이용해 코드 분석을 진행하려면 어쩔 수가 없었다. 그래서 기존 데이터 프레임에 연도라는 컬럼을 생성해 .. 2023. 9. 18.
[박스플롯] labels와 positions 크기 호환 안되는 이슈 오늘 박스플롯으로 시각화 하는 것이 더 좋다는 피드백을 받고 변경하면서, 이슈가 발생했다. labels와 positions 크기 호환이 안된다는 문제였는데 이를 해결하는 방법에 대해 간단하게 작성한다. culture_cost_comparison = [culture_cost_2018, culture_cost_2019, culture_cost_2020, culture_cost_2021] colors = ['red', 'blue', 'green', 'purple'] plt.figure(figsize=(12, 6)) for i, df in enumerate(culture_cost_comparison): plt.boxplot(df['평균'], positions=[positions[i]], vert=False, p.. 2023. 9. 18.
분산분석을 시작하고 생긴 의문점과 코드 오류 어제 카테고리가 비어있는 곳에 각 월별에 대한 값을 집어넣고, 거기에 상응하는 평균값을 0으로 집어넣었다. 시각화까지는 구현하는데에 큰 문제없이 그냥 값이 없구나 할 정도로 넘길 수 있었는데, 귀무가설을 연도별로 비교했을 때, 큰 차이를 보이지 않는다. 로 잡고 분산분석을 시작했다. 그런데 코드를 여러번 수정해서 얻은 값을 보고 의문이 생겼다. (아래에 따로 다루겠다.) 현재 내가 코드부분을 정확하고 알아보기 쉽게 적용하는 능력이 부족하다. 코드를 보고 해설할 수 있는 능력은 생겼는데 내가 이 부분을 어떻게 해야 되는거지? 하고 적용은 아직 안되는 것 같다. 물론 파이썬 과정을 수강하면 실질적으로 코드 부분을 배운건 2달 남짓.. 2달만에 이 코드를 내 것처럼 구현한다는건 말이 되질 않는다. 그만큼 내가.. 2023. 9. 16.
데이터 결측치로 인한 시각화 오류 및 한글 깨짐 해결하기 프로젝트 진행 중에 수집한 데이터에 결측치로 인해 시각화 하는데 문제가 생겼다. 내가 겪은 결측치 이슈는 단순한 값만 없는 결측치로 인한 문제가 아닌, 아예 나뉜 카테고리 조차 없었다. 이 표를 보면 3월부터 5월의 분류 자체가 없다. 그래서 우리가 다루려는 평균값만 없던게 아니라, 해당 부분 자체가 아예 없는 결측치 이슈로 인해 그래프를 그리는것 자체가 문제가 생겼다. 그리고 한글을 제대로 입히지 못하는 인코딩 이슈 역시 일어났는데 이 부분과 함께 다뤄보려한다. 해결방법 1. 한글이 깨지는 현상 해결법 이 문제는 너무 간단하다. 아래의 한글 나눔고딕 폰트를 다운하면 된다. 먼저 아래의 코드를 복사해서 붙여넣는다. 이 방법은 코랩을 기반해서 작성함을 명시한다. !sudo apt-get install -y.. 2023. 9. 15.
프로젝트 물가 데이터 통계분석 변경사항 현재 물가파트에서 구한 2022년 데이터는 여름시즌에 한정됐다고 이전에 언급했던 것으로 기억한다. 여름시즌이라해도 몇달이 아니라 7, 8월으로 끝이라서 예측을 필히 돌려야 한다고 생각했다. 그래야 다른 주제로 프로젝트 하시는 분들과 너무 비교당하지 않아보일 것 같아서다. 이 부분에 대해서는 이전에 강사님께서 데이터가 정 없으면 이런식으로 해봐도 좋다고 하셔서 그랬는데, 주제가 코로나 부분이 삭제되면서 완전 갈아엎어진거라 어쩌다보니 정말 그렇게 활용해야하는 상황이 됐다. 그래서 오늘 다시 한번 피드백을 요청드렸다. 피드백 안건 정확하게 2가지에 대해 여쭤보았다. 1. 2022년의 데이터 결측치가 많아 예측을 돌리고 추정으로 해도 되는가? 그리고 그 데이터가 중심 극한 정리에 수렴하지 않아 분석을 진행하기 .. 2023. 9. 14.
데이터 전처리 과정에서 발생한 csv 파일 인코딩 이슈 해결법 2019년도 통계에 대한 데이터 전처리는 오전에 끝냈지만, 추가적으로 당시 요금과 관련한 한글문서 파일을 찾았다. 정확하게는 관광지 입장료에 대한 요금 파일을 찾았다. 그래서 이 파일을 csv로 저장해서 무료인데 결측치로 되어있던 부분을 문서 자체에서 수정을 했다. 분명 csv 파일로 변환하면서 따로 건드린 것도 없는데 인코딩 이슈가 났다. UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 27: invalid start byte 찾아보니 인코딩이 'utf-8' 이 아니어서 나는 오류였다. 그래서 해결 방법을 열심히 찾아봤다. pandas를 사용할 때, 코드 오류도 딱히 없었기 때문에 이 부분은 문제가 되지 않았고 인코딩을 변경시키.. 2023. 9. 13.
프로젝트 진행 상황 - 데이터 전처리 2023.09.12 어제부로 데이터 전처리가 시작되었다. 데이터 전처리의 경우 현재 연도별로 나눠서 담당하고 있다. 각 연도별로 1인당 지출경비의 세부 카테고리 별로 데이터를 솎아내는 중이고, 데이터 수집 비율에 대한 응답자 프로파일이나 지출기준인원같은 상위 항목에 대해서는 필요한 부분만 추출했다. 응답자 프로파일 등을 전처리에 활용한 이유는 현재 우리는 수입별, 여행목적별 등 일부 항목은 분석을 진행하지 않는다. 원본 파일에는 우리가 활용할 월별, 연령별을 포함해 성별 등등 항목이 다양하게 갖춰있어서 추출하기로 했다. 데이터 시기는 2018년부터 2022년까지, 5년에 대한 데이터가 많아 5년을 기간으로 잡기로 했다. 그래서 전처리를 진행 할 때 연도별로 일단 2개씩 맡는 것으로 진행했고, 2022년 .. 2023. 9. 13.
프로젝트 진행 상황 - 물가 파트 수집 현재 종속변수는 제주도 관광객수, 독립변수는 물가 인 파트를 담당하고 있다. 그래서 해당 자료를 찾다가 물가도 식비, 숙박비, 교통비, 항공/선박 티켓비 등등 다양한 데이터들을 발견했다. 참고한 사이트를 공유한다. https://www.visitjeju.net/kr/bigdatamap/ https://www.visitjeju.net/kr/bigdatamap/ www.visitjeju.net 내가 활용하는 자료는 사이트에 회원가입을 하고 승인을 받아야 볼 수 있는 자료들이다. 나는 기다릴 시간이 없어서 직접 연락을 드렸고, 바로 승인 해주셨다!! 오늘 아침에 메일을 확인했을때 승인되었다며 가이드도 보내주셨다. 해당 데이터에 2022년은 여름시즌을 한정으로 조사한 데이터라 우리가 원하는 월별로 나뉜 데이터를.. 2023. 9. 12.
반응형