본문 바로가기
728x90

프로젝트23

데이터 전처리 과정에서 발생한 csv 파일 인코딩 이슈 해결법 2019년도 통계에 대한 데이터 전처리는 오전에 끝냈지만, 추가적으로 당시 요금과 관련한 한글문서 파일을 찾았다. 정확하게는 관광지 입장료에 대한 요금 파일을 찾았다. 그래서 이 파일을 csv로 저장해서 무료인데 결측치로 되어있던 부분을 문서 자체에서 수정을 했다. 분명 csv 파일로 변환하면서 따로 건드린 것도 없는데 인코딩 이슈가 났다. UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 27: invalid start byte 찾아보니 인코딩이 'utf-8' 이 아니어서 나는 오류였다. 그래서 해결 방법을 열심히 찾아봤다. pandas를 사용할 때, 코드 오류도 딱히 없었기 때문에 이 부분은 문제가 되지 않았고 인코딩을 변경시키.. 2023. 9. 13.
프로젝트 진행 상황 - 데이터 전처리 2023.09.12 어제부로 데이터 전처리가 시작되었다. 데이터 전처리의 경우 현재 연도별로 나눠서 담당하고 있다. 각 연도별로 1인당 지출경비의 세부 카테고리 별로 데이터를 솎아내는 중이고, 데이터 수집 비율에 대한 응답자 프로파일이나 지출기준인원같은 상위 항목에 대해서는 필요한 부분만 추출했다. 응답자 프로파일 등을 전처리에 활용한 이유는 현재 우리는 수입별, 여행목적별 등 일부 항목은 분석을 진행하지 않는다. 원본 파일에는 우리가 활용할 월별, 연령별을 포함해 성별 등등 항목이 다양하게 갖춰있어서 추출하기로 했다. 데이터 시기는 2018년부터 2022년까지, 5년에 대한 데이터가 많아 5년을 기간으로 잡기로 했다. 그래서 전처리를 진행 할 때 연도별로 일단 2개씩 맡는 것으로 진행했고, 2022년 .. 2023. 9. 13.
프로젝트 진행 상황 - 물가 파트 수집 현재 종속변수는 제주도 관광객수, 독립변수는 물가 인 파트를 담당하고 있다. 그래서 해당 자료를 찾다가 물가도 식비, 숙박비, 교통비, 항공/선박 티켓비 등등 다양한 데이터들을 발견했다. 참고한 사이트를 공유한다. https://www.visitjeju.net/kr/bigdatamap/ https://www.visitjeju.net/kr/bigdatamap/ www.visitjeju.net 내가 활용하는 자료는 사이트에 회원가입을 하고 승인을 받아야 볼 수 있는 자료들이다. 나는 기다릴 시간이 없어서 직접 연락을 드렸고, 바로 승인 해주셨다!! 오늘 아침에 메일을 확인했을때 승인되었다며 가이드도 보내주셨다. 해당 데이터에 2022년은 여름시즌을 한정으로 조사한 데이터라 우리가 원하는 월별로 나뉜 데이터를.. 2023. 9. 12.
프로젝트 주제 확정 프로젝트를 위해 조금씩 시간을 주신 것을 포함하면 벌써 보름이 넘는 기간이 지나갔다. 우리조의 대주제는 국민 여행 조사 데이터를 활용한 여행 유형 분류 였다. 너무 큰 주제이기도 했고, api를 활용하는 것도 보여줘야 하는데 그렇게 하지 못해서 주제가 많이 흔들렸다. 피드백을 받을 때도 그 다음날 주제를 보고 아예 주제를 다르게 해보라는 의견을 받기도 해서 주제를 정하는게 오래걸렸다. 종속변수를 구하는 것도 데이터가 너무 적다보니 그만큼 정하는게 너무 어려웠다. 이 글을 작성하는 2023년 09월 11일을 기준으로 주제는 모두 확정되었다. 주제 변천사를 간단하게 담아내면 아래와 같다. 1. 국민여행조사 데이터를 기반으로 한 여행 유형을 어떻게 분류를 할까 고민을 했다. 2. 강사님이 한 지역으로 한정해서.. 2023. 9. 11.
프로젝트 진행 사항에 대한 기록(readme 버전) 여태껏 프로젝트를 준비하는 기간부터 지금까지 프로젝트 진행에 대한 부분은 포스팅을 하지 않으려 했다. 그러나 이렇게 시작하게 된 계기는 프로젝트 진행 사항에 대해 남겨두면, 이후 트러블 슈팅을 남길때 언제였는지 이해하기 쉬울 것 같았고, 포스팅도 너무 오랜기간 손을 놓게 될 것 같아 남겨두자고 마음을 바꿨다. 웬만하면 github와 같이 그날그날 조금이라도 남기는 것을 목표로 하고 있다. 혹시라도 주말을 제외하고, 포스팅이 올라오지 않으면 github - Jeju project 의 readme로 확인 가능하다. 앞으로 기록할 내용 1. 남은 기간동안의 그날 그날 프로젝트 진행사항 남기기 코드의 경우 코드를 남기고, 주제에 대한 회의를 진행하는 시기에는 변천사를 모두 담아보려함. 2. 트러블 슈팅 다루기 .. 2023. 9. 11.
728x90