본문 바로가기
프로젝트

프로젝트 진행 상황 - 데이터 전처리

by 포 키 2023. 9. 13.
반응형

2023.09.12 어제부로 데이터 전처리가 시작되었다.

데이터 전처리의 경우 현재 연도별로 나눠서 담당하고 있다.

각 연도별로 1인당 지출경비의 세부 카테고리 별로 데이터를 솎아내는 중이고, 데이터 수집 비율에 대한 응답자 프로파일이나 지출기준인원같은 상위 항목에 대해서는 필요한 부분만 추출했다.

응답자 프로파일 등을 전처리에 활용한 이유는 현재 우리는 수입별, 여행목적별 등 일부 항목은 분석을 진행하지 않는다.

원본 파일에는 우리가 활용할 월별, 연령별을 포함해 성별 등등 항목이 다양하게 갖춰있어서 추출하기로 했다.

데이터 시기는 2018년부터 2022년까지, 5년에 대한 데이터가 많아 5년을 기간으로 잡기로 했다.

그래서 전처리를 진행 할 때 연도별로 일단 2개씩 맡는 것으로 진행했고, 2022년 데이터의 경우 여름시즌.

즉, 성수기에 사전, 사후 조사를 한 데이터가 끝이라서 기존을 대비한 예측을 돌리자는 말이 나온 상태이다.

그래서 전처리도 이 부분은 두명이 같이 보면서 쓸만한 항목별로 나눠서 진행 할 것 같다.

 

프로젝트 자체가 처음이기도 하고, 주제에 대한 데이터 크롤링이 많이 어려운만큼 어떻게 해야할지가 너무 어렵다.

아이디어가 나와도 데이터가 있어야 성공을 하든, 실패를 하든 할텐데

어제 실패로 확정지은 날씨의 경우에도 데이터가 일별로 우리가 하나하나 찾아서 유독 결항이 많은 날을 찾았음에도,

관광객수에는 변동이 없었고, 오히려 전년도 동월 항공편 지연에 대한 기록만 있었음에도 관광객수가 떨어졌다.

애초에 결항이라는 부분을 찾아내기가 힘들었는데 겨우 찾은 데이터와 우리가 세운 결항 당일 관광객수가 줄어들 것이다!

하는 가설이 증명되지도, 반대로 늘어나지도 않은 그대로 유지된 것을 보며 귀무가설과 대립가설이 모두 배반되었다.

이런 부분들을 찾으면서 실패에 대한 요인을 분석하는 것도 의미있다고 하셨으니 기죽지 않고 다른 방법들을 찾아보려한다!

실무에서도 모든 데이터를 찾아올 수는 없는게 현실이니 말이다. ㅋㅋㅋㅋㅋ

 

개인적으로 생각한 부분이 있었다.

날씨 요인이 실패함을 분석해도 어차피 데이터가 많지 않아 금방 끝난다고 하셔서,

물가 파트의 크롤링을 하며 만족도 조사에 대한 파일이 다양하게 나눠진 것을 발견했다.

그래서 물가쪽에서 만족도 조사까지 다루는 것이 어떨까? 하는 의견을 나눈 적이 있었다.

그렇게 하지 않아도 어차피 활용할 계획이었으면, 만족도를 주 독립변수로 생각하지 않고,

물가나 성수기 파트에 대한 뒷받침을 해주는 용도로 사용할 수 있도록 요인 분석을 다양하게 진행해봐도 좋을 것 같았다.

이게 프로젝트의 주제와 맞는지를 잘 모르겠어서 현재 질문을 한 상태이고,

이 부분에 대해서 진행하는 것이 내용상으로도 좋다고 하시면 팀원들에게 의견을 구해볼 생각이다.

 

오늘 만족도 요인 분석에 대한 이야기가 오간다면 다시 포스팅으로 남기러 오겠다.

반응형