금일 프로젝트 진행도에 대해 먼저 설명을 하자면,
결측치를 0으로 채웠던 부분을 스플라인 보간법을 활용해서 채워넣었다.
그리고 세부적으로 나눠졌던 지출금액 파트별로 해당 연도를 모두 모아 월별 평균값들을 하나의 데이터 프레임으로 만들었다.
그 데이터 프레임을 활용해서 일원 분산분석을 완료했으며, 회귀분석까지 진행한 상황이다.
여기서 드는 의문점!!
원래 우리가 다루려 했던 내용은 관광객수를 종속변수로 삼는 것이었다.
그런데 그 사실보다 데이터의 존재 유무가 너무 중요했어서 현재 데이터를 채택하면서 종속변수가 방향성을 잃었다..
((이 부분은 내가 팀원과 같이 진행하는 물가 부분 한정이다.
그래서 기존의 관광객 수를 종속변수로 삼으려면 현재 진행 방향이 잘못 된 상황이라 갈아엎어야 할 것 같고,
이 방향성이 진행도도 높고 활용도도 괜찮아서 끌고가는 것으로 하려면, 독립변수는 연도, 종속변수는 월평균 지출금액으로 변경해야할 것 같다.
연도가 지날수록 월평균 지출금액이 어떻게 변화했는지를 알고, 이 때 연도의 흐름과 왜 연관이 되는지를 뒷받침하기 위해 각 연도별 최저임금을 근거로 대서 뒷받침해주면 될 것 같다.
이 부분에 대해서는 내일 회의 후 추가로 작성해보려 한다.
그리고 이 방향성의 확립으로 분산분석과 회귀분석 역시 결과가 바뀔 수도 있다.
또 다른 의문으로는 회귀분석을 진행하면서 생겼다.
내가 배웠던 것을 토대로 하면 회귀분석이 일반 산점도 그래프에서 회귀선만 추가된 것으로 기억하는데
현재 코드에서 진행된 상황으로는 산점도라기 보단,,, 박스플롯 대신 일직선을 이루는 점으로 구성된 그래프 같다..
그래서 이게 맞는건지 너무 혼란스러운 상태다.
이 부분도 내일 확실하게 짚고갈 생각이라 같이 포스팅으로 작성하겠다.
오늘의 코드 문제점
(결론부터 말하자면 모두 포스팅으로 작성해두었기에 아래에 첨부해두겠다.)
먼저, 박스플롯을 이용하면서 문제가 발생했다.
2023.09.18 - [프로젝트] - [박스플롯] labels와 positions 크기 호환 안되는 이슈
그리고 분산분석을 진행하면서, pingouin 라이브러리를 사용해야 streamlit에 활용하기 좋다고 하셔서 활용할 라이브러리를 변경했다.
이 라이브러리를 활용하면서, 생긴 자잘한 코드 에러들도 발생했었다.
2023.09.18 - [프로젝트] - 분산분석을 진행하면서 발생한 이슈들 해결법
에러와 해결에 대해서는 위의 포스팅들을 참고하자.
'프로젝트' 카테고리의 다른 글
프로젝트 물가 데이터의 최종 방향성! (0) | 2023.09.19 |
---|---|
제주도 물가에 대한 만족도 조사 요인 분석 기틀잡기 (0) | 2023.09.19 |
분산분석을 진행하면서 발생한 이슈들 해결법 (0) | 2023.09.18 |
[박스플롯] labels와 positions 크기 호환 안되는 이슈 (0) | 2023.09.18 |
분산분석을 시작하고 생긴 의문점과 코드 오류 (0) | 2023.09.16 |