본문 바로가기
프로젝트

프로젝트 물가 데이터 통계분석 변경사항

by 포 키 2023. 9. 14.
728x90

현재 물가파트에서 구한 2022년 데이터는 여름시즌에 한정됐다고 이전에 언급했던 것으로 기억한다.

여름시즌이라해도 몇달이 아니라 7, 8월으로 끝이라서 예측을 필히 돌려야 한다고 생각했다.

그래야 다른 주제로 프로젝트 하시는 분들과 너무 비교당하지 않아보일 것 같아서다.

이 부분에 대해서는 이전에 강사님께서 데이터가 정 없으면 이런식으로 해봐도 좋다고 하셔서 그랬는데,

주제가 코로나 부분이 삭제되면서 완전 갈아엎어진거라 어쩌다보니 정말 그렇게 활용해야하는 상황이 됐다.

그래서 오늘 다시 한번 피드백을 요청드렸다.

 

피드백  안건

정확하게 2가지에 대해 여쭤보았다.

1. 2022년의 데이터 결측치가 많아 예측을 돌리고 추정으로 해도 되는가? 그리고 그 데이터가 중심 극한 정리에 수렴하지 않아 분석을 진행하기 어렵다.

여러 카테고리로 사례들을 수집했지만 워낙 작은 기간에 하기도 했어서 데이터의 양이 적으니 중심 극한 정리가 수렴하지 않았다.

 

2. 원래 주제는 그룹이 2개여서 t-test를 사용하려했으나, 현재는 4그룹이라 분석법을 바꿔야 할 것 같은데 그렇게 진행하면 방향을 어떻게 잡아야 하는가?

 

그래서 받게된 답변이다.

 

피드백에 대한 답변

1. 2022년 데이터를 사용하지 말고 앞 데이터들을 이용해 예측을 진행하는 것은 괜찮다.

예측을 진행하는 것에 있어서 적합하지 않은 부분이 없으니 예측을 통해 추정치를 돌리는 것도 괜찮다고 해주셨다.

다만, 7, 8월 데이터라도 사용하려했는데 그 데이터는 그냥 과감하게 버리는 것을 추천해주셨다.

중심 극한 정리를 수렴하지 않는다면 분석을 진행하지 못한다.

그렇다고 이 데이터를 우리가 추가로 수집할 수 있는 것도 아니니 이 부분의 데이터는 사용하지 말라고 하셨다.

 

2. 현재 연도별로 통계분석을 진행하는 방향이니 t-test를 사용하지 못하는게 맞다.

분산분석을 사용해 평균값에 대한 분석만 진행하고, 시각화로 이해도를 높여라.

원래 우리 프로젝트에서 요구하는 것은 데이터를 수집하고 처리하는 능력을 키우는 것이 중요하다 하셨다.

그래서 시각화 같은 부분만을 중점으로 두기보다는 데이터 처리까지의 과정에서 실패를 했으면,

그 실패 요인에 대해서도 약간의 분석을 해주고 넘어가는 것이 중요하다 했다.

실무에서는 이런 실패 사례들이 빈번하기 때문에 이런 부분에 대한 능력과 대처를 보기 위함이다.

그렇기 때문에 통계분석 부분을 적게 하더라도 이해를 할 수 있도록 다른 부분들로 뒷받침 하는것이 중요한것 같다.

 

결론!!

물가 부분에서 통계분석은 분산분석으로 평균값 정도만 분석을 하고, 이 부분의 이해도를 높이기 위해 분석된 부분을 시각화를 활용해서 진행하기로 했다.

그리고 물가 파트만 2022년의 부분을 진행하지 않는 대신 예측을 그대로 하는 것으로 확정지었다.

728x90