본문 바로가기
취업

[면접준비] 꼭 알아야할 통계지식, 데이터 분석 직무 지식 기초 정리하기!

by 포 키 2024. 1. 30.
728x90

드디어 고대하던 첫 서류합격으로 면접 일정이 잡혔다.

유일하게 신입 채용이 따로 진행된 스타트업이라 그런가 면접 기회가 생겨서 어제 하루종일 행복했다.

그래서 오늘은 1차 면접을 준비하면서 질문으로 나올법한 지식들을 정리해보는 시간을 가지려 한다!

 

 

⭐기초 지식 정리하기

면접에서 물어볼만한, 물어보지 않아도 기본적으로 알고 있어야 하는 지식들에 대해 정리해보자.

 

통계

 

통계적 개념이란?

통계학은 데이터를 수집하고 분석해 패턴을 찾아내는 학문으로 기술통계와 추론 통계가 있다.

1. 기술통계 : 데이터를 요약하고 설명하는 통계 기법

ex) 중심경향성(평균, 중앙값, 최빈값), 분산성(분산, 표준편차), 데이터 분포(백분위수, 도수분포) 등

 

2. 추론통계 : 샘플 데이터를 기반으로 모집단에 대한 일반적인 결론을 도출하는 통계 기법

ex) 통계적 가설검정, 신뢰구간 추정, 회귀 분석 등

 

 

통계적 가설 검정은 어떻게 수행하나?

통계적 가설 검정은 주어진 데이터를 사용해 특정 가설이 사실인지, 아닌지를 결정하는 과정이다.

일반적으로 귀무가설과 대립가설을 설정하고, 적절한 통계적 검정 방법을 선택해서 수행한다.

검정 방법은 다양하지만, 보통 많이 사용하는 것은 크게 4가지 정도로 구별된다.

 

1. 카이제곱 검정 : 범주형 데이터 간의 독립성을 확인하거나, 관측도수와 기대도수의 차이를 검정

ex) 성별과 선호하는 음식의 독립성을 검정하거나 관측된 빈도와 예상 빈도의 차이 검정

 

2. F-검정 (ANOVA) : 3개 이상의 그룹 간의 평균 차이를 비교함

ex) 3가지 교육 방법의 평균 성적을 비교해서 교육 방법이 성적에 미치는 영향 검정

 

3. 회귀분석 : 독립 변수와 종속 변수간의 관계를 분석하고 예측할 때 사용

ex) 공부 시간(독립 변수)과 시험 성적(종속 변수) 간의 관계를 분석해 시험 성적을 예측

 

4. t-검정 : 두 집단간의 평균 차이를 비교

=> t-검정은 예외로 여러 방법이 존재함

 

1. 단일표본 : 한개 집단의 평균이 어떤 특정한 값과 비교

ex) 학생들의 평균 키가 전체 학생 인구의 평균 키와 다른지 확인하기 위해 학생들의 평균 키를 특정한 인구의 평균 키와 비교

 

2. 독립표본 : 두 독립된 집단 간의 평균 차이를 비교

ex) 남성과 여성의 평균 키가 다른지 비교하기 위해 남성 그룹, 여성 그룹의 평균 키 비교

 

3. 쌍체표본 : 동일한 표본이나 그룹에 대해 두가지 조건의 평균 차이 비교

ex) 동일한 환자 그룹에서 약을 복용하기 전과 후의 혈압을 비교해 약의 효과를 확인

 

 

결측치와 이상치

 

1. 결측치 처리

먼저 결측치란 데이터에 값이 누락된 상태를 의미하며, 결측치를 처리하기 위해서는 2가지 방법이 있다.

- 제거 : 결측치를 포함한 행(표본, 샘플)이나 열(변수)을 제거하며, 보통 결측치가 많을때 채택

- 대체 : 결측치를 다른 값으로 대체하며, 평균값, 중앙값 등 대표값이나 회귀, 알고리즘 등을 활용한 예측값으로도 대체

 

2. 이상치 탐지

이상치는 데이터 집합에서 다른 관측값에 비해 튀는 값으로 다양한 방법으로 선별한다.

- 통계적 방법 : Z-Score, IQR을 사용해 데이터가 일정한 범위를 벗어나면 이상치로 간주함

- 시각적 방법 : boxplot, 산점도를 이용해 데이터 분포에서 동떨어진 관측치를 시각적으로 확인함

- 머신러닝 기반 방법 : 클러스터링 알고리즘이나 이상치 탐지 알고리즘을 사용해 패턴을 학습해 식별함

 

3. 이상치 처리

이상치를 처리하는 방법은 데이터의 특성과 분석 목적에 따라 다르다.

삭제, 대체, 원인을 파악해 데이터 수집과정이나 전처리 과정에서 개선 하는 방법들을 일반적으로 사용한다.

삭제나 대체의 경우 결측치 처리방법과 비슷하고, 개선하는 방법은 2가지가 있다.

- 로그 변환법 : 데이터의 분포가 치우쳐져 있을 때, 로그 변환을 통해 분포를 조절함

- box-cox 변환법 : 데이터의 분포를 정규 분포에 가깝게 만들기 위해 사용되는 변환으로 이상치에 대한 민감성이 낮아짐

 

통계분석

데이터 특성과 분석 목적에 따라 선택하며, 각 기법의 장단점을 고려해서 적절한 분석 방법을 채택해야한다.

 

통계분석 방법

- 군집 분석 : 비슷한 특성을 갖는 데이터를 묶어 군집을 형성하며, 분석을 통해 데이터의 패턴이나 유사성 발견함

ex) 고객의 구매 기록을 바탕으로 유사한 구매 행동을 갖는 고객을 군집화해 군집에 맞게 타겟 마케팅 전략 수립

 

- 요인 분석 : 변수간의 상관관계를 분석해 공통된 요인을 찾아내며, 주로 변수들간의 차원을 줄이고 데이터를 간소화함

ex) 시험 성적, 출석률, 과제 점수 등의 성과지표간의 공통된 요인을 찾아 학생의 학업 성취도를 설명함

 

- 회귀 분석 : 종속 변수와 여러 독립 변수간의 관계를 모델링하며, 독립 변수의 변화가 종속 변수에 미치는 영향을 분석함

ex) 주택 가격을 예측하기 위해 주택의 크기, 위치, 시설 등의 독립 변수를 사용해 회귀 모델을 생성함

 

- 로지스틱 회귀 분석 : 종속 변수가 이항변수인 경우에 사용하며, 결과를 로그-오즈로 모델링

 ex) 고객의 제품 구매여부를 예측하는데 사용하며 독립변수로 나이, 성별, 소득 등 사용됨

 

- 시계열 분석 : 시간에 따라 측정된 데이터의 패턴, 트렌드, 순환 등을 분석

ex) 주식 가격, 월별 판매량 등의 시계열 데이터를 분석해 향후 동향을 예측함

 

- 다변량 분석 : 2개 이상의 종속 변수와 여러 독립 변수간의 관계를 분석

ex) 여러개의 종속 변수에 대한 그룹 간 평균 차이를 비교

 

 

머신러닝

 

머신러닝 알고리즘 종류

- 선형 회귀 : 종속 변수와 하나 이상의 독립 변수간의 선형 관계를 모델링하며, 주로 연속형 종속 변수를 예측함

- 로지스틱 회귀 : 이항 분류 문제에 적합한 회귀 분석 기법으로 종속 변수가 이항 변수인 경우 사용함

- 의사결정나무 : 데이터를 기반으로 의사결정 규칙을 학습2하고 예측을 수행하는 지도학습 알고리즘으로, 데이터 기반으로 트리 구조를 생성해 각 분기에서 예측을 수행함

ex) 신용 승인 여부를 결정할 때, 소득, 신용 점수, 고용 기간 등의 변수를 기반으로 의사결정나무를 학습해 신용 승인 여부를 예측함

 

- 랜덤포레스트 : 여러개의 의사결정나무를 만들고, 각 트리의 예측을 종합해서 더 정확한 예측을 수행하는 앙상블 기법

 ex) 의료 진단에서 종양이 양성인지 음성인지 예측할 때, 여러개의 의사결정 나무를 학습해 종양의 특성을 기반으로 구축

 

- KNN : 새로운 데이터와 가까운 k개의 이웃을 찾아 이웃들의 클래스를 기반으로 분류하거나 회귀하는 알고리즘

ex) 소셜 미디어 사용자들의 특성에 따라 유사한 이웃을 찾아 사용자의 취향을 예측함

 

- SVM : 데이터를 고차원 공간으로 매칭해 클래스를 분리하는 초평면을 찾는 지도학습 알고리즘

ex) 이진 분류 문제에서 두 클래스 간의 경계를 최대화해 데이터를 분리하는 초평면을 찾아내는데 사용

 

머신러닝 분류

- 회귀 예측 : 연속형 변수를 예측하는 경우로 예측하려는 값이 숫자로 이루어져 있다.

주로 선형 회귀, 릿지 / 라쏘 회귀, 의사결정나무 회귀, 랜덤포레스트 회귀 등을 사용한다.

 

- 분류 예측 : 이산형 변수를 예측하는 경우에 해당하며, 예측하려는 값이 몇개의 클래스 중 하나에 속하는지 예측한다.

주로 로지스틱 회귀, 의사결정나무 분류, KNN 분류, SVM, 랜덤포레스트 분류 등을 사용한다.

 

머신러닝 평가지표

- 회귀분석 : MSE(실제값과 예측값간의 차이를 제곱해서 평균), RMSE(mse값에 루트), MAE(실제값과 예측값 차이의 절댓값의 평균), R^2(분산을 설명하는 지표로 1에 가까울수록 모델이 데이터를 잘 설명함) 등

- 분류분석 : 정확도(전체 중 올바르게 분류된 것), 정밀도(positive으로 예측한 모델에서 실제 positive), 재현율 (실제 positive 중 예측한 모델이 positive) , F1 Score(정밀도와 재현율) 등

 

 

앙상블 기법

여러개의 예측 모델을 결합해 하나의 강력한 모델을 만드는 기법

 

배깅

여러개의 예측 모델을 병렬적으로 학습하고 각 모델의 예측을 평균이나 투표를 통해 최종 예측하는 기법으로,

각 모델은 독립적으로 학습해서 병렬적으로 계산이 가능하며 분산을 줄여 과적합을 방지한다.

ex) 랜덤포레스트 등

 

부스팅

약한 모델을 순차적으로 학습하고, 이전 모델이 틀린 데이터에 가중치를 부여해 학습하는 기법으로,

이전 모델의 오차에 집중해 학습하며 성능 향상이 꾸준히 이루어져 성능이 높아질 때까지 모델을 추가한다.

ex) Gradient Boosting, XGBoost, LightGBM 등

 

배깅 VS 부스팅 : 한눈에 비교하기

 

학습 방법

배깅 : 병렬적으로 여러 모델을 학습

부스팅 : 순차적으로 각 모델을 학습하고 직전 모델의 오차에 집중해 학습

 

가중치 부여

배깅 : 각 모델의 예측을 동등하게 평균화하거나 다수결 방식으로 취합

부스팅 : 각 모델에 가중치를 부여하고 오차에 따라 가중 평균하여 취합

 

과적합 방지

배깅 : 각 모델이 독립적으로 학습하므로 과적합 방지에 도움

부스팅 : 각 모델이 순차적으로 학습하고 이전 모델의 오차에 집중해 학습하므로 과적합 방지에 도움

 

장점

배깅 : 과적합 감소, 앙상블 안정성, 병렬화 가능, 다양한 모델 사용 가능

부스팅 : 높은 정확도, 오류에 대한 강인함, 다양한 모델 사용가능, 변수 중요도 계산 가능

 

단점

배깅 : 해석의 어려움, 높은 계산 비용부스팅 : 과적합 가능성(반복적이고 가중치가 부여되는 것으로 인함), 긴 학습 시간, 이상치 민감성

 

=> 배깅은 모델간 다양성을 증가시키고 안정성을 높이는데 중점을 주고, 부스팅은 정확도를 향상시키는 것에 중점을 둔다.

728x90