본문 바로가기
기타

[통계 기초] 데이터 분석 공부를 위한 통계지식을 위한 개별 스터디 - 1편

by 포 키 2024. 3. 21.
728x90

데이터 분석 직무를 희망하고 있는 사람이라면, 가장 기본적으로 가져야할 통계지식에 대해 공부하려한다.

사실 다른 핑계로 미루고 미루다 이제야 제대로 작성해본다..ㅎ

나도 틈틈히 다시 볼 겸, 입문자들에게 도움도 될 겸 작성한다!

 

 

0. 강의 소개

5시간짜리 특강으로 유튜브 조회수 17만회를 기록한 것에 풀이까지 추가된 버전이다!

아래의 링크를 눌러 메타코드 사이트에서 로그인을 해주고 강의 영상 카테고리 > 통계/수학 에서 바로 신청하면 된다. 

https://mcode.co.kr/

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

 

 

1. 강의 설명

강의 내용이 어떤지를 참고하려는 분들을 위해 커리큘럼을 살짝 긁어와봤다!

 

 

모두 adsp나 빅데이터 분석기사 자격증을 따는데도 도움이 되는 강의이기 때문에 알차보여서 이 강의를 선택하게 되었다.

나는 이미 두 자격증은 있지만, 교육 수강기간이 끝난 후 공부를 안한지 1달이 되어가서 꼭 수강해야겠다는 생각이 들더라.

입문자들에게 특히나 추천하는 이유는 정말 필수로 알아야할 통계지식이 무엇인지부터, 단순한 설명으로만 구성된 것도 아니고 문제풀이가 있어 쉽게 이해할 수 있다.

특히 공분산같이 쉽게 이해하기 어려운 부분까지 모두 깔끔하게 설명을 잘해주셔서 다시 짚고 가는 시간도 될 수 있다.

이 강의를 먼저 수강하고 자격증 습득을 위한 통계공부를 하면 정말 도움이 많이 될 것 같다!

나는 당시 알지 못해서 혼자 책으로만 공부했는데 미리 알았다면 하는 아쉬움이 들었다..😂

 

 

2. 강의 내용 요약

 

데이터 종류

통계의 개념

 

통계란 데이터의 수집, 분석, 추론, 요약 등의 방법론을 다루는 학문이다.

통계는 디자인, 디스크립션, 인퍼런스 이렇게 3가지 하위 필드로 요약할 수 있다.

디자인의 경우 실험을 설계하는 것을 의미한다.

디스크립션의 경우 데이터를 통계적인 수치로 요약해서 정보를 제공하는 것으로 시각적인 것은 주로 엑셀, 수치적인 것은 평균값, 중앙값 등을 의미한다.

인퍼런스는 표본에 기반한 모집단에 대한 출원과 예측을 의미한다.

 

 

개념어

 

모집단은 통계학에서 관심/조사의 대상이 되는 개체 전체의 집합이다.

모수는 모집단에 대한 수치적인 요약으로 캡쳐본의 예시에서 고등학생과 성인은 우리나라 전체이거나 전세계일수도 있는 정말 모든 개체들을 포함한 모집단에 대해 의미한다.

표본은 모집단을 적절히 대표하는 모집단의 일부로 앞의 예시에서 서울시 XX구 라는 것이 붙으면 표본이 된다.

통계량은 표본에 대한 수치적 요약으로 예시에서는 1000명이 샘플링된 것이다.

즉, 표본에서 통계량을 구하고 그걸 통해서 모집단의 모수에 대해 추론하고 파악하는것이 통계의 기본이다.

 

 

자료의 종류

 

표본은 데이터로 표현이 되는데 이 데이터를 가지고 통계량을 구하게 되고, 자료는 크게 4가지로 구별된다.

범주형 자료는 속성을 범주화하고 상대적 서열(순서)도 표현한다.

그 중 명목형 자료는 단순히 속성을 분류하는 것을 의미하며, 혈액형이나 학교의 1반, 2반 등의 순서가 없는 것을 의미한다.

순서형 자료는 상대적인 크기를 비교하는 것을 의미하며, 학업성취도, 학력, 수업 평점 등이 해당된다.

양적 자료는 숫자로 표현되는 모든 자료를 의미하며, 셀수 있는 빈도, 갯수 같은 것은 이산형 자료, 시간이나 길이같이 셀수 없는 것은 연속형 자료라고 한다.

범주형 자료는 막대그래프로 표현하는 것이 더 나으며, 양적 자료는 선그래프를 활용하는 것이 낫다.

 

 

통계량

중심

 

최빈값은 발생 빈도가 높은 값을 말하고, 범주형 자료에서 사용하며 극단적인 값에 영향을 받지 않는 특성을 가지고 있다.

위의 표로 봤을 때, M 사이즈가 최빈값이 된다.

중앙값은 크기 순서로 정렬된 자료의 가운데에 위치하는 값을 의미하며, 역시 극단값에 영향을 받지 않는다.

평균값은 모든 값을 더해서 갯수로 나누다보니 극단값의 영향을 크게 받는다.

 

 

 

평균은 크게 3가지로 나뉘는데, 우리가 일반적으로 사용하고 알고 있는 평균은 산술평균이다.

가중평균은 자료의 중요성이 다를 때, 중요도에 따라 가중치를 부여해서 평균을 구하는 방법이다.

기하평균은 특정 값을 모두 곱한 것의 제곱근 값을 구하는 방법으로 성장율, 증가율과 같이 앞 시점에 대한 비율로 나타낸 것에 유용하게 사용되는 통계량으로 음수가 아닌 값만 사용한다.

 

 

산포

 

분산은 편차 제곱의 합을 자료 수로 나눈 값이고, 표준편차는 분산에 제곱근을 씌운 값이다.

위의 식에서 두개 모두 분모에 n-1로 되어있는데, 이는 표본으로 구한 값이라서 n-1로 처리를 해주는 것이다.

통계에서는 모집단이 매우 크고 구할 수 없는 것으로 인식하기 때문에 표본으로 계산하는 일이 많아서 그렇고,

만일 표본으로 구하는 것이 아니라 모집단을 활용해서 구한다면 분모는 n으로 바꾸면 된다.

 

 

형태

 

왜도는 음의 값부터 0, 양의 값까지 모두 가질 수 있으며 분포의 비대칭도를 나타낸다.

왜도가 음수일 경우 왼쪽으로 꼬리가 길고, 양수일 때는 오른쪽으로 꼬리가 길다.

양수일 경우 왼쪽으로 꼬리가 길었으니 중앙값을 기준으로 왼쪽에 최빈값이 나오게 되고 평균값은 오른쪽에 나오게 된다.

첨도는 그래프가 뾰족한 정도를 나타내고, 표준 정규분포의 첨도는 3이다.

 

 

상관

 

상관이란 확률변수 x,y의 변화가 서로 관계가 있을 때 상관관계가 있다고 하며 선형적인 관련성을 파악한다.

공분산은 두 변수와 관련이 있다보니, 이전 표본 분산을 구한 식에서 x의 제곱으로 되어있던 부분을 y변수 하나로 변경시켜준 것으로 이해하면 조금 쉬울 것 같다.

상관계수는 공분산을 두 변수의 표준편차의 곱으로 나눈 값으로, -1 ~ 1 사이의 값이며 두 양적 변수간의 선형적 연관성의 강도를 측정하는 값이다.

 

 

확률과 확률변수

확률정의

 

우연의 속성을 확률의 규칙성으로 설명할 수 있기 때문에 확률을 배우고 사용한다고 한다.

사건은 표본 집합의 일부를 나타내며, 두 집합의 합집합을 합사상, 두 집합의 교집합을 곱사상, 하나의 집합의 여집합을 여사상, 두 집합의 교집합이 공집합일 때, 배반사상이라고 한다.

동전을 두번 던졌을 때, 나올 수 있는 확률은 4가지이고, 앞면이 한번만 나오는 확률을 구하라고 하면 전체 4번 분의 처음에 앞면이 나온 횟수 1번, 마지막에 앞면이 나온 횟수 1번으로 1/2이 된다.

 

 

확률의 공리적 정의

 

표본 공간은 전체 집합이기에 확률이 1이고, 표본에서의 임의의 사상은 0부터 1까지의 확률을 가진다.

서로 배반인 사상들에 대해 모두 모아 합했을 때, 각각의 확률들을 모두 더한 값과 동일한 경우 P(A) = A의 확률이라고 할 수 있다.

이 말을 쉽게 적어보자면, 여러개의 사상이 있고 그 사상들이 모두 겹치는 부분이 없을 때, 이 사상들을 합한 확률은 1이다.

개인적으로 그렇게 어려운 개념은 아닌것 같다!

 

 

확률의 성질

 

확률은 두 사상이 있을 때, 두 사상의 각각을 더한 값에서 교집합을 제외하면 합집합이 된다.

한마디로 그냥 집합의 개념과 동일하게 적용된다고 생각하면된다.

A가 B에 포함된다면, 확률 역시 A보다 B의 확률이 더 크게 나올 수밖에 없다.

이말은, A = {1,2}, B = {1,2,3,4} 일 때, 전체 집합의 수를 생각해보면 될 것 같다.

728x90