본문 바로가기
취업

[kaggle] 캐글 타이타닉 데이터셋으로 분석 프로세스 비교 분석해보기(스케일링, 모델선정, 오버샘플링 등 자료공유!)

by 포 키 2024. 11. 15.
반응형

오늘은 왜 몇 달전에 이 글을 안올렸을까 하고 이제야 올리는 글이다.

올해 초에 캐글 스터디를 하면서 공부했던 내용들을 pdf 자료로 만들어서 같이 공유해서 공부한 적이 있다.

이 자료는 그 당시에 내가 직접 비교 분석하며 만든 자료이며, 템플릿은 미리 캔버스에서 무료로 제공되는 것을 활용했다.

 

 

캐글 데이터셋 활용에 대한 간단 설명

먼저, 캐글 데이터 셋을 활용하기 위해서는 캐글 사이트에 로그인을 해주면 된다.

따로 돈 들이는 것도 아니고 데이터를 활용하는 방안을 다양하게 전세계 이용자들의 코드를 통해서 이해할 수 있으므로 많이들 추천한다.

난... 솔직히 귀차니즘이 너무 크고 코드를 직관적으로 바로 캐치해내는 능력은 못되어 캐글 꾸준히 못하겠더라..

나같은 사람들은 그냥 다른 사람의 코드를 복붙 말고 직접 타이핑 쳐가면서 왜 이런 코드를 썼을지, 이 코드는 이런 import가 필요하구나 하고 느끼거나 어떤 라이브러리를 활용해서 평가지표를 생성해낸다거나 등 다양하게 깨달을 수 있는 시간이 되도록 일반적으로 많이들 하신다.

tmi지만 나도 일주일에 두세번을 기준으로 다시 공부를 시작해보려한다.

 

 

자료공유(다운로드, 암호X)

먼저 해당 자료는 타이타닉 데이터 셋의 다른 사람들의 코드와 내가 교육받을 때 교재를 참고해 활용했던 코드들을 섞어서 모델 선정부터 스케일링, 오버샘플링, 파라미터와 하이퍼 파라미터 등 이런 부분들에 대해 헷갈리거나 잘 모르겠는 부분들을 다시금 공부하기 위해 만든 파일이다.

정말 간단하게 알기 쉽도록만 정리해두었기에, 대단한 내용들이 많이 담기진 않고 핵심만을 담아두었다.

누구나 쉽게 데이터셋을 다양한 방법으로 활용해보기를 바라는 바이다.

 

헷갈리는 부분 정리본.pdf
0.61MB

 

 

맛보기 내용

반응형