본문 바로가기
728x90

머신러닝6

[면접준비] 꼭 알아야할 통계지식, 데이터 분석 직무 지식 기초 정리하기! 드디어 고대하던 첫 서류합격으로 면접 일정이 잡혔다. 유일하게 신입 채용이 따로 진행된 스타트업이라 그런가 면접 기회가 생겨서 어제 하루종일 행복했다. 그래서 오늘은 1차 면접을 준비하면서 질문으로 나올법한 지식들을 정리해보는 시간을 가지려 한다! ⭐기초 지식 정리하기⭐ 면접에서 물어볼만한, 물어보지 않아도 기본적으로 알고 있어야 하는 지식들에 대해 정리해보자. 통계 통계적 개념이란? 통계학은 데이터를 수집하고 분석해 패턴을 찾아내는 학문으로 기술통계와 추론 통계가 있다. 1. 기술통계 : 데이터를 요약하고 설명하는 통계 기법 ex) 중심경향성(평균, 중앙값, 최빈값), 분산성(분산, 표준편차), 데이터 분포(백분위수, 도수분포) 등 2. 추론통계 : 샘플 데이터를 기반으로 모집단에 대한 일반적인 결론을.. 2024. 1. 30.
머신러닝과 딥러닝의 알고가야 할 중요한 개념! 머신러닝과 딥러닝을 배우고, 사용하는 사람이라면 꼭 알아야 할 부분들이 있다. 이번 포스팅에서는 꼭 알아야 할 부분들에 대한 정리를 해보려 한다. 1. 데이터셋 데이터셋은 모델을 훈련하고 평가하는데 사용하는 데이터의 집합을 말한다. 훈련 데이터들은 모델의 파라미터를 학습하는데 사용되고, 검증 데이터들은 하이퍼 파라미터를 조정하고, 모델을 평가하는데 사용하며 테스트 데이터는 최종 모델의 성능을 평가하는데 사용한다. 2. 하이퍼 파라미터 하이퍼 파라미터는 머신러닝과 딥러닝 모델을 훈현하기 위해 사람이 직접 설정하는 매개변수이다. 하이퍼 파라미터 조정은 모델의 성능을 향상시킬 뿐 아니라일반화 성능을 개선하는 중요한 작업이다. 경험에 의하며, 여러가지 시도를 통해 최적의 조합을 찾아간다. - 하이퍼 파라미터의 .. 2023. 8. 24.
[데이터 분석] 딥러닝의 사용 목적과 TensorFlow 사용하기 딥러닝은 머신러닝에 속하는 인공 신경망을 기반으로 하는 학습 방법이다. 딥러닝의 부모가 머신러닝이라고 이해하면 쉽다. 딥러닝이라고 해서 따로 분류가 되는 목적이 있다. 지금부터 딥러닝에 대해서 알아보고 그 중 자주 사용하는 TensorFlow에 대해서도 작성하려 한다. 1. 딥러닝이란? 정형 데이터, 비정형 데이터 모두에 사용할 수 있다. 그렇지만 딥러닝의 강점은 비정형 데이터 처리에 뛰어난 성능을 보이는 것이다. 이미지나 음성과 같은 독특하고 복잡한 구조와 특징을 가진 데이터들에서 효과적으로 정보를 추출해내고, 처리한다. 또한, 인간을 모티브로 학습해서 일부 작업에선 인간의 지능을 뛰어넘기도 한다. 2. 딥러닝 사용 목적 딥러닝의 강점을 알아봤으니, 사용 목적도 한번 알아보자. 크게 5가지로 분류해볼 .. 2023. 8. 24.
[데이터 분석] 머신러닝 lightgbm로 예측하기 오늘의 포스팅은 lightgbm를 이용해서 회귀에 대해 배워본 것을 정리한다. 사실 어제 내용이지만, 어제는 빅분기 공부로 생각이 많아서 오늘 올린다..! ㅋㅋㅋㅋㅋ 이 부분 역시 교재를 참고했으며, 해당 교재는 파이썬 머신러닝 완벽 가이드(권철민 저) 이다. 책 제목처럼 정말 완벽한 가이드 북이라 구입해서 보는 것을 권장한다! 나는 lightgbm이 무엇인지를 몰라서 gpt를 활용해서 물어봤다. 나처럼 lightgbm과 같이 사용하는 프레임 워크나, 라이브러리를 모르겠다면 꼭 찾아보는 것을 추천한다. 가장 좋은 것은 공식 문서를 찾아서 읽어보는 것인데 나는 사용하는 코드부분말고 lightgbm 자체가 무엇인지를 알고싶었기에 gpt를 활용했다. LightGBM(Light Gradient Boosting .. 2023. 8. 23.
[데이터 분석] 머신러닝의 Confusion Matrix와 평가 지표에 대한 이론 오늘의 포스팅은 머신러닝을 활용할 때 가장 중요하게 보는 Confusion Matrix에 대해 작성해보자 한다. 머신러닝의 모델을 고를 때, 정확도를 판별해서 어떤 모델을 사용하는 것이 가장 성능이 좋을지 파악한다. 그러나, 이 정확도 라는 것은 말 그대로 모델의 성능을 파악하고 고르는 기준이 될 뿐. 우리가 중요하게 여겨야 하는 것은 정밀도와 재현율이다. 그리고 F1 스코어는 정밀도와 재현율 두 가지를 중요하게 고려하는 평가 지표이다. 1. Confusion Matrix 정밀도와 재현율에 대해 알려면 먼저 예측값과 실제값에 대한 관계에 대해 알아야 한다. 크게 4가지로 분류할 수 있다. 불과 올해 초 까지만 해도 기승을 부린 코로나 감염에 대해 예를 들어보겠다. 몸살 기운이 너무 심하고 열이 나서 신속.. 2023. 8. 18.
[데이터 분석] 모델 학습부터 K-Fold 교차 검증까지 이론 잡기! 데이터 분석을 수행하려면, 원하는 정보를 담고 있는 데이터 파일을 사용하여 머신러닝 모델을 생성하고 검증하는 과정을 통해 분석을 진행한다. 초반에 배우면서 든 생각은 데이터 분석은 그냥 파이썬 라이브러리를 활용해서 시각화 시켜서 보기 쉽게 만들고 그걸 대시보드에 올리면 끝인가? 그래서 개발자와 협업하게되고, 우리는 분석하고 시각화 한 부분들을 정확히 전달하고 개발자들은 보기 쉽게 해주고 디자인팀에서 가독성을 높여주면 되는구나 하는 생각을 했다. 사실 아무것도 모르고 있다가 저정도의 생각을 하게된 것도 발전된 것이긴 하지만, 점차 깊이있는 수업을 듣게 되면서, 데이터 분석은 시각화를 한다는 것이 중요하지만! 그것이 결코 종지부를 찍는 것은 아니구나 하고 깨달았다. 오늘 작성하는 내용들은 코드위주보단, 일단.. 2023. 8. 17.
728x90