본문 바로가기
728x90

데이터 분석18

머신러닝과 딥러닝의 알고가야 할 중요한 개념! 머신러닝과 딥러닝을 배우고, 사용하는 사람이라면 꼭 알아야 할 부분들이 있다. 이번 포스팅에서는 꼭 알아야 할 부분들에 대한 정리를 해보려 한다. 1. 데이터셋 데이터셋은 모델을 훈련하고 평가하는데 사용하는 데이터의 집합을 말한다. 훈련 데이터들은 모델의 파라미터를 학습하는데 사용되고, 검증 데이터들은 하이퍼 파라미터를 조정하고, 모델을 평가하는데 사용하며 테스트 데이터는 최종 모델의 성능을 평가하는데 사용한다. 2. 하이퍼 파라미터 하이퍼 파라미터는 머신러닝과 딥러닝 모델을 훈현하기 위해 사람이 직접 설정하는 매개변수이다. 하이퍼 파라미터 조정은 모델의 성능을 향상시킬 뿐 아니라일반화 성능을 개선하는 중요한 작업이다. 경험에 의하며, 여러가지 시도를 통해 최적의 조합을 찾아간다. - 하이퍼 파라미터의 .. 2023. 8. 24.
[데이터 분석] 딥러닝의 사용 목적과 TensorFlow 사용하기 딥러닝은 머신러닝에 속하는 인공 신경망을 기반으로 하는 학습 방법이다. 딥러닝의 부모가 머신러닝이라고 이해하면 쉽다. 딥러닝이라고 해서 따로 분류가 되는 목적이 있다. 지금부터 딥러닝에 대해서 알아보고 그 중 자주 사용하는 TensorFlow에 대해서도 작성하려 한다. 1. 딥러닝이란? 정형 데이터, 비정형 데이터 모두에 사용할 수 있다. 그렇지만 딥러닝의 강점은 비정형 데이터 처리에 뛰어난 성능을 보이는 것이다. 이미지나 음성과 같은 독특하고 복잡한 구조와 특징을 가진 데이터들에서 효과적으로 정보를 추출해내고, 처리한다. 또한, 인간을 모티브로 학습해서 일부 작업에선 인간의 지능을 뛰어넘기도 한다. 2. 딥러닝 사용 목적 딥러닝의 강점을 알아봤으니, 사용 목적도 한번 알아보자. 크게 5가지로 분류해볼 .. 2023. 8. 24.
[데이터 분석] 머신러닝 lightgbm로 예측하기 오늘의 포스팅은 lightgbm를 이용해서 회귀에 대해 배워본 것을 정리한다. 사실 어제 내용이지만, 어제는 빅분기 공부로 생각이 많아서 오늘 올린다..! ㅋㅋㅋㅋㅋ 이 부분 역시 교재를 참고했으며, 해당 교재는 파이썬 머신러닝 완벽 가이드(권철민 저) 이다. 책 제목처럼 정말 완벽한 가이드 북이라 구입해서 보는 것을 권장한다! 나는 lightgbm이 무엇인지를 몰라서 gpt를 활용해서 물어봤다. 나처럼 lightgbm과 같이 사용하는 프레임 워크나, 라이브러리를 모르겠다면 꼭 찾아보는 것을 추천한다. 가장 좋은 것은 공식 문서를 찾아서 읽어보는 것인데 나는 사용하는 코드부분말고 lightgbm 자체가 무엇인지를 알고싶었기에 gpt를 활용했다. LightGBM(Light Gradient Boosting .. 2023. 8. 23.
[데이터 분석] 머신러닝의 Confusion Matrix와 평가 지표에 대한 이론 오늘의 포스팅은 머신러닝을 활용할 때 가장 중요하게 보는 Confusion Matrix에 대해 작성해보자 한다. 머신러닝의 모델을 고를 때, 정확도를 판별해서 어떤 모델을 사용하는 것이 가장 성능이 좋을지 파악한다. 그러나, 이 정확도 라는 것은 말 그대로 모델의 성능을 파악하고 고르는 기준이 될 뿐. 우리가 중요하게 여겨야 하는 것은 정밀도와 재현율이다. 그리고 F1 스코어는 정밀도와 재현율 두 가지를 중요하게 고려하는 평가 지표이다. 1. Confusion Matrix 정밀도와 재현율에 대해 알려면 먼저 예측값과 실제값에 대한 관계에 대해 알아야 한다. 크게 4가지로 분류할 수 있다. 불과 올해 초 까지만 해도 기승을 부린 코로나 감염에 대해 예를 들어보겠다. 몸살 기운이 너무 심하고 열이 나서 신속.. 2023. 8. 18.
[데이터 분석] 모델 학습부터 K-Fold 교차 검증까지 이론 잡기! 데이터 분석을 수행하려면, 원하는 정보를 담고 있는 데이터 파일을 사용하여 머신러닝 모델을 생성하고 검증하는 과정을 통해 분석을 진행한다. 초반에 배우면서 든 생각은 데이터 분석은 그냥 파이썬 라이브러리를 활용해서 시각화 시켜서 보기 쉽게 만들고 그걸 대시보드에 올리면 끝인가? 그래서 개발자와 협업하게되고, 우리는 분석하고 시각화 한 부분들을 정확히 전달하고 개발자들은 보기 쉽게 해주고 디자인팀에서 가독성을 높여주면 되는구나 하는 생각을 했다. 사실 아무것도 모르고 있다가 저정도의 생각을 하게된 것도 발전된 것이긴 하지만, 점차 깊이있는 수업을 듣게 되면서, 데이터 분석은 시각화를 한다는 것이 중요하지만! 그것이 결코 종지부를 찍는 것은 아니구나 하고 깨달았다. 오늘 작성하는 내용들은 코드위주보단, 일단.. 2023. 8. 17.
[데이터 분석] pdf 크롤링 파일 csv로 파싱하기 (+ pdf -> pdf 비추와 이유) 오늘은 약간의 푸념? 을 먼저 늘여놓고 포스팅을 시작하려한다. 요즘 세미프로젝트를 위해 각자 크롤링하고 그 파일을 분석하도록 시간을 최소 1~2시간 씩 주신다. 아직 조가 확정된 것은 아니지만, 내가 정한 주제는 확정되었기에 틈틈히 하는 것이 좋으나 나는 주말엔 다른 일정들이 많았고, 딱 하루 없는 날엔 체력 비축을 위해 그냥 놀고 쉬었다. 뭐,,, 사실 핑계거리다. ㅋㅋㅋㅋㅋㅋ 😂😂 그렇다고 내가 코드를 잘 아는 것도 아니고 실력이 뛰어나서 금방 구글링하는 것도 아니어서 수업시간에 주는 시간엔 얻은 결과값이 딱히 없다.. 이렇게 있다간 같은 조로 편성될 조원들에게 피해를 입힐까 두려워 일단 이 때까지 최대한 긁어모았던 pdf 파일들을 csv 파일로 변환해야겠단 생각이 들었다! 그래서 오늘의 포스팅은!!.. 2023. 8. 14.
streamlit 꾸미기를 해보자 - 위젯 활용편 streamlit은 회사 내부용 대시보드로 주로 사용하기 때문에 대시보드를 예쁘게 꾸미는 과정 중에 이번에는 다른 기능들을 사용하지 않고 위젯만을 이용해보자 1. streamlit 실행하기 가상환경에 들어가서 streamlit 을 실행해주고 새 파일을 만들어 import 시켜주자 2. 위젯 실행하기 위젯을 만들기 위한 하나의 주제를 잡고 함수를 선언해주자 수업에서 사용한 예제를 설명하자면, 단가에 따른 전체 판매 갯수의 총 매출액 계산을 하는 것을 만들어 보았다. 이 때, 주의해야할 부분은 메인 함수를 만 들고 그안에서 새로 만들었던 함수를 실행하는 코드를 작성해야 한다. import streamlit as st ## price가 의미하는 것, total_sales가 의미하는 것, return 값이 의미.. 2023. 7. 28.
streamlit 꾸미기를 해보자 - seaborn X matplotlib 활용편 이번 글을 시작하기에 앞서 데이터 분석을 다루고자 하는 사람들이라면, 이미 데이터 분석을 업으로 삼고있다면 꼭 알고 있고 알아야 하는 pega 박사님의 블로그를 참고해보라는 말을 하고싶다. 나 역시 깊이가 다른 글과 담겨있던 내용을 예제삼아 공부하면 좋을 것 같아 기록하는 김에 소개한다. https://jehyunlee.github.io/ Pega Devlog Pega's Development log for myself and others jehyunlee.github.io 1. seaborn seaborn 을 활용할 때, matplotlib에서 사용한 객체 지향 문법을 그대로 가져와서 활용할 것이다. 이것이 가능한 이유는 seaborn이 matplotlib 안에 들어있기 때문이다. 그래서 주된 것은 s.. 2023. 7. 28.
CRUD - 데이터 분석을 위한 기초 상식! 이번 시간에는 CRUD가 무엇인지 알아보자 데이터 분석을 공부하는 사람이라면, 데이터 분석가를 꿈꾸는 사람이라면 꼭 알아야 한다. CRUD는 거의 모든 소프트웨어에 사용되는 데이터 처리 방식이다. Create(생성), Read(읽기), Update(갱신), Delete(삭제) 이 4가지를 줄여서 CRUD 라고 한다. CRUD 의 뜻을 봤으니 왜 데이터 분석을 할 때 중요한지 알 것이다. 우리가 수많은 정보와 자료들을 수집하려면 이미 생성된 데이터를 읽고 시간이 지남에 따라 새로 갱신하기도 하고 필요가 없어져 삭제를 하는 일이 많기 때문에 특히나 더 중요하다. 이 과정에서 우리는 우리에게 필요한 데이터만을 사용하는 기준을 잡을 수 있어야 하는데, 이 역시 CRUD의 과정이 있기 때문에 시간이 걸려도 꼭 선.. 2023. 7. 26.
728x90