본문 바로가기
728x90

python45

[데이터 분석] 머신러닝 lightgbm로 예측하기 오늘의 포스팅은 lightgbm를 이용해서 회귀에 대해 배워본 것을 정리한다. 사실 어제 내용이지만, 어제는 빅분기 공부로 생각이 많아서 오늘 올린다..! ㅋㅋㅋㅋㅋ 이 부분 역시 교재를 참고했으며, 해당 교재는 파이썬 머신러닝 완벽 가이드(권철민 저) 이다. 책 제목처럼 정말 완벽한 가이드 북이라 구입해서 보는 것을 권장한다! 나는 lightgbm이 무엇인지를 몰라서 gpt를 활용해서 물어봤다. 나처럼 lightgbm과 같이 사용하는 프레임 워크나, 라이브러리를 모르겠다면 꼭 찾아보는 것을 추천한다. 가장 좋은 것은 공식 문서를 찾아서 읽어보는 것인데 나는 사용하는 코드부분말고 lightgbm 자체가 무엇인지를 알고싶었기에 gpt를 활용했다. LightGBM(Light Gradient Boosting .. 2023. 8. 23.
[데이터 분석] 머신러닝의 Confusion Matrix와 평가 지표에 대한 이론 오늘의 포스팅은 머신러닝을 활용할 때 가장 중요하게 보는 Confusion Matrix에 대해 작성해보자 한다. 머신러닝의 모델을 고를 때, 정확도를 판별해서 어떤 모델을 사용하는 것이 가장 성능이 좋을지 파악한다. 그러나, 이 정확도 라는 것은 말 그대로 모델의 성능을 파악하고 고르는 기준이 될 뿐. 우리가 중요하게 여겨야 하는 것은 정밀도와 재현율이다. 그리고 F1 스코어는 정밀도와 재현율 두 가지를 중요하게 고려하는 평가 지표이다. 1. Confusion Matrix 정밀도와 재현율에 대해 알려면 먼저 예측값과 실제값에 대한 관계에 대해 알아야 한다. 크게 4가지로 분류할 수 있다. 불과 올해 초 까지만 해도 기승을 부린 코로나 감염에 대해 예를 들어보겠다. 몸살 기운이 너무 심하고 열이 나서 신속.. 2023. 8. 18.
[데이터 분석] 모델 학습부터 K-Fold 교차 검증까지 이론 잡기! 데이터 분석을 수행하려면, 원하는 정보를 담고 있는 데이터 파일을 사용하여 머신러닝 모델을 생성하고 검증하는 과정을 통해 분석을 진행한다. 초반에 배우면서 든 생각은 데이터 분석은 그냥 파이썬 라이브러리를 활용해서 시각화 시켜서 보기 쉽게 만들고 그걸 대시보드에 올리면 끝인가? 그래서 개발자와 협업하게되고, 우리는 분석하고 시각화 한 부분들을 정확히 전달하고 개발자들은 보기 쉽게 해주고 디자인팀에서 가독성을 높여주면 되는구나 하는 생각을 했다. 사실 아무것도 모르고 있다가 저정도의 생각을 하게된 것도 발전된 것이긴 하지만, 점차 깊이있는 수업을 듣게 되면서, 데이터 분석은 시각화를 한다는 것이 중요하지만! 그것이 결코 종지부를 찍는 것은 아니구나 하고 깨달았다. 오늘 작성하는 내용들은 코드위주보단, 일단.. 2023. 8. 17.
코드를 익히는 필사 공부 이렇게 해보자! 나는 파이썬을 사용하고 있고, 데이터 분석쪽으로 수업을 수강중이라 파이썬 위주로 포스팅을 작성한다. 그러나 모든 프로그래밍 언어를 배울 때, 필사를 하는 것은 아주 중요하다. 다른 사람의 코드를 그냥 베끼는거 아냐? 싶다면 수업을 들으면서 치는 코드들도 다 마찬가지일거다. 필사가 가장 중요한 이유를 먼저 짚고 가겠다. 0. 필사가 왜 중요하지? 프로그래밍 언어를 공부할 때, 필사를 중요하다고 모두가 말을 하는 이유가 있다. 필사를 하는 이유는 먼저 내 눈에 익히고, 코드의 흐름을 파악하는데 도움을 준다. 이 코드를 외우라는 것이 절대 아니다. 필사를 하다보면, 이 코드는 어떤 부분을 다루는구나 하고 감이 잡힌다. 그리고 그 부분을 구글링이나 gpt 를 활용해서 어떻게 활용하는 라이브러리인지, 코드인지를 .. 2023. 8. 16.
[데이터 분석] pdf 크롤링 파일 csv로 파싱하기 (+ pdf -> pdf 비추와 이유) 오늘은 약간의 푸념? 을 먼저 늘여놓고 포스팅을 시작하려한다. 요즘 세미프로젝트를 위해 각자 크롤링하고 그 파일을 분석하도록 시간을 최소 1~2시간 씩 주신다. 아직 조가 확정된 것은 아니지만, 내가 정한 주제는 확정되었기에 틈틈히 하는 것이 좋으나 나는 주말엔 다른 일정들이 많았고, 딱 하루 없는 날엔 체력 비축을 위해 그냥 놀고 쉬었다. 뭐,,, 사실 핑계거리다. ㅋㅋㅋㅋㅋㅋ 😂😂 그렇다고 내가 코드를 잘 아는 것도 아니고 실력이 뛰어나서 금방 구글링하는 것도 아니어서 수업시간에 주는 시간엔 얻은 결과값이 딱히 없다.. 이렇게 있다간 같은 조로 편성될 조원들에게 피해를 입힐까 두려워 일단 이 때까지 최대한 긁어모았던 pdf 파일들을 csv 파일로 변환해야겠단 생각이 들었다! 그래서 오늘의 포스팅은!!.. 2023. 8. 14.
pandas 다시 한번 짚고가자! (all in one으로 끝장내기) 이번 시간의 pandas 되짚기는 주피터노트북에서 실행했다. 1. 파일 입출력 현재 내가 있는 위치를 찾아보고, 데이터프레임을 간단히 만들어 csv 파일로 내보내고 다시 불러와본다. 이 때, 앞의 ./ 은 os로 확인한 현재 경로와 같다는 것을 의미한다. 2. 행, 열 추출하기 행과 열을 조건으로 추출하는 방법과, 여러 조건을 모두 만족하는 추출 방법, iloc와 loc로 추출하는 방법 등이 있다. 1. 조건이 하나일 때 추출하기 내가 사용한 csv 파일로, 연습하기에 좋다. AGE 추출연습에서는 reset_index를 사용하지 않으면, 굵은 색으로 보이는 인덱스 옆에 원래 인덱스 번호가 함께 나온다. 그래서 우리가 알아보는데 헷갈리게 하고, 쓸모없으니 삭제해줘야 한다. 2. 두개 이상의 조건을 만족하는.. 2023. 8. 9.
[selenium] 웹사이트에서 데이터 긁어오기 - 실시간 검색어편 이전에 이미지를 다운받을 수 있도록 코드를 짜는 것을 해봤으면, 이번엔 실시간 검색어 자체를 가져오는 것을 해보자 이미지 다운에 관련해서 궁금하다면 아래 링크로 들어가보면 된다. 2023.08.08 - [python] - [selenium] 웹사이트에서 데이터 긁어오기 - 이미지편 [selenium] 웹사이트에서 데이터 긁어오기 - 이미지편 오늘은 셀레니움을 이용해서 웹 사이트에서 사진을 다운받아오는 과정에 대해 작성한다. 이미지 분석에 사용할 수 있도록 예제코드를 배운 셈으로 생각보다 간단했다. 나는 주피터노트북 가상 forky-develop.tistory.com 1. 시그널 실시간 검색어 뽑아내기 시그널의 경우 실시간 검색어가 바로 top 10으로 보인다. 그래서 따로 페이지 로딩시간을 체크해서 기다.. 2023. 8. 8.
[selenium] 웹사이트에서 데이터 긁어오기 - 이미지편 오늘은 셀레니움을 이용해서 웹 사이트에서 사진을 다운받아오는 과정에 대해 작성한다. 이미지 분석에 사용할 수 있도록 예제코드를 배운 셈으로 생각보다 간단했다. 나는 주피터노트북 가상환경 내에서 이 작업을 진행했으며, 이 과정까지는 더이상 언급하지 않겠다. 1. jupyter lab에서 크롬 드라이브 확인하기 이미지 분석을 위해 크롬에서 구글 이미지검색 사이트를 활용할 것이다. 그렇기 위해 크롬 드라이브가 지정한 위치에 있는지 확인을 해주자 import os def list_files(startpath): for root, dirs, files in os.walk(startpath): level = root.replace(startpath, '').count(os.sep) indent = ' ' * 4 *.. 2023. 8. 8.
[데이터 분석] 고속도로 실시간 영업소간 통행시간 API 활용하기 이번에는 데이터 분석을 하기위한 연습을 먼저 한다. 이 때까지는 엑셀파일을 이용한 시각화 연습을 주로 했었다면, 지금은 API를 이용해 원하는 데이터를 분석해보는 방법을 이용할 계획이다. 이 부분은 세미프로젝트를 진행하는데에 매우 기본으로 사용되는 부분이라 더 잘 활용해야하고, 알아둬야 한다. 1. 공공데이터 포털에서 API 조회하기 먼저 사이트에 들어가서 분석하기 위한 파일을 찾는다. 내가 활용한 사이트는 아래에 첨부한다. http://data.ex.co.kr/dataset/datasetList/list?pn=1&CATEGORY=TR&GROUP_TR=TIME_TCS 2023. 8. 7.
728x90