본문 바로가기
728x90

전체 글133

[데이터 분석] 딥러닝의 사용 목적과 TensorFlow 사용하기 딥러닝은 머신러닝에 속하는 인공 신경망을 기반으로 하는 학습 방법이다. 딥러닝의 부모가 머신러닝이라고 이해하면 쉽다. 딥러닝이라고 해서 따로 분류가 되는 목적이 있다. 지금부터 딥러닝에 대해서 알아보고 그 중 자주 사용하는 TensorFlow에 대해서도 작성하려 한다. 1. 딥러닝이란? 정형 데이터, 비정형 데이터 모두에 사용할 수 있다. 그렇지만 딥러닝의 강점은 비정형 데이터 처리에 뛰어난 성능을 보이는 것이다. 이미지나 음성과 같은 독특하고 복잡한 구조와 특징을 가진 데이터들에서 효과적으로 정보를 추출해내고, 처리한다. 또한, 인간을 모티브로 학습해서 일부 작업에선 인간의 지능을 뛰어넘기도 한다. 2. 딥러닝 사용 목적 딥러닝의 강점을 알아봤으니, 사용 목적도 한번 알아보자. 크게 5가지로 분류해볼 .. 2023. 8. 24.
[데이터 분석] 머신러닝 lightgbm로 예측하기 오늘의 포스팅은 lightgbm를 이용해서 회귀에 대해 배워본 것을 정리한다. 사실 어제 내용이지만, 어제는 빅분기 공부로 생각이 많아서 오늘 올린다..! ㅋㅋㅋㅋㅋ 이 부분 역시 교재를 참고했으며, 해당 교재는 파이썬 머신러닝 완벽 가이드(권철민 저) 이다. 책 제목처럼 정말 완벽한 가이드 북이라 구입해서 보는 것을 권장한다! 나는 lightgbm이 무엇인지를 몰라서 gpt를 활용해서 물어봤다. 나처럼 lightgbm과 같이 사용하는 프레임 워크나, 라이브러리를 모르겠다면 꼭 찾아보는 것을 추천한다. 가장 좋은 것은 공식 문서를 찾아서 읽어보는 것인데 나는 사용하는 코드부분말고 lightgbm 자체가 무엇인지를 알고싶었기에 gpt를 활용했다. LightGBM(Light Gradient Boosting .. 2023. 8. 23.
비전공자의 빅데이터 분석기사 7회 필기 준비기 오늘은 비전공자인 내가 빅데이터 분석기사 필기를 준비하면서 드는 생각과 다짐을 정리하려 한다. 한마디로 오늘의 포스팅은 생각 정리를 위한 tmi이다. 먼저 간단하게 나에 대한 라인업..? 을 해보자면, 흔한 공대 졸업생 + 공부 안한 케이스 + 영포자... 이런걸 라인업이라고 하기에도 민망하지만, 난 정말 아무것도 내세울 수 없는 삶을 살았던것 같다. 하지만, 지금은 멀티캠퍼스에서 빅데이터과정을 수강중이고 난 이 배움이 너무 재밌다! 이 길로 성공할 수 있을 것 같다는 생각이 든다. (근자감이지만...) 이제 서론은 제치고! 비전공자인 내가 공부하는 루트에 대한 기록을 먼저 해보자면, 매일 9 to 6 는 수업시간에 집중하기 때문에, 빅분기에 열정을 쏟을 시간이 없다. 이게 단점이라고 생각하지는 않는다!.. 2023. 8. 22.
[데이터 분석] 머신러닝의 Confusion Matrix와 평가 지표에 대한 이론 오늘의 포스팅은 머신러닝을 활용할 때 가장 중요하게 보는 Confusion Matrix에 대해 작성해보자 한다. 머신러닝의 모델을 고를 때, 정확도를 판별해서 어떤 모델을 사용하는 것이 가장 성능이 좋을지 파악한다. 그러나, 이 정확도 라는 것은 말 그대로 모델의 성능을 파악하고 고르는 기준이 될 뿐. 우리가 중요하게 여겨야 하는 것은 정밀도와 재현율이다. 그리고 F1 스코어는 정밀도와 재현율 두 가지를 중요하게 고려하는 평가 지표이다. 1. Confusion Matrix 정밀도와 재현율에 대해 알려면 먼저 예측값과 실제값에 대한 관계에 대해 알아야 한다. 크게 4가지로 분류할 수 있다. 불과 올해 초 까지만 해도 기승을 부린 코로나 감염에 대해 예를 들어보겠다. 몸살 기운이 너무 심하고 열이 나서 신속.. 2023. 8. 18.
[데이터 분석] 모델 학습부터 K-Fold 교차 검증까지 이론 잡기! 데이터 분석을 수행하려면, 원하는 정보를 담고 있는 데이터 파일을 사용하여 머신러닝 모델을 생성하고 검증하는 과정을 통해 분석을 진행한다. 초반에 배우면서 든 생각은 데이터 분석은 그냥 파이썬 라이브러리를 활용해서 시각화 시켜서 보기 쉽게 만들고 그걸 대시보드에 올리면 끝인가? 그래서 개발자와 협업하게되고, 우리는 분석하고 시각화 한 부분들을 정확히 전달하고 개발자들은 보기 쉽게 해주고 디자인팀에서 가독성을 높여주면 되는구나 하는 생각을 했다. 사실 아무것도 모르고 있다가 저정도의 생각을 하게된 것도 발전된 것이긴 하지만, 점차 깊이있는 수업을 듣게 되면서, 데이터 분석은 시각화를 한다는 것이 중요하지만! 그것이 결코 종지부를 찍는 것은 아니구나 하고 깨달았다. 오늘 작성하는 내용들은 코드위주보단, 일단.. 2023. 8. 17.
코드를 익히는 필사 공부 이렇게 해보자! 나는 파이썬을 사용하고 있고, 데이터 분석쪽으로 수업을 수강중이라 파이썬 위주로 포스팅을 작성한다. 그러나 모든 프로그래밍 언어를 배울 때, 필사를 하는 것은 아주 중요하다. 다른 사람의 코드를 그냥 베끼는거 아냐? 싶다면 수업을 들으면서 치는 코드들도 다 마찬가지일거다. 필사가 가장 중요한 이유를 먼저 짚고 가겠다. 0. 필사가 왜 중요하지? 프로그래밍 언어를 공부할 때, 필사를 중요하다고 모두가 말을 하는 이유가 있다. 필사를 하는 이유는 먼저 내 눈에 익히고, 코드의 흐름을 파악하는데 도움을 준다. 이 코드를 외우라는 것이 절대 아니다. 필사를 하다보면, 이 코드는 어떤 부분을 다루는구나 하고 감이 잡힌다. 그리고 그 부분을 구글링이나 gpt 를 활용해서 어떻게 활용하는 라이브러리인지, 코드인지를 .. 2023. 8. 16.
[데이터 분석] pdf 크롤링 파일 csv로 파싱하기 (+ pdf -> pdf 비추와 이유) 오늘은 약간의 푸념? 을 먼저 늘여놓고 포스팅을 시작하려한다. 요즘 세미프로젝트를 위해 각자 크롤링하고 그 파일을 분석하도록 시간을 최소 1~2시간 씩 주신다. 아직 조가 확정된 것은 아니지만, 내가 정한 주제는 확정되었기에 틈틈히 하는 것이 좋으나 나는 주말엔 다른 일정들이 많았고, 딱 하루 없는 날엔 체력 비축을 위해 그냥 놀고 쉬었다. 뭐,,, 사실 핑계거리다. ㅋㅋㅋㅋㅋㅋ 😂😂 그렇다고 내가 코드를 잘 아는 것도 아니고 실력이 뛰어나서 금방 구글링하는 것도 아니어서 수업시간에 주는 시간엔 얻은 결과값이 딱히 없다.. 이렇게 있다간 같은 조로 편성될 조원들에게 피해를 입힐까 두려워 일단 이 때까지 최대한 긁어모았던 pdf 파일들을 csv 파일로 변환해야겠단 생각이 들었다! 그래서 오늘의 포스팅은!!.. 2023. 8. 14.
[UI/UX] 디자인 간략하게 알아보기 웹개발, 앱개발을 하는 개발자라면 꼭 필수적으로 생각해야할 부분이 있다. 바로 디자인이다. 우리가 기능을 깔끔하게 짜서 구현을 시키더라도 디자인이 별로면 사용하기 꺼려지기 마련이다. 오늘은 UI/UX 에 대해 알아보려 한다. 1. UI/UX 란? UX는 사용자 경험이라는 총체적인 관점을 컨셉으로 개발방향을 정하는 것을 말한다. 한마디로 우리가 이전에 다른 서비스를 경험하며 불편한 점을 느꼈다거나, 이 부분은 개선됐으면 한다거나 서비스나 시스템을 사용하며 느낀 모든 것들을 의미한다. UI는 개발을 하며 구현하고 있는 단계에서 사용자에게 최적화 할 수 있게 디자인을 하는 것을 말한다. 쉽게 말하면 우리가 웹사이트나 앱을 사용할 때 보는 디자인, 레이아웃 등을 의미한다. + GUI GUI는 UI와 별개로 그래.. 2023. 8. 12.
[통계] 빅데이터 분석기사를 위한 기초 통계 상식! 빅분기 통계 빅데이터 분석기사를 위해서, 데이터 분석 공부를 하기 위해서, 데이터 분석가를 꿈꾸기 위해서 공부해야할 통계파트 오늘 배운 내용을 포스팅으로 그대로 옮기는 이유는 조금의 예제로 쉽게 이해할 수 있었으면 좋겠다. 오늘 진행 내용은 구글 코랩을 기반으로 했지만, 주피터 노트북에서 해도 상관없다. 코랩 파일은 수업 내용을 그대로 따라친거라 올리지 않지만, 아래의 포스팅 내용이 모두 코랩에 작성된 부분이다. 1. 기초통계 검정방법론 모수통계 A 통계검정 방법론 (가정1, 가정2, 가정3 모두 충족할 때) 비 모수통계(= 모수가 아닌 통계) 2. 베이지안 통계 vs 모수 통계 모수 통계 : 평균에 기반한 통계 검정 베이지안 통계 : 확률에 기반한 통계 검정 3. t-test : z-test 평균의 비.. 2023. 8. 11.
github 계정 삭제하는 초간단 방법! (삭제 버튼 없어도 가능) 블로그 포스팅을 위해 가상 이메일을 활용했던 github 계정은 사용하지 않을 예정이라 삭제하려 한다. 어떠한 이유에서든 삭제를 하는 사람들이 계정을 생성하는 사람들 보다는 적겠지만 그래도 필요한 사람들을 위해 포스팅을 작성한다. 계정을 삭제하려는데 문의하라고만 뜨고 삭제버튼이 뜨질 않았다..! 그래서 문의글을 남기고 한참을 잊고 지내다 이제야 글 작성을 완료한다... 하핫.. 암튼 삭제버튼이 안떠도 가보자고! 1. settings 우측 상단의 메뉴를 눌러서 settings에 들어간다. 좌측 메뉴바 위에서 두번째에 있는 Account 클릭하기 2. 계정 삭제 버튼 누르기 계정을 삭제하면 돌아오지 못한다는 말을 읽고 계정 삭제를 누른다. 계정 삭제를 누르면 내 유저이름이나 이메일 주소를 입력해야하는데, 나.. 2023. 8. 10.
pandas 다시 한번 짚고가자! (all in one으로 끝장내기) 이번 시간의 pandas 되짚기는 주피터노트북에서 실행했다. 1. 파일 입출력 현재 내가 있는 위치를 찾아보고, 데이터프레임을 간단히 만들어 csv 파일로 내보내고 다시 불러와본다. 이 때, 앞의 ./ 은 os로 확인한 현재 경로와 같다는 것을 의미한다. 2. 행, 열 추출하기 행과 열을 조건으로 추출하는 방법과, 여러 조건을 모두 만족하는 추출 방법, iloc와 loc로 추출하는 방법 등이 있다. 1. 조건이 하나일 때 추출하기 내가 사용한 csv 파일로, 연습하기에 좋다. AGE 추출연습에서는 reset_index를 사용하지 않으면, 굵은 색으로 보이는 인덱스 옆에 원래 인덱스 번호가 함께 나온다. 그래서 우리가 알아보는데 헷갈리게 하고, 쓸모없으니 삭제해줘야 한다. 2. 두개 이상의 조건을 만족하는.. 2023. 8. 9.
[selenium] 웹사이트에서 데이터 긁어오기 - 실시간 검색어편 이전에 이미지를 다운받을 수 있도록 코드를 짜는 것을 해봤으면, 이번엔 실시간 검색어 자체를 가져오는 것을 해보자 이미지 다운에 관련해서 궁금하다면 아래 링크로 들어가보면 된다. 2023.08.08 - [python] - [selenium] 웹사이트에서 데이터 긁어오기 - 이미지편 [selenium] 웹사이트에서 데이터 긁어오기 - 이미지편 오늘은 셀레니움을 이용해서 웹 사이트에서 사진을 다운받아오는 과정에 대해 작성한다. 이미지 분석에 사용할 수 있도록 예제코드를 배운 셈으로 생각보다 간단했다. 나는 주피터노트북 가상 forky-develop.tistory.com 1. 시그널 실시간 검색어 뽑아내기 시그널의 경우 실시간 검색어가 바로 top 10으로 보인다. 그래서 따로 페이지 로딩시간을 체크해서 기다.. 2023. 8. 8.
728x90