본문 바로가기
728x90

Selenium7

[크롤링] 웹 크롤링 kbs 뉴스 데이터로 직접 해보자! (Selenium 활용) + Trouble Shooting 이번 시간은 지난 포스팅 beautifulsoup을 활용하지 못했던 것을 이어 selenium으로 해보는 것을 이어서 작성하겠다. 2024.03.11 - [python] - [크롤링] 웹 크롤링 kbs 뉴스 데이터로 직접 해보자! (Beautifulsoup 활용) [크롤링] 웹 크롤링 kbs 뉴스 데이터로 직접 해보자! (Beautifulsoup 활용) 먼저 해당 포스팅은 앞전의 크롤링 개념 포스팅을 먼저 보고 오는 것을 추천한다. 2024.03.11 - [python] - [크롤링] 웹 크롤링에 대한 기초 지식을 알아보자! [크롤링] 웹 크롤링에 대한 기초 지식을 알 forky-develop.tistory.com 마찬가지로 메타코드의 웹 크롤링 기초 강의를 활용해서 수강하고 있는 중이다. JavaScr.. 2024. 3. 11.
[크롤링] 웹 크롤링 kbs 뉴스 데이터로 직접 해보자! (Beautifulsoup 활용) 먼저 해당 포스팅은 앞전의 크롤링 개념 포스팅을 먼저 보고 오는 것을 추천한다. 2024.03.11 - [python] - [크롤링] 웹 크롤링에 대한 기초 지식을 알아보자! [크롤링] 웹 크롤링에 대한 기초 지식을 알아보자! 오늘은 크롤링 강의를 통해 개념을 다시 잡고 실습해보는 시간을 가졌다. 이 포스팅은 메타코드의 웹 크롤링 기초 강의의 1강 내용을 요약한 포스팅이며, 다음 포스팅에 실습에 대해서도 남기려 forky-develop.tistory.com 크롤링에 대한 개념이 제대로 확립되지 않은 채로 진행하면 파이널 프로젝트를 진행할 때의 나처럼 방향성을 잡기가 매우 어려울 것이다. 2023.11.06 - [프로젝트] - [selenium] 웹 크롤링으로 장소와 주소 긁어서 엑셀로 저장하기 (url .. 2024. 3. 11.
[selenium] 웹 크롤링으로 장소와 주소 긁어서 엑셀로 저장하기 (url 안변할때 쓰는 방법) 이전에 작성했던 포스팅은 url이 변경되는 사이트여서 사용할 수 있었지만, url이 변하지 않아서 다음 버튼을 눌러주면서 스크롤 위치도 조정하면서 해야하는 크롤링에 맞닿았다. 크롤링을 제대로 배운적도, 공부한적도 없어서 방향을 잡는게 너무 어려웠다. 그냥 xpath를 붙여넣고 하기만 하면 되는줄 알았는데 그게 아니더라.. 나의 경우는 버튼을 눌러서 검색도 해줘야했고, 반복문을 돌려가며 페이지마다 여러개 있는걸 추출했다. 3~4일은 꼬박 이 부분만 한 것 같다. 다행히도 이전에 인턴을 하시면서 크롤링을 해보셨다는 팀원분께서 도움을 주셨다!! 오늘은 나처럼 크롤링을 제대로 알지 못했지만 원하는 것을 추출해야하시는 분들을 위한 팁을 주고자 한다! 이제 path를 어떻게 써야하는지 확실하게 감 잡아서 쉽게 작성.. 2023. 11. 6.
[selenium] 웹 크롤링으로 장소와 주소 긁어서 엑셀로 저장하기 오늘은 파이널 프로젝트에서 마케팅 부분으로 필요한 지도 시각화를 구현하기 위해 크롤링을 먼저 진행했다. 하나하나 복사해서 붙여와도 되는 정도였지만, 프로젝트라는것 자체가 수작업보다는 내 역량을 끌어올리기 위해 안되는 것도 되게 바꿔보는 시간을 갖는 것이라고 생각한다. 처음엔 셀레니움을 사용할 생각을 못하고 gpt에 조언을 구했었다. 그러다가 수업시간에 셀레니움을 배웠던 게 기억이 나서 셀레니움으로 시도해봤다. 다른 부분의 코드는 정보를 구하기 쉬웠지만 크게 두가지가 어려웠다. 그래서 오늘은 코드자체는 간결하기 때문에 어떤점이 힘들었는지를 먼저 작성하려한다. 문제점 1-1. 드라이브 연결문제 셀레니움의 크롬 드라이브를 사용했다. 위에서 path 설정이 완료된 상태였는데도 자꾸 드라이브쪽에서 문제가 생겼다... 2023. 11. 2.
[selenium] 웹사이트에서 데이터 긁어오기 - 실시간 검색어편 이전에 이미지를 다운받을 수 있도록 코드를 짜는 것을 해봤으면, 이번엔 실시간 검색어 자체를 가져오는 것을 해보자 이미지 다운에 관련해서 궁금하다면 아래 링크로 들어가보면 된다. 2023.08.08 - [python] - [selenium] 웹사이트에서 데이터 긁어오기 - 이미지편 [selenium] 웹사이트에서 데이터 긁어오기 - 이미지편 오늘은 셀레니움을 이용해서 웹 사이트에서 사진을 다운받아오는 과정에 대해 작성한다. 이미지 분석에 사용할 수 있도록 예제코드를 배운 셈으로 생각보다 간단했다. 나는 주피터노트북 가상 forky-develop.tistory.com 1. 시그널 실시간 검색어 뽑아내기 시그널의 경우 실시간 검색어가 바로 top 10으로 보인다. 그래서 따로 페이지 로딩시간을 체크해서 기다.. 2023. 8. 8.
[selenium] 웹사이트에서 데이터 긁어오기 - 이미지편 오늘은 셀레니움을 이용해서 웹 사이트에서 사진을 다운받아오는 과정에 대해 작성한다. 이미지 분석에 사용할 수 있도록 예제코드를 배운 셈으로 생각보다 간단했다. 나는 주피터노트북 가상환경 내에서 이 작업을 진행했으며, 이 과정까지는 더이상 언급하지 않겠다. 1. jupyter lab에서 크롬 드라이브 확인하기 이미지 분석을 위해 크롬에서 구글 이미지검색 사이트를 활용할 것이다. 그렇기 위해 크롬 드라이브가 지정한 위치에 있는지 확인을 해주자 import os def list_files(startpath): for root, dirs, files in os.walk(startpath): level = root.replace(startpath, '').count(os.sep) indent = ' ' * 4 *.. 2023. 8. 8.
가상환경 jupyter lab을 이용해 selenium 세팅하기 (Python) 여태까지 포스팅한 글중에 가장 쉬운 것 같다. ㅋㅋㅋㅋ 가상환경에서 주피터 랩을 사용하는게 항상 해왔던 거라 그런게 아니라 진짜 쉽다! 물론 이 포스팅은 세팅하기지 활용하기가 아닌 것도 있다. 지금부터 시작한다. 1. 폴더 하나 생성하기 폴더를 하나 생성해서 git clone 을 시켜주자 나는 이전에 생성하고 html 기초 문법에 대해 배웠던 파일을 활용했는데, README 파일만 있는 새폴더도 상관없다. 폴더를 생성하고 vs code 를 사용해서 파일을 열어주자 여기까지는 어려운 것이 없으니 캡쳐는 굳이 하지 않겠다. 혹시나 처음하는 사람이 볼 수도 있으니 코드만 살짝 첨부해보자면, git clone 본인이 생성한 github 레포 http 주소 code . 2. 파일 다운하기 가상환경에 접속을 먼저 .. 2023. 8. 1.
728x90