본문 바로가기
반응형

데이터수집3

[selenium] 웹 크롤링으로 장소와 주소 긁어서 엑셀로 저장하기 (url 안변할때 쓰는 방법) 이전에 작성했던 포스팅은 url이 변경되는 사이트여서 사용할 수 있었지만, url이 변하지 않아서 다음 버튼을 눌러주면서 스크롤 위치도 조정하면서 해야하는 크롤링에 맞닿았다. 크롤링을 제대로 배운적도, 공부한적도 없어서 방향을 잡는게 너무 어려웠다. 그냥 xpath를 붙여넣고 하기만 하면 되는줄 알았는데 그게 아니더라.. 나의 경우는 버튼을 눌러서 검색도 해줘야했고, 반복문을 돌려가며 페이지마다 여러개 있는걸 추출했다. 3~4일은 꼬박 이 부분만 한 것 같다. 다행히도 이전에 인턴을 하시면서 크롤링을 해보셨다는 팀원분께서 도움을 주셨다!! 오늘은 나처럼 크롤링을 제대로 알지 못했지만 원하는 것을 추출해야하시는 분들을 위한 팁을 주고자 한다! 이제 path를 어떻게 써야하는지 확실하게 감 잡아서 쉽게 작성.. 2023. 11. 6.
[selenium] 웹사이트에서 데이터 긁어오기 - 실시간 검색어편 이전에 이미지를 다운받을 수 있도록 코드를 짜는 것을 해봤으면, 이번엔 실시간 검색어 자체를 가져오는 것을 해보자 이미지 다운에 관련해서 궁금하다면 아래 링크로 들어가보면 된다. 2023.08.08 - [python] - [selenium] 웹사이트에서 데이터 긁어오기 - 이미지편 [selenium] 웹사이트에서 데이터 긁어오기 - 이미지편 오늘은 셀레니움을 이용해서 웹 사이트에서 사진을 다운받아오는 과정에 대해 작성한다. 이미지 분석에 사용할 수 있도록 예제코드를 배운 셈으로 생각보다 간단했다. 나는 주피터노트북 가상 forky-develop.tistory.com 1. 시그널 실시간 검색어 뽑아내기 시그널의 경우 실시간 검색어가 바로 top 10으로 보인다. 그래서 따로 페이지 로딩시간을 체크해서 기다.. 2023. 8. 8.
[selenium] 웹사이트에서 데이터 긁어오기 - 이미지편 오늘은 셀레니움을 이용해서 웹 사이트에서 사진을 다운받아오는 과정에 대해 작성한다. 이미지 분석에 사용할 수 있도록 예제코드를 배운 셈으로 생각보다 간단했다. 나는 주피터노트북 가상환경 내에서 이 작업을 진행했으며, 이 과정까지는 더이상 언급하지 않겠다. 1. jupyter lab에서 크롬 드라이브 확인하기 이미지 분석을 위해 크롬에서 구글 이미지검색 사이트를 활용할 것이다. 그렇기 위해 크롬 드라이브가 지정한 위치에 있는지 확인을 해주자 import os def list_files(startpath): for root, dirs, files in os.walk(startpath): level = root.replace(startpath, '').count(os.sep) indent = ' ' * 4 *.. 2023. 8. 8.
반응형