본문 바로가기
728x90

크롤링7

[크롤링] 웹 크롤링 kbs 뉴스 데이터로 직접 해보자! (Selenium 활용) + 다음페이지 이동기능 및 RSS 이전 포스팅에서는 한 페이지에 대한 오늘 날짜의 뉴스를 긁어오는 것을 해봤다. 이번 포스팅에서는 오늘 날짜의 모든 페이지의 뉴스를 긁어오는 것을 해보려 한다. 2024.03.11 - [python] - [크롤링] 웹 크롤링 kbs 뉴스 데이터로 직접 해보자! (Selenium 활용) + Trouble Shooting [크롤링] 웹 크롤링 kbs 뉴스 데이터로 직접 해보자! (Selenium 활용) + Trouble Shooting 이번 시간은 지난 포스팅 beautifulsoup을 활용하지 못했던 것을 이어 selenium으로 해보는 것을 이어서 작성하겠다. 2024.03.11 - [python] - [크롤링] 웹 크롤링 kbs 뉴스 데이터로 직접 해보자! (Beautifulsoup forky-devel.. 2024. 3. 11.
[크롤링] 웹 크롤링 kbs 뉴스 데이터로 직접 해보자! (Selenium 활용) + Trouble Shooting 이번 시간은 지난 포스팅 beautifulsoup을 활용하지 못했던 것을 이어 selenium으로 해보는 것을 이어서 작성하겠다. 2024.03.11 - [python] - [크롤링] 웹 크롤링 kbs 뉴스 데이터로 직접 해보자! (Beautifulsoup 활용) [크롤링] 웹 크롤링 kbs 뉴스 데이터로 직접 해보자! (Beautifulsoup 활용) 먼저 해당 포스팅은 앞전의 크롤링 개념 포스팅을 먼저 보고 오는 것을 추천한다. 2024.03.11 - [python] - [크롤링] 웹 크롤링에 대한 기초 지식을 알아보자! [크롤링] 웹 크롤링에 대한 기초 지식을 알 forky-develop.tistory.com 마찬가지로 메타코드의 웹 크롤링 기초 강의를 활용해서 수강하고 있는 중이다. JavaScr.. 2024. 3. 11.
[크롤링] 웹 크롤링 kbs 뉴스 데이터로 직접 해보자! (Beautifulsoup 활용) 먼저 해당 포스팅은 앞전의 크롤링 개념 포스팅을 먼저 보고 오는 것을 추천한다. 2024.03.11 - [python] - [크롤링] 웹 크롤링에 대한 기초 지식을 알아보자! [크롤링] 웹 크롤링에 대한 기초 지식을 알아보자! 오늘은 크롤링 강의를 통해 개념을 다시 잡고 실습해보는 시간을 가졌다. 이 포스팅은 메타코드의 웹 크롤링 기초 강의의 1강 내용을 요약한 포스팅이며, 다음 포스팅에 실습에 대해서도 남기려 forky-develop.tistory.com 크롤링에 대한 개념이 제대로 확립되지 않은 채로 진행하면 파이널 프로젝트를 진행할 때의 나처럼 방향성을 잡기가 매우 어려울 것이다. 2023.11.06 - [프로젝트] - [selenium] 웹 크롤링으로 장소와 주소 긁어서 엑셀로 저장하기 (url .. 2024. 3. 11.
[크롤링] 웹 크롤링에 대한 기초 지식을 알아보자! 오늘은 크롤링 강의를 통해 개념을 다시 잡고 실습해보는 시간을 가졌다. 이 포스팅은 메타코드의 웹 크롤링 기초 강의의 1강 내용을 요약한 포스팅이며, 다음 포스팅에 실습에 대해서도 남기려 한다. 먼저 간단하게 해당 강의에 대한 소개를 하고 가자면, 오늘까지 무료로 풀린 강의라서 무료일 때 빨리 듣고 공부좀 하자는 의미로 메타코드의 웹 크롤링 기초 강의를 수강하게 되었다. 크롤링 전 개념 알고가기 크롤링을 하기전에 웹 서버와 클라이언트의 관계에 대해 알고가야한다. 우리가 코드를 통해 서버에 요청을 보내게 되는데 이때 이 요청을 서버에서 정확히 파악할 수 있고, 접속이 잘 되었다면 응답 코드 200으로 우리가 원하던 데이터를 받을 수 있다. 해당 페이지가 없어졌을 경우에는 404 에러가 뜨는데 이건 예전 게.. 2024. 3. 11.
[selenium] 웹 크롤링으로 장소와 주소 긁어서 엑셀로 저장하기 (url 안변할때 쓰는 방법) 이전에 작성했던 포스팅은 url이 변경되는 사이트여서 사용할 수 있었지만, url이 변하지 않아서 다음 버튼을 눌러주면서 스크롤 위치도 조정하면서 해야하는 크롤링에 맞닿았다. 크롤링을 제대로 배운적도, 공부한적도 없어서 방향을 잡는게 너무 어려웠다. 그냥 xpath를 붙여넣고 하기만 하면 되는줄 알았는데 그게 아니더라.. 나의 경우는 버튼을 눌러서 검색도 해줘야했고, 반복문을 돌려가며 페이지마다 여러개 있는걸 추출했다. 3~4일은 꼬박 이 부분만 한 것 같다. 다행히도 이전에 인턴을 하시면서 크롤링을 해보셨다는 팀원분께서 도움을 주셨다!! 오늘은 나처럼 크롤링을 제대로 알지 못했지만 원하는 것을 추출해야하시는 분들을 위한 팁을 주고자 한다! 이제 path를 어떻게 써야하는지 확실하게 감 잡아서 쉽게 작성.. 2023. 11. 6.
[selenium] 웹 크롤링으로 장소와 주소 긁어서 엑셀로 저장하기 오늘은 파이널 프로젝트에서 마케팅 부분으로 필요한 지도 시각화를 구현하기 위해 크롤링을 먼저 진행했다. 하나하나 복사해서 붙여와도 되는 정도였지만, 프로젝트라는것 자체가 수작업보다는 내 역량을 끌어올리기 위해 안되는 것도 되게 바꿔보는 시간을 갖는 것이라고 생각한다. 처음엔 셀레니움을 사용할 생각을 못하고 gpt에 조언을 구했었다. 그러다가 수업시간에 셀레니움을 배웠던 게 기억이 나서 셀레니움으로 시도해봤다. 다른 부분의 코드는 정보를 구하기 쉬웠지만 크게 두가지가 어려웠다. 그래서 오늘은 코드자체는 간결하기 때문에 어떤점이 힘들었는지를 먼저 작성하려한다. 문제점 1-1. 드라이브 연결문제 셀레니움의 크롬 드라이브를 사용했다. 위에서 path 설정이 완료된 상태였는데도 자꾸 드라이브쪽에서 문제가 생겼다... 2023. 11. 2.
[데이터 분석] pdf 크롤링 파일 csv로 파싱하기 (+ pdf -> pdf 비추와 이유) 오늘은 약간의 푸념? 을 먼저 늘여놓고 포스팅을 시작하려한다. 요즘 세미프로젝트를 위해 각자 크롤링하고 그 파일을 분석하도록 시간을 최소 1~2시간 씩 주신다. 아직 조가 확정된 것은 아니지만, 내가 정한 주제는 확정되었기에 틈틈히 하는 것이 좋으나 나는 주말엔 다른 일정들이 많았고, 딱 하루 없는 날엔 체력 비축을 위해 그냥 놀고 쉬었다. 뭐,,, 사실 핑계거리다. ㅋㅋㅋㅋㅋㅋ 😂😂 그렇다고 내가 코드를 잘 아는 것도 아니고 실력이 뛰어나서 금방 구글링하는 것도 아니어서 수업시간에 주는 시간엔 얻은 결과값이 딱히 없다.. 이렇게 있다간 같은 조로 편성될 조원들에게 피해를 입힐까 두려워 일단 이 때까지 최대한 긁어모았던 pdf 파일들을 csv 파일로 변환해야겠단 생각이 들었다! 그래서 오늘의 포스팅은!!.. 2023. 8. 14.
728x90