티스토리 뷰
아주 쉬운
줌 실시간 이슈 키워드 크롤링하기 !
줌 이슈트렌드 페이지에 들어갑니다.
아래의 줌 이슈트렌드 링크에 들어가면, 상단에 NOW 이슈검색어가 1위부터 10위까지 있답니다!
1~10위 실시간 이슈검색어들을 가져와보도록 할게요.
일단 크롤링을 위해 requests, BeautifulSoup을 임포트 시키고,
requests.get을 통해 줌 메인페이지 html 소스코드를 가져옵니다.
import requests
from bs4 import BeautifulSoup
req = requests.get("https://issue.zum.com/")
soup = BeautifulSoup(req.text, 'lxml')
soup을 프린트해보면 아래와 같이 정상적으로 가져와 진 것을 확인할 수 있어요.
브라우저에서 F12를 눌러 개발자모드를 열어주세요.
첫번째 빨간색 박스친 부분의 아이콘을 누르고, 이슈검색어를 클릭하면
이슈검색어가 들어있는 태그를 찾을 수 있죠!
이슈검색어 리스트가 realtime_words 클래스를 가진 div 태그에 들어있군요.
realtime_words div 안에 issueKeywordListWrap라는 id를 가진 div가 있고,
그 안에 issueKeywordList라는 id를 가진 ul을 가져옵시다!
ul = soup.find("ul", {"id":"issueKeywordList"})
issueKeywordList 이슈 키워드 리스트가 잘 가져와졌어요!
보니까 키워드들이 모두 span 태그 안에 num, word 클래스로 들어있어요.모두 findAll 해서 가져오면 될 것 같습니다.
findAll로 모두 가져와 length를 확인해보니 10개씩 잘 가져와졌어요.
num = ul.findAll("span", {"class":"num"})
word = ul.findAll("span", {"class":"word"})
보기 좋게 ranking이라는 딕셔너리에 넣어서 출력해보았어요,
실시간 이슈키워드를 1위부터 10위까지 제대로 잘 가져왔네요!!
매우쉽죠?
끝입니다!!
'프로그래밍 > Python' 카테고리의 다른 글
[크롤링] 파이썬으로 다음 뉴스 크롤링하기 (0) | 2021.11.16 |
---|---|
[크롤링] Python의 BeautifulSoup에서 find와 select 방식 (0) | 2021.11.15 |
[크롤링] Python 웹 크롤러 만들 때의 User-Agent 활용 (0) | 2021.11.09 |
[크롤링] Python에서 웹 크롤러 만들 때의 정규식 사용 (0) | 2021.11.09 |
[크롤링] Python의 requests 모듈 기본 사용법 (0) | 2021.11.09 |