티스토리 뷰

728x90
반응형

 

아주 쉬운

줌 실시간 이슈 키워드 크롤링하기 !

 

줌 이슈트렌드 페이지에 들어갑니다.

아래의 줌 이슈트렌드 링크에 들어가면, 상단에 NOW 이슈검색어가 1위부터 10위까지 있답니다!

https://issue.zum.com/

 

ZUM 이슈트렌드

최근 실시간 검색어와 이슈를 한 곳에, 줌 이슈트렌드에서 검색어 트렌드를 확인해 보세요.

issue.zum.com

 

1~10위 실시간 이슈검색어들을 가져와보도록 할게요.

일단 크롤링을 위해 requests, BeautifulSoup을 임포트 시키고,

requests.get을 통해 줌 메인페이지 html 소스코드를 가져옵니다.

import requests
from bs4 import BeautifulSoup

req = requests.get("https://issue.zum.com/")
soup = BeautifulSoup(req.text, 'lxml')

 

soup을 프린트해보면 아래와 같이 정상적으로 가져와 진 것을 확인할 수 있어요.

 

브라우저에서 F12를 눌러 개발자모드를 열어주세요.

첫번째 빨간색 박스친 부분의 아이콘을 누르고, 이슈검색어를 클릭하면

이슈검색어가 들어있는 태그를 찾을 수 있죠!

 

이슈검색어 리스트가 realtime_words 클래스를 가진 div 태그에 들어있군요.

realtime_words  div 안에 issueKeywordListWrap라는 id를 가진 div가 있고,

그 안에 issueKeywordList라는 id를 가진 ul을 가져옵시다!

 

 

ul = soup.find("ul", {"id":"issueKeywordList"})

 

issueKeywordList 이슈 키워드 리스트가 잘 가져와졌어요!

보니까 키워드들이 모두 span 태그 안에 num, word 클래스로 들어있어요.모두 findAll 해서 가져오면 될 것 같습니다.

 

 

findAll로 모두 가져와 length를 확인해보니 10개씩 잘 가져와졌어요.

 

num = ul.findAll("span", {"class":"num"})
word = ul.findAll("span", {"class":"word"})

 

보기 좋게 ranking이라는 딕셔너리에 넣어서 출력해보았어요,

실시간 이슈키워드를 1위부터 10위까지 제대로 잘 가져왔네요!!

매우쉽죠?

 

 

 

끝입니다!!

728x90
반응형
댓글