[크롤링] Python에서 웹 크롤러 만들 때의 정규식 사용
우선 크롤링 할 때 정규식을 알아야 할 필요가 있을까요? 네 있습니다. XPath 나 CSS Selector 로 모든 원하는 내용을 가져올 수 있다면 정말 좋겠지만, 웹사이트라는 게 정말 다양한 형태가 있을 수 있고, 내가 원하는 부분이 하필이면 보기 편한 형태로 있지 않을 수 있습니다. 그럴 경우에는 정규식을 사용하여 가져와야할 수도 있겠죠. 그래서 정규식을 알아두면 웹 스크래퍼나 웹 크롤러를 만들 때 용이합니다. 특히 제 경험상 태그 안의 내용물을 가져올 때 정규식을 사용하게 되었던 것 같습니다. import re # regular expression pattern = re.compile("ca.e") # . (ca.e) : 하나의 문자를 의미 > care, cafe, case (O) | caffe ..