[크롤링] 웹 스크래핑/크롤링에 있어서 XPath란 무엇인가?
Hello World 우선 HTML부터 얘기해보면 HTML은 요소(Element)와 속성(Attribute)으로 이루어져 있습니다. 그리고 요소와 요소, 요소와 속성 간에 계층 관계가 있음을 알 수 있습니다. 만약에 title 클래스의 자식 요소인 p 태그의 내용을 가지고 오고 싶다면 어떨까요? 위 코드에서는 정말 순식간에 알아챌 수 있겠죠. (selector 표현식으로 표현하면 이렇겠죠. body > div#container > div.title > p) 하지만 아주 복잡하게 구현되어 있는 네이버나 다음 같은 웹 페이지에서 바로 내가 원하는 부분을 절대 경로로 가져오는 것은 매우 길고 복잡한 경로(path)가 필요하게 될 것입니다. 이러한 문제를 해결하기 위해서 나온 개념이 XPath(XML Path ..