Web Scraping [2] 홈페이지 분석은 어떻게 하는가?

DEV/웹 크롤링

2018. 9. 19. 19:01

지난 포스팅에서는 웹크롤링을 하려면? 라는 주제 였습니다


결과로서는 홈페이지 분석이 가장 첫번째가 되어

이번 포스팅은 홈페이지 분석은 어떻게 하는가? 입니다


"명지대학교 공지사항"을 보면서 분석해보겠습니다

http://www.mju.ac.kr/mbs/mjukr/jsp/board/list.jsp?boardId=11294&id=mjukr_050101000000


[명지대학교 공지사항 中 일반공지]


명지대학교 공지사항 캡쳐화면입니다

여기서 번호와 제목의 요소를 크롤링하고싶다면 어떻게 해야하는가?라는 의문을 가지게됩니다


F12를 눌러 브라우저 개발자도구를 열어줍니다

(필자 빡준은 구글 크롬을 사용하고있습니다)


 

크롬 아이콘 밑 마우스 아이콘이 보입니다

클릭하여 게시판 부분에 마우스 커서를 올려줍니다


[개발자도구로 table 태그에 커서를 올려놓은 모습]


이제 여기서 소스코드를 살펴봅시다


[소스코드]


저희가 원하던 요소

  • 번호

  • 제목

  • 작성일

  • 조회수

번호 = table > tbody > tr[8] > td[0] , td[1]
제목 = table > tbody > tr[8] > td[1] > p > a
작성일 = table > tbody > tr[8] > td[2]
조회수 = table > tbody > tr[8] > td[3]
에 존재하는군요
(tr[num] 은 tr태그중 num+1 번째 태그를 말합니다. 배열이라서 0부터 시작하기때문에 +1을 합니다)




이렇게 홈페이지 분석을 마쳤습니다


다음 포스팅에서는 nokogiri를 사용할수있는 환경설정을 알아보겠습니다.