지난 포스팅에서는 웹크롤링을 하려면? 라는 주제 였습니다
결과로서는 홈페이지 분석이 가장 첫번째가 되어
이번 포스팅은 홈페이지 분석은 어떻게 하는가? 입니다
"명지대학교 공지사항"을 보면서 분석해보겠습니다
http://www.mju.ac.kr/mbs/mjukr/jsp/board/list.jsp?boardId=11294&id=mjukr_050101000000
[명지대학교 공지사항 中 일반공지]
명지대학교 공지사항 캡쳐화면입니다
여기서 번호와 제목의 요소를 크롤링하고싶다면 어떻게 해야하는가?라는 의문을 가지게됩니다
F12를 눌러 브라우저 개발자도구를 열어줍니다
(필자 빡준은 구글 크롬을 사용하고있습니다)
크롬 아이콘 밑 마우스 아이콘이 보입니다
클릭하여 게시판 부분에 마우스 커서를 올려줍니다
[개발자도구로 table 태그에 커서를 올려놓은 모습]
이제 여기서 소스코드를 살펴봅시다
[소스코드]
저희가 원하던 요소
번호
제목
작성일
조회수
번호 = table > tbody > tr[8] > td[0] , td[1]
제목 = table > tbody > tr[8] > td[1] > p > a
작성일 = table > tbody > tr[8] > td[2]
조회수 = table > tbody > tr[8] > td[3]
에 존재하는군요
(tr[num] 은 tr태그중 num+1 번째 태그를 말합니다. 배열이라서 0부터 시작하기때문에 +1을 합니다)
이렇게 홈페이지 분석을 마쳤습니다
다음 포스팅에서는 nokogiri를 사용할수있는 환경설정을 알아보겠습니다.
'DEV > 웹 크롤링' 카테고리의 다른 글
Web Scraping [3] Ruby on rails 개발환경 준비는? (2) | 2018.09.20 |
---|---|
Web Scraping [1] 웹 크롤링을 하려면? (0) | 2018.09.19 |
Web Scraping [0] 웹 크롤링이란 무엇? (0) | 2018.09.19 |