🍁jSoup https://jsoup.org/ jsoup: Java HTML parser, built for HTML editing, cleaning, scraping, and XSS safety jsoup: Java HTML Parser jsoup is a Java library for working with real-world HTML. It provides a very convenient API for fetching URLs and extracting and manipulating data, using the best of HTML5 DOM methods and CSS selectors. jsoup implements the WHATWG H jsoup.org jsoup-1.16.2.jar 파일을 ..
🍁Crawling (Scraping) 웹 크롤링(Crawling), 웹 스크래핑(Scraping) 웹 사이트(웹 페이지)에서 데이터를 수집하는 행위를 의미한다. 엄밀히 따지면 크롤링은 타깃을 정해두지 않고 데이터를 가져와 그중에 쓸모 있는 데이터를 얻는 것을 의미하고, 스크래핑은 타깃을 정하고 처음부터 유효한 대상만을 긁어오는 것이다. 먼저 긁어오고 나중에 데이터를 추출하느냐, 어떤 데이터를 추출할지 정하고 추출하느냐의 차이이다. 데이터를 얻어오는 방법 a. 상대방(웹사이트)이 나에게 부여한 DB 권한을 사용하는 방법 DB를 select 할 수 있는 권한만 있다면 언제든지 데이터를 사용할 수 있기 때문에 가장 좋은 방법이지만, 불가능하다. b. 상대방(웹사이트)이 외부에 공개한 OpenAPI를 사용하는 ..
1. 기본 package 설정 # install.packages("tidyverse") # install.packages("tidytext") library(KoNLP) useNIADic() # 단어사전 library(tidyverse) library(tidytext) 2. 단어 빈도 및 퍼센테이지(%) 계산 word_count % count(word, sort = TRUE) %>% mutate(prop = n / sum(n)) %>% ungroup() word_count 3. 단어 확인 3-1. 전체 데이터 확인 word_count %>% slice_max(n, n = 100) %>% print(n = 100) 3-2. 전체 데이터에서 상위 100개만 확인 word_count %>% slice_max(..
기사 데이터를 수집하는 방법으로 아래 3가지를 제시한다. 1. 데이터를 하나만 가져오는 방법 2. 여러 페이지의 데이터를 가져오는 방법 3. 조건을 설정하여 데이터를 가져오는 방법 3가지 방법을 구현하는 코드는 거의 비슷하지만 상이한 부분에 대해서는 디버깅을 통해 문제를 해결하는 능력이 필요하다. 1. 기본 package 설정 # 1. 기본 package 설치 library(tidyverse) library(rvest) ✔️ install.packages("") 2. 데이터를 하나만 가져오는 방법 2-1. 검색어 설정 # 2-1. 검색어 설정 search_url % # sp_nws1 > div > div > div.news_info > div.info_group > a:nth-child(3)" 앞부분 제..