'Programming/R' 카테고리의 글 목록

Programming/R

[R] 데이터마이닝의 이해: 선형 회귀 기반 데이터마이닝 분석

2024.01.20

💡주택 데이터 분석 주택 데이터 샘플 TOTAL VALUE TAX LOT SQFT YR BUILT GROSS AREA LIVING AREA FLOORS ROOMS BEDROOMS FULL BATH HALF BATH KITCHEN FIREPLACE REMODEL 344.2 4330 9965 1880 2436 1352 2 6 3 1 1 1 0 None 412.6 5190 6590 1945 3108 1976 2 10 4 2 1 1 0 Recent 330.1 4152 7500 1890 2294 1371 2 8 4 1 1 1 0 None 498.6 6272 13773 1957 5032 2608 1 9 5 1 1 1 1 None 331.5 4170 5000 1910 2370 1438 2 7 3 2 0 1 0 Non..

Programming/R

[R] 데이터마이닝의 이해: 10단계 분석 절차

2024.01.20

💡데이터마이닝 분석 절차 프로젝트 설정: 목적 설정과 전략 수립 데이터 획득: 필요한 정보 확보와 다양한 소스 조사 데이터 전처리: 이상치 처리와 형태 가공 데이터 축소: 효율적인 분석을 위한 데이터 샘플링 작업 결정: 분석 목적에 따른 데이터마이닝 작업 선택 데이터 분할: 훈련, 검증, 평가 데이터로 나누기 분석 기법 선택: 회귀분석, 의사결정 나무 등 다양한 기법 중 선택 알고리즘 적용: 선택된 기법에 따라 모델 학습 진행 결과 해석: 모델 결과를 이해하고 비즈니스에 적용할 수 있는 형태로 해석 모델 적용: 실제 비즈니스에 모델 적용하여 성과 확인 1. 데이터마이닝 프로젝트 목적을 정확히 정의한다. 프로젝트 목적: 고객 이탈을 예측하여 조기에 대응하여 이탈률을 감소시킨다. 목적이 명확하지 않으면 프로..

Programming/R

[R] 데이터마이닝의 이해: BA와 BI, 기계학습, 지도학습과 비지도학습

2024.01.05

💡비즈니스 애널리틱스 (Business Analytics, BA) 비즈니스 애널리틱스는 데이터를 분석하는 도구와 기법을 의미하며, 데이터를 분석하여 정량적인 정보를 도출한다. 온라인 분석처리(OLAP), 통계기법, 수리적 모델, 데이터마이닝을 통해 미래 예측에 필요한 인사이트를 얻으며, 의사결정자에게 필요한 정량적인 데이터를 산출하여 대응할 수 있도록 한다. 데이터마이닝 (Data Mining, DM) 대량의 데이터 집합으로부터 유용한 정보를 추출하는 것 또는 의미있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정을 의미한다. 데이터마이닝은 계산, 기술통계, 리포팅, 그리고 비즈니스 규칙을 뛰어넘는 고급 분석 방법으로, 복잡한 데이터 속에서 ..

Programming/R

R Programming Web Crawling 워드클라우드

2023.06.07

1. 기본 package 설정 # install.packages("ggwordcloud") library(ggwordcloud) 2. 실행 시 매번 다르게 그려지도록 설정 set.seed(123) color % slice_max(n, n = 50)), replace = TRUE) 3. 흑백으로 그리기 set.seed(123) word_count %>% filter(n > 20) %>% ggplot(mapping = aes(label = word, size = n)) + geom_text_wordcloud_area() + scale_size_area(max_size = 20) + theme_minimal() 4. 여러가지 색으로 그리기 set.seed(123) color % filter(n > 20)), ..

Programming/R

R Programming Web Crawling 단어 빈도 분석

2023.06.07

1. 기본 package 설정 # install.packages("tidyverse") # install.packages("tidytext") library(KoNLP) useNIADic() # 단어사전 library(tidyverse) library(tidytext) 2. 단어 빈도 및 퍼센테이지(%) 계산 word_count % count(word, sort = TRUE) %>% mutate(prop = n / sum(n)) %>% ungroup() word_count 3. 단어 확인 3-1. 전체 데이터 확인 word_count %>% slice_max(n, n = 100) %>% print(n = 100) 3-2. 전체 데이터에서 상위 100개만 확인 word_count %>% slice_max(..

Programming/R

R Programming Web Crawling 형태소 분석

2023.06.07

1. 기본 package 설정 # install.packages("tidyverse") # install.packages("tidytext") useNIADic() # 단어사전 library(KoNLP) library(tidyverse) library(tidytext) 2. 데이터 가져오기 tm_tb % # 엔터 등 제거 mutate(본문 = gsub("[[:punct:]]", " ", 본문)) %>% # 구두점 등 제거 mutate(본문 = gsub("[[:digit:]]", "", 본문)) # 숫자 제거 tm_tb$본문[2] ✔️ 정규표현식 ✔️ mutate(본문 = gsub("", "", 본문)) ✔️ 무엇을 출력할지는 내용을 보면서 생각해 봐야 한다. ✔️ [:cntrl:]: 제어문자 [\x00-..

Programming/R

R Programming Web Crawling 데이터 수집 (네이버 기사)

2023.05.20

기사 데이터를 수집하는 방법으로 아래 3가지를 제시한다. 1. 데이터를 하나만 가져오는 방법 2. 여러 페이지의 데이터를 가져오는 방법 3. 조건을 설정하여 데이터를 가져오는 방법 3가지 방법을 구현하는 코드는 거의 비슷하지만 상이한 부분에 대해서는 디버깅을 통해 문제를 해결하는 능력이 필요하다. 1. 기본 package 설정 # 1. 기본 package 설치 library(tidyverse) library(rvest) ✔️ install.packages("") 2. 데이터를 하나만 가져오는 방법 2-1. 검색어 설정 # 2-1. 검색어 설정 search_url % # sp_nws1 > div > div > div.news_info > div.info_group > a:nth-child(3)" 앞부분 제..

Programming/R

R Programming 종합만족도 분석 및 IPA 계산

2023.04.16

강서대학교 학생 대상 강서01 버스 이용 만족도 분석 isaac-christian.tistory.com 강서대학교 학생 대상 강서01 버스 이용 만족도 분석에 사용한 소스코드이다. 직접 만족도 설문지를 만들고, 항목 및 차원 만족도와 IPA 분석을 진행하면서 R언어 이해도를 높일 수 있었다. 1. 기본 package 설정 # 1. 기본 package 설정 library(tidyverse) library(tidymodels) library(rstatix) library(skimr) library(FSA) library(ggpubr) library(rpart) library(rpart.plot) library(caret) library(tree) # install.packages("") 2. 데이터 불러오기..