💡데이터마이닝 분석 절차 프로젝트 설정: 목적 설정과 전략 수립 데이터 획득: 필요한 정보 확보와 다양한 소스 조사 데이터 전처리: 이상치 처리와 형태 가공 데이터 축소: 효율적인 분석을 위한 데이터 샘플링 작업 결정: 분석 목적에 따른 데이터마이닝 작업 선택 데이터 분할: 훈련, 검증, 평가 데이터로 나누기 분석 기법 선택: 회귀분석, 의사결정 나무 등 다양한 기법 중 선택 알고리즘 적용: 선택된 기법에 따라 모델 학습 진행 결과 해석: 모델 결과를 이해하고 비즈니스에 적용할 수 있는 형태로 해석 모델 적용: 실제 비즈니스에 모델 적용하여 성과 확인 1. 데이터마이닝 프로젝트 목적을 정확히 정의한다. 프로젝트 목적: 고객 이탈을 예측하여 조기에 대응하여 이탈률을 감소시킨다. 목적이 명확하지 않으면 프로..
💡비즈니스 애널리틱스 (Business Analytics, BA) 비즈니스 애널리틱스는 데이터를 분석하는 도구와 기법을 의미하며, 데이터를 분석하여 정량적인 정보를 도출한다. 온라인 분석처리(OLAP), 통계기법, 수리적 모델, 데이터마이닝을 통해 미래 예측에 필요한 인사이트를 얻으며, 의사결정자에게 필요한 정량적인 데이터를 산출하여 대응할 수 있도록 한다. 데이터마이닝 (Data Mining, DM) 대량의 데이터 집합으로부터 유용한 정보를 추출하는 것 또는 의미있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정을 의미한다. 데이터마이닝은 계산, 기술통계, 리포팅, 그리고 비즈니스 규칙을 뛰어넘는 고급 분석 방법으로, 복잡한 데이터 속에서 ..
1. 기본 package 설정 # install.packages("tidyverse") # install.packages("tidytext") library(KoNLP) useNIADic() # 단어사전 library(tidyverse) library(tidytext) 2. 단어 빈도 및 퍼센테이지(%) 계산 word_count % count(word, sort = TRUE) %>% mutate(prop = n / sum(n)) %>% ungroup() word_count 3. 단어 확인 3-1. 전체 데이터 확인 word_count %>% slice_max(n, n = 100) %>% print(n = 100) 3-2. 전체 데이터에서 상위 100개만 확인 word_count %>% slice_max(..
기사 데이터를 수집하는 방법으로 아래 3가지를 제시한다. 1. 데이터를 하나만 가져오는 방법 2. 여러 페이지의 데이터를 가져오는 방법 3. 조건을 설정하여 데이터를 가져오는 방법 3가지 방법을 구현하는 코드는 거의 비슷하지만 상이한 부분에 대해서는 디버깅을 통해 문제를 해결하는 능력이 필요하다. 1. 기본 package 설정 # 1. 기본 package 설치 library(tidyverse) library(rvest) ✔️ install.packages("") 2. 데이터를 하나만 가져오는 방법 2-1. 검색어 설정 # 2-1. 검색어 설정 search_url % # sp_nws1 > div > div > div.news_info > div.info_group > a:nth-child(3)" 앞부분 제..
강서대학교 학생 대상 강서01 버스 이용 만족도 분석 isaac-christian.tistory.com 강서대학교 학생 대상 강서01 버스 이용 만족도 분석에 사용한 소스코드이다. 직접 만족도 설문지를 만들고, 항목 및 차원 만족도와 IPA 분석을 진행하면서 R언어 이해도를 높일 수 있었다. 1. 기본 package 설정 # 1. 기본 package 설정 library(tidyverse) library(tidymodels) library(rstatix) library(skimr) library(FSA) library(ggpubr) library(rpart) library(rpart.plot) library(caret) library(tree) # install.packages("") 2. 데이터 불러오기..