BIGDATA

Programming/R

R Programming Web Crawling 형태소 분석

1. 기본 package 설정 # install.packages("tidyverse") # install.packages("tidytext") useNIADic() # 단어사전 library(KoNLP) library(tidyverse) library(tidytext) 2. 데이터 가져오기 tm_tb % # 엔터 등 제거 mutate(본문 = gsub("[[:punct:]]", " ", 본문)) %>% # 구두점 등 제거 mutate(본문 = gsub("[[:digit:]]", "", 본문)) # 숫자 제거 tm_tb$본문[2] ✔️ 정규표현식 ✔️ mutate(본문 = gsub("", "", 본문)) ✔️ 무엇을 출력할지는 내용을 보면서 생각해 봐야 한다. ✔️ [:cntrl:]: 제어문자 [\x00-..

Programming/R

R Programming Web Crawling 데이터 수집 (네이버 기사)

기사 데이터를 수집하는 방법으로 아래 3가지를 제시한다. 1. 데이터를 하나만 가져오는 방법 2. 여러 페이지의 데이터를 가져오는 방법 3. 조건을 설정하여 데이터를 가져오는 방법 3가지 방법을 구현하는 코드는 거의 비슷하지만 상이한 부분에 대해서는 디버깅을 통해 문제를 해결하는 능력이 필요하다. 1. 기본 package 설정 # 1. 기본 package 설치 library(tidyverse) library(rvest) ✔️ install.packages("") 2. 데이터를 하나만 가져오는 방법 2-1. 검색어 설정 # 2-1. 검색어 설정 search_url % # sp_nws1 > div > div > div.news_info > div.info_group > a:nth-child(3)" 앞부분 제..

Portfolio/Bigdata

강서구 노인인구 및 독거노인 증가, 노인복지 취약지역 예측, 거주환경 개선

◦ 분석 개요 강서구 60세 이상 노인인구 증가를 고려한 노인인구의 수요, 지리·환경적 특성 등을 분석한다. 노인인구 데이터 LSTM 분석과 상관관계 분석 등을 활용하여 향후 늘어날 노인인구를 예측하고, 시설 및 복지 차원에서 보완할 수 있도록 한다. 또한 강서구민들에게 좋은 거주 환경을 조성하고, 은퇴한 젊은 노인의 인적자원을 활용할 수 있는 대책을 마련하는 것을 목표로 한다. 1. 강서구의 노인인구가 이용할 수 있는 요양·복지 시설이 부족하다. 강서구의 60세 이상 노인인구는 서울권에서 가장 높은 수치이다. 또한 『서울 인구 감소하는데 1인 가구는 10년간 74.3% 증가』 기사에 따르면 60대 1인 가구 독거노인이 많이 사는 지역으로 강서구가 1위를 차지했다. 강서구는 현재 빠르게 증가하는 노인인구..

Portfolio/Bigdata

Python을 이용한 국내 전기차 충전소 수요 예측 분석 및 시각화

from google.colab import files uploaded = files.upload() # Saving 연도별 친환경자동차 등록현황.csv to 연도별 친환경자동차 등록현황.csv from google.colab import files uploaded = files.upload() # Saving 연료종류별 자동차 등록현황.csv to 연료종류별 자동차 등록현황.csv from google.colab import files uploaded = files.upload() # Saving 지역별 주유소 현황.csv to 지역별 주유소 현황.csv import pandas as pd import numpy as np import matplotlib.pyplot as plt import seabo..

Programming/R

R Programming 종합만족도 분석 및 IPA 계산

강서대학교 학생 대상 강서01 버스 이용 만족도 분석 isaac-christian.tistory.com 강서대학교 학생 대상 강서01 버스 이용 만족도 분석에 사용한 소스코드이다. 직접 만족도 설문지를 만들고, 항목 및 차원 만족도와 IPA 분석을 진행하면서 R언어 이해도를 높일 수 있었다. 1. 기본 package 설정 # 1. 기본 package 설정 library(tidyverse) library(tidymodels) library(rstatix) library(skimr) library(FSA) library(ggpubr) library(rpart) library(rpart.plot) library(caret) library(tree) # install.packages("") 2. 데이터 불러오기..

Programming/R

R Programming 만족도 지수 계산

1. 기본 package 설정 # 1. 기본 package 설정 library(tidyverse) library(tidymodels) library(rstatix) library(skimr) ❇️ tidyverse: 데이터 분석과 시각화를 위한 여러 R 패키지를 모아놓은 패키지 - dplyr, ggplot2, tidyr, purrr, stringr 등을 포함하고 있으며, 데이터 전처리, 조작, 시각화 등에 사용 ❇️ tidymodels: tidyverse와 마찬가지로 데이터 분석에 필요한 R 패키지를 모아놓은 패키지 - parsnip, recipes, rsample, dials, yardstick 등이 있으며, 머신러닝 모델 제작, 평가, 비교에 사용 ❇️ rstatix: 데이터 분석을 위한 통계 분석 ..