💡비즈니스 애널리틱스 (Business Analytics, BA)
비즈니스 애널리틱스는 데이터를 분석하는 도구와 기법을 의미하며, 데이터를 분석하여 정량적인 정보를 도출한다.
온라인 분석처리(OLAP), 통계기법, 수리적 모델, 데이터마이닝을 통해 미래 예측에 필요한 인사이트를 얻으며, 의사결정자에게 필요한 정량적인 데이터를 산출하여 대응할 수 있도록 한다.
데이터마이닝 (Data Mining, DM)
대량의 데이터 집합으로부터 유용한 정보를 추출하는 것 또는 의미있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정을 의미한다.
데이터마이닝은 계산, 기술통계, 리포팅, 그리고 비즈니스 규칙을 뛰어넘는 고급 분석 방법으로, 복잡한 데이터 속에서 숨겨진 특징과 패턴을 찾아내어 의사결정에 활용한다.
💡비즈니스 인텔리전스 (Business Intelligence, BI)
비즈니스 인텔리전스는 비즈니스에서 발생한 데이터를 수집하고, 저장하고, 분석하는 인프라를 의미하며, 데이터를 통해 과거와 현재의 비즈니스 상황을 이해하는 데 중점을 둔다.
데이터베이스, 데이터 웨어하우스, 데이터 마트, 하둡, 분석 플랫폼이 이에 해당한다.
BI와 BA의 목적
BI는 과거와 현재의 데이터를 시각적으로 전달하여 의사결정자가 현 상황을 이해할 수 있도록 돕고, BA는 데이터를 심층적으로 분석하여 미래 예측에 필요한 정보를 제공한다.
결론적으로 말하자면, BI와 BA의 목적은 현대 비즈니스에서 의사결정자에게 빠르고 정확한 정보를 제공하여 기업의 경영 전략을 강화하고 경쟁우위를 창출하는 데 있다.
💡데이터마이닝과 기계학습
통계 (통계학)
- 정의: 표본 데이터를 이용하여 모집단에 대한 추론을 수행하는 학문이다.
- 활용: 주로 확률 분포, 추정, 가설 검정 등을 통해 데이터에서 얻은 정보를 모집단에 일반화함으로써 불확실성을 줄인다.
- 목적: 모집단에 대한 특성을 파악하고 통계적 추론을 통해 불확실성을 최소화하여 의사결정을 지원한다.
기계학습 (컴퓨터공학)
- 정의: 전체 데이터를 이용하여 모델을 학습시킨 후, 새로운 데이터에 대한 예측을 수행하는 기술이다.
- 활용: 주로 패턴 인식, 분류, 회귀 등 다양한 작업에 활용되며, 대용량 데이터셋에서 효과적으로 작동한다.
- 목적: 데이터로부터 학습된 모델을 통해 새로운 데이터에 대한 예측을 수행하여 의사결정에 활용한다.
데이터마이닝 (경영)
- 정의: 통계와 기계학습을 결합하여 가지고 있는 데이터에서 일정한 패턴이나 특성을 발견하고, 개별값 예측을 수행하는 기법이다.
- 활용: 비즈니스 분야에서 주로 사용되며, 고객 행동 예측, 마케팅 전략 수립, 이상 징후 탐지 등에 활용된다.
- 목적: 비즈니스 의사결정을 위해 데이터에서 유용한 정보를 도출하고, 미래의 경향을 예측하여 전략적으로 활용한다.
💡데이터베이스
데이터베이스 관리 시스템 (Database Management System: DBMS)
DBMS는 데이터를 저장할 수 있도록 해주는 소프트웨어로, 응용프로그램들과 물리적 데이터 파일들 간의 인터페이스를 의미한다.
DBMS와 RDBMS에 대해서는 위 글을 참고한다.
데이터 웨어하우스 (Data Warehouse)
다수의 핵심적인 거래처리시스템들로부터 현재 및 과거 데이터들을 저장한다.
DB가 업무 기능을 중점으로 한다면, DW는 특정 주제에 따른 분류를 한다.
💡데이터마이닝 분석기법
지도학습 (Supervised Learning)
- 목적: 목표(target) 또는 결과(outcome) 변수를 예측하는 것을 의미한다. 주로 연속형 또는 범주형 결과변수에 대한 예측을 포함한다.
- 특징: 결과변수(목표변수)가 이미 알려져 있다.
- 방법:
- 분류(Classification): 결과변수(목표변수)가 범주형인 경우에 적용. 예를 들어, 구매/비구매, 사기/정상, 도산/정상 등.
- 예측(Prediction): 결과변수(목표변수)가 연속형인 경우에 적용. 예를 들어, 매출액, 성장률 등.
비지도학습 (Unsupervised Learning)
- 목적: 자료를 의미있는 그룹으로 구분하거나 패턴을 찾는 것을 의미한다.
- 특징: 분류하거나 예측할 수 있는 결과변수(목표변수)가 없다.
- 방법:
- 연관성 규칙(Association Rules): 데이터 간의 연관성을 찾아내는 기법.
- 군집분석(Clustering): 데이터를 비슷한 특성을 가진 그룹으로 나누는 기법.
- 차원 축소(Dimensionality Reduction): 다차원 데이터를 간결하게 표현하기 위한 기법.
- 시각화(Visualization): 데이터의 패턴을 시각적으로 나타내는 기법.
예측 (지도학습) |
설명 (비지도학습) |
|
분류 (범주형 결과변수) |
예측 (연속형 결과변수) |
|
로지스틱 회귀 | 선형 회귀 | 군집분석 |
신경망 | 신경망 | |
분류나무 | 회귀나무 | 연관규칙 |
앙상블 | 앙상블 | |
나이브 베이즈 | SNA 텍스트마이닝 |
|
K-최근접이웃 | K-최근접이웃 |
분류 (범주형 결과변수)
- 로지스틱 회귀: 주로 두 범주 중 하나를 예측하는 데 사용되며, 결과가 이항 분포를 따를 때 효과적입니다. 예를 들어, 고객이 제품을 구매할지 여부를 예측하는 데 사용될 수 있다.
- 분류나무: 의사결정 트리를 기반으로 데이터를 분류하는 알고리즘으로, 여러 조건에 따라 데이터를 그룹으로 나누어 범주형 결과를 예측한다.
- 나이브 베이즈: 텍스트 분류 및 스팸 필터링과 같이 범주형 결과를 예측하는 데 사용되는 통계적 분류 알고리즘이다.
- K-최근접이웃: 주어진 데이터 포인트의 이웃들의 대다수의 범주를 기반으로 해당 데이터 포인트를 범주에 할당하는 알고리즘이다.
예측 (연속형 결과변수)
- 선형회귀: 입력 변수와 연속형 결과 변수 간의 선형 관계를 모델링하는 알고리즘으로, 예를 들어 판매량과 광고비용 간의 관계를 예측할 수 있다.
- 신경망: 복잡한 비선형 관계를 학습할 수 있는 딥러닝 알고리즘으로, 연속형 결과 변수 예측에 사용된다.
- 회귀나무: 의사결정 트리를 기반으로 데이터를 여러 그룹으로 나누어 각 그룹의 평균을 예측하여 연속형 결과를 예측하는 알고리즘이다.
분류나무, 회귀나무, 앙상블, 신경망, K-최근접이웃은 범주형이나 연속형 결과 변수 모두에 적용 가능하다.
설명 (비지도학습)
군집분석
- 목적: 군집분석은 데이터를 유사한 특성을 가진 그룹으로 나누는 데 사용된다.
- 알고리즘: 주어진 데이터셋에서 유사한 패턴을 찾아 군집을 형성하는데, 여러 알고리즘 중에서는 K-평균 군집화, 계층적 군집화 등이 사용된다.
연관규칙
- 목적: 연관규칙은 데이터에서 특정 사건들 간의 연관성을 찾는 데 사용된다.
- 알고리즘: 주로 지지도, 신뢰도, 향상도 등의 지표를 사용하여 규칙을 발견하는데, Apriori 알고리즘이 널리 사용된다.
SNA
- 목적: 사회 네트워크 분석(Social Network Analysis)은 개체 간의 관계를 분석하고 네트워크 구조를 이해하는 데 사용된다.
- 활용: 관계 네트워크에서 중요한 역할을 하는 노드를 식별하거나 전체 네트워크의 구조를 이해하는 데 활용된다.
텍스트마이닝
- 목적: 텍스트 데이터에서 의미 있는 정보를 추출하고 특성을 분석하는 데 사용된다.
- 활용: 문서 분류, 감성 분석, 주제 모델링 등 다양한 텍스트 기반 분석 작업에 활용된다.
참고문헌
- Galit Shmueli, Peter C. Bruce, Inbal Yahav, Nitin R. Patel, Kenneth C. Lichtendahl Jr.. 『Data Mining for Business Analytics: Concepts, Techniques, and Applications in R』. WILEY, 2017.09.05.
- Galit Shmueli, Peter C. Bruce, Inbal Yahav, Nitin R. Patel, Kenneth C. Lichtendahl Jr.. 『Data Mining for Business Analytics: Concepts, Techniques, and Applications in R』. 조성준, 조재희, 이성임, 신현정, 김상범, 이앤비플러스, 2018.08.01.