💡데이터마이닝 분석 절차
- 프로젝트 설정: 목적 설정과 전략 수립
- 데이터 획득: 필요한 정보 확보와 다양한 소스 조사
- 데이터 전처리: 이상치 처리와 형태 가공
- 데이터 축소: 효율적인 분석을 위한 데이터 샘플링
- 작업 결정: 분석 목적에 따른 데이터마이닝 작업 선택
- 데이터 분할: 훈련, 검증, 평가 데이터로 나누기
- 분석 기법 선택: 회귀분석, 의사결정 나무 등 다양한 기법 중 선택
- 알고리즘 적용: 선택된 기법에 따라 모델 학습 진행
- 결과 해석: 모델 결과를 이해하고 비즈니스에 적용할 수 있는 형태로 해석
- 모델 적용: 실제 비즈니스에 모델 적용하여 성과 확인
1. 데이터마이닝 프로젝트 목적을 정확히 정의한다.
- 프로젝트 목적: 고객 이탈을 예측하여 조기에 대응하여 이탈률을 감소시킨다.
목적이 명확하지 않으면 프로젝트의 방향성을 제대로 설정할 수 없다. 따라서 데이터 마이닝 프로젝트의 첫 단계는 목적을 정확히 정의하는 작업부터 시작한다.
목적 정의는 비즈니스 문제를 해결하고자 하는 목표와 관련이 있어야 하며, 목표 달성을 위한 프로젝트 범위와 한계를 명시하도록 한다.
2. 분석에 필요한 데이터 획득한다.
- 데이터 획득: 고객의 구매 이력, 서비스 이용 기록, 행동 패턴과 관련된 데이터를 수집
프로젝트의 목적을 정의한 후에는 해당 목적에 필요한 데이터를 획득하도록 한다.
다양한 데이터 소스를 탐색하고, 효과적인 데이터 수집 계획을 수립한다. 이 과정에서 데이터의 특성과 품질에 대한 이해가 필요하며, 이를 기반으로 데이터 획득 전략을 계획한다.
3. 데이터의 탐색, 정제, 전처리를 한다.
- 데이터 전처리: 구매 이력에서 결측값이나 이상치를 처리하고, 데이터를 정규화하여 분석에 적합한 형태로 가공한다.
획득한 데이터를 분석에 적합한 형태로 가공한다. 데이터의 품질을 검토하고, 이상치 및 결측치를 처리하며, 필요한 경우 데이터를 정제한다.
데이터의 속성을 이해하고, 분석에 활용할 수 있는 형태로 가공하는 것이 중요하다.
4. (필요시) 데이터를 축소한다.
- 데이터 축소: 모든 고객 대신 일부 고객을 샘플링하여 분석의 효율성을 높인다.
대규모 데이터셋의 경우, 분석의 효율성을 위해 데이터를 축소할 필요가 있다.
샘플링 및 필요에 따른 데이터 축소를 통해 분석에 필요한 핵심 데이터를 선별한다. 이는 분석 시간을 단축하고, 자원을 효율적으로 사용하는 데 도움이 된다.
5. 데이터마이닝 작업(분류, 예측, 군집 등)을 결정한다.
- 데이터마이닝 작업 결정: 고객 이탈을 예측하는데 필요한 예측 모델링을 선택한다.
프로젝트의 목적과 분석하고자 하는 문제에 따라 데이터 마이닝 작업을 결정한다.
분류, 예측, 군집 등 다양한 작업 중에서 목표에 맞는 작업을 선택하고, 해당 작업에 적합한 모델링을 수행하도록 한다.
6. (지도학습의 경우) 데이터 분할(훈련, 검증, 평가용)한다.
- 데이터 분할: 전체 데이터를 훈련 데이터(70%), 검증 데이터(15%), 평가 데이터(15%)로 분할하여 사용한다.
지도학습 모델의 경우, 데이터를 훈련, 검증, 평가용으로 분할한다.
각 데이터 세트는 고르게 분할되어야 하며, 훈련 데이터로 모델을 학습시키고, 검증 데이터로 모델을 튜닝하며, 최종적으로 평가 데이터로 모델의 성능을 평가한다.
7. 분석 기법(회귀분석, CART, 인공신경망 등)을 선택한다.
- 분석 기법 선택: 예측 모델링으로 회귀분석, 인공신경망을 선택한다.
분석에 사용할 기법과 알고리즘을 선택한다.
회귀분석, 의사결정 나무(CART), 인공신경망, K-최근접 이웃 등 다양한 기법 중에서 목적과 데이터에 적합한 기법을 선택하여 분석을 진행하면 된다.
8. 알고리즘을 사용하여 과제를 수행한다.
- 알고리즘 적용: 선택한 인공신경망 알고리즘을 사용하여 모델을 학습한다.
선택한 분석 기법에 따라 알고리즘을 사용하여 실제로 데이터를 분석하고 모델을 학습시킨다.
데이터 마이닝 알고리즘은 선택한 작업에 따라 데이터의 패턴을 찾거나 예측을 수행한다.
9. 알고리즘 결과를 해석한다.
- 알고리즘 결과 해석: 고객 이탈에 영향을 미치는 주요 요인을 해석하고, 결과를 비즈니스에 적용할 수 있는 형태로 이해한다.
분석 결과를 해석하고, 모델이 찾아낸 패턴이나 예측 결과를 이해한다. 결과의 신뢰성과 유용성을 판단하며, 비즈니스에 의미 있는 정보를 도출하는 것이 중요하다.
10. 모델을 적용한다.
- 모델 적용: 고객 이탈을 예측하는 모델을 사용하여 조기 대응 전략을 수립하고, 이를 적용하여 이탈률을 감소시킨다.
최종적으로 만들어진 모델을 실제 비즈니스나 조직에 적용한다. 이는 분석 결과를 활용하여 의사결정을 지원하거나, 새로운 데이터에 대한 예측을 수행하는 등 다양한 형태로 이루어지게 된다.
참고문헌
- 데이터마이닝 R edition, 조재희 외, 이앤비플러스
- 김종우, 김선태, 경영을 위한 데이터마이닝, 한경사, 2009
- 경영정보시스템, 김우주 외, 시그마프레스