💡Data Sources
OLTP Databases
OLTP(Online Transaction Processing) 데이터베이스는 일상적인 트랜잭션 처리를 위한 데이터베이스로, 주로 기업의 운영 시스템에서 발생하는 데이터를 저장하며, 주문 처리, 재고 관리, 고객 정보 관리 등과 같은 실시간 트랜잭션 처리에 주로 사용된다.
Enterprise Applicaions
엔터프라이즈 애플리케이션은 기업 내부에서 사용되는 다양한 소프트웨어 애플리케이션으로, 주로 기업의 중요한 영역을 관리하고 조직 내의 업무 프로세스를 자동화하는 데 사용된다.
대표적인 예로는 ERP, CRM, SCM 등이 있다. 이러한 애플리케이션들은 각각의 영역에 특화된 기능을 제공하여 기업의 생산성과 효율성을 향상한다.
- ERP (Enterprise Resource Planning, 전사적 자원 관리)
- 전사적은 '기업 전체'를 의미한다. 즉, ERP는 기업 자원을 관리하는 것을 의미한다.
- 기업 내의 다양한 자원을 효율적으로 관리하고, 비즈니스 프로세스를 통합하는 데 사용된다.
- 주문 처리, 재고 관리, 인력 관리, 회계 및 재무, 생산 관리 등 다양한 기능을 제공한다.
- 대표적인 ERP 시스템으로는 SAP, Oracle ERP, Microsoft Dynamics 등이 있다.
- CRM (Customer Relationship Management, 고객 관계 관리)
- 고객과의 관계를 관리하고 최적화하는 데 사용된다.
- 고객 정보 관리, 영업 관리, 마케팅 자동화, 고객 서비스 등의 기능을 제공한다.
- 대표적인 CRM 시스템으로는 Salesforce, Microsoft Dynamics CRM, HubSpot 등이 있다.
- SCM (Supply Chain Management, 공급망 관리)
- 제품의 생산부터 유통까지의 공급망을 효율적으로 관리하는 데 사용된다.
- 주문 관리, 재고 관리, 운송 및 물류 관리, 공급업체 관리 등의 기능을 제공한다.
- 대표적인 SCM 시스템으로는 Oracle SCM Cloud, SAP Integrated Business Planning, Manhattan Associates 등이 있다.
- HRM (Human Resource Management, 인사 관리)
- 기업의 인적 자원을 관리하고, 인력 관리 프로세스를 자동화하는 데 사용된다.
- 인력 채용, 인사 정보 관리, 급여 관리, 교육 및 개발 등의 기능을 제공한다.
- 대표적인 HRM 시스템으로는 Workday, SAP SuccessFactors, ADP 등이 있다.
- BI (Business Intelligence, 비즈니스 인텔리전스)
- 기업의 데이터를 수집, 분석하여 의사결정을 지원하는 데 사용된다.
- 데이터 시각화, 대시보드, 실시간 분석, 예측 분석 등의 기능을 제공한다.
- 대표적인 BI 플랫폼으로는 Tableau, Microsoft Power BI, QlikView 등이 있다.
- ECM (Enterprise Content Management, 기업 콘텐츠 관리)
- 기업의 문서 및 콘텐츠를 관리하고 보존하는 데 사용된다.
- 문서 관리, 워크플로 관리, 버전 관리, 문서 보안 등의 기능을 제공한다.
- 대표적인 ECM 시스템으로는 OpenText, IBM FileNet, Microsoft SharePoint 등이 있다.
SAP (System Analysis Program Development)
SAP는 독일의 소프트웨어 기업 SAP SE가 개발한 기업용 소프트웨어 솔루션이다. SAP는 기업의 다양한 부문에서 사용되며, 기업 자원 관리(ERP), 고객 관계 관리(CRM), 공급망 관리(SCM), 데이터 분석, 인간 자원 관리(HRM), 비즈니스 인텔리전스(BI) 등 다양한 비즈니스 프로세스를 통합하여 관리하는 통합 소프트웨어 패키지이다.
기업의 SAP 시스템은 민감한 비즈니스 데이터와 프로세스를 포함하고 있기 때문에, 외부에서의 접근을 제한하고 보안을 강화하기 위해 VPN을 사용하기도 한다. 이를 통해 불법적인 접근을 방지하고, 인가된 사용자만이 SAP 시스템에 접속할 수 있도록 한다.
원리적으로, VPN은 공개 네트워크(예: 인터넷)를 통해 안전한 전용 네트워크로의 암호화된 연결을 설정한다. 사용자는 VPN 클라이언트 소프트웨어를 사용하여 VPN 서버에 연결하고, 이를 통해 안전한 터널을 통해 기업 내부의 SAP 시스템에 접속할 수 있다. 이로써 외부에서의 접속이 보안적으로 안전하게 제어되고, 데이터가 안전하게 전송되며, 인증 및 권한 관리가 수행된다.
요약하면, SAP는 기업용 통합 소프트웨어로, 다양한 비즈니스 프로세스를 효율적으로 관리하고 최적화하는 데 사용된다.
Third-Party
Third-Party 데이터 소스는 기업 외부에서 제공되는 다양한 데이터 소스로, 공공 데이터 세트, 외부 공급업체의 데이터, 소셜 미디어 데이터, 마케팅 데이터 등이 포함된다. 이러한 데이터 소스들은 기업의 내부 데이터와 결합하여 더 포괄적인 분석과 의사결정을 지원하는 데 사용된다.
- 공공 데이터 세트(Public Data Sets)
- 정부 기관이나 공공 기관에서 제공하는 데이터 세트로, 주로 공공 서비스 제공, 연구, 분석 등을 목적으로 공개된다.
- 인구 통계, 기후 정보, 교통 데이터 등이 이에 해당한다.
- 공공 데이터는 사회적, 경제적, 환경적 요인을 이해하고 정책 결정을 지원하는 데 사용된다.
- 외부 공급업체 데이터(External Vendor Data)
- 다른 기업이나 조직에서 구매한 데이터로, 주로 마케팅, 시장 조사, 경쟁 분석 등을 위해 활용된다.
- 외부 공급업체는 주식 시장 데이터, 소비자 행동 데이터, 경쟁사의 성과 데이터 등을 제공할 수 있다.
- 기업의 내부 데이터와 결합하여 시장 동향을 파악하고 비즈니스 전략을 수립하는 데 활용된다.
- 소셜 미디어 데이터(Social Media Data)
- 소셜 미디어 플랫폼에서 생성되는 다양한 형태의 데이터로, 사용자의 의견, 감정, 행동 등을 포함한다.
- 소셜 미디어 마케팅, 고객 인사이트 분석, 브랜드 평판 관리 등에 활용된다.
- 트위터, 페이스북, 인스타그램 등의 플랫폼에서 생성되는 텍스트, 이미지, 비디오 데이터 등이 여기에 속한다.
- 마케팅 데이터(Marketing Data)
- 기업의 마케팅 활동에서 생성되는 데이터로, 광고 클릭 수, 이메일 열람률, 구매 이력 등을 포함한다.
- 마케팅 캠페인의 효율성을 평가하고 고객의 관심과 행동을 이해하는 데 사용된다.
- 광고 플랫폼, 이메일 마케팅 툴, 웹사이트 분석 도구 등에서 생성되는 데이터가 이에 해당한다.
💡ETL과 ELT
ETL과 ELT는 데이터 처리 및 분석에서 중요한 개념으로, 각각 Extract, Transform, Load와 Extract, Load, Transform의 약자이다. 이 두 방식은 데이터를 추출하고 변환하며 로드하는 방식에 차이가 있다.
ETL은 데이터를 추출한 후 변환하고 로드하는 반면, ELT는 데이터를 추출하고 로드한 후에 변환한다. 최근에는 대량의 데이터 처리를 위해 ELT 방식이 더 많이 사용되고 있다.
ETL (Extract, Transform, Load)
ETL은 데이터 웨어하우스나 데이터 레이크와 같은 대규모 데이터 저장소로 데이터를 이동시키는 프로세스를 나타낸다.
ETL 프로세스는 데이터의 이동(Extract), 변환(Transform), 저장(Load)에 대한 과정을 체계적으로 수행하여 비즈니스 인텔리전스 및 의사결정 지원을 위한 데이터 분석 환경을 구축하는 데 중요한 역할을 한다.
1. 추출(Extract)
추출 단계에서는 다양한 데이터 소스에서 필요한 데이터를 식별하고 추출한다. 데이터 소스는 주로 OLTP 데이터베이스, 엔터프라이즈 애플리케이션, 외부 데이터 소스 등이 될 수 있다. 추출된 데이터는 일반적으로 원시 데이터의 형태로 추출되며, 데이터의 크기와 형식에 따라 다양한 추출 방법을 사용할 수 있다. 이 단계에서는 데이터의 복사본이 생성되어 추출된 데이터가 원본 데이터에 영향을 주지 않는다.
2. 변환(Transform)
추출된 데이터는 여러 다양한 형식과 구조로 저장되어 있다. 변환 단계에서는 추출된 데이터를 목적지 데이터 저장소에 로드하기 전에 필요에 따라 변환하고 정제한다. 이 과정에서는 데이터의 형식을 변경하거나 조작하고, 데이터 품질을 향상시키기 위해 오류나 누락된 값에 대한 처리가 이루어진다. 또한 데이터의 집계, 정렬, 필터링, 조인 등의 작업이 수행될 수 있다.
3. 적재(Load)
변환된 데이터는 목적지 데이터 저장소인 데이터 웨어하우스나 데이터 레이크로 로드된다. 적재 단계에서는 데이터가 저장될 대상 테이블이나 파일의 스키마를 준수하도록 데이터를 형식화하고 저장한다. 데이터 적재는 일괄 처리 방식으로 수행될 수 있으며, 실시간으로 데이터를 전송하는 경우도 있다. 적재 단계가 완료되면 데이터는 대상 데이터 저장소에 저장되어 분석이나 보고서 작성 등의 목적으로 사용할 수 있다.
ELT (Extract, Load, Transform)
ELT는 추출하고 적재한 후에 변형한다는 의미이다. 즉, 데이터를 추출한 후 즉시 적재 단계를 시작하여 모든 데이터 소스를 하나의 공간에 이동시킨다. 이 과정에서 HDFS 등이 사용되며, 그 후에 용도에 따라서 필요한 경우 데이터를 변형하여 사용하게 된다.
1. 추출 (Extract)
다양한 소스에서 데이터를 추출한다. 이는 외부 시스템, 데이터베이스, 웹 API 등에서 원시 데이터를 수집하는 단계이다. 데이터는 원본 시스템에서 추출되어 추출된 데이터의 형태를 유지한다.
2. 적재 (Load)
추출된 데이터를 대상 시스템에 로드한다. 이는 데이터를 원시 상태 그대로나 가공된 형태로 대상 시스템에 저장하는 단계이다. ELT에서는 데이터를 로드할 때 변환 없이 그대로 대상 시스템에 저장된다.
3. 변환 (Transform)
로드된 데이터를 대상 시스템 내에서 필요에 따라 변환한다. 이 단계에서는 로드된 데이터를 분석하거나 가공하여 사용자가 원하는 형태로 데이터를 변형한다. 변환은 주로 대상 시스템 내부에서 이루어지며, SQL 쿼리, 스크립트, 혹은 다른 프로그래밍 방식을 사용하여 데이터를 가공한다.
ETL과 ELT의 차이점
- 변환 시기: ETL은 데이터를 추출한 후 변환하는 반면, ELT는 데이터를 로드한 후 변환한다.
- 적합성: ETL은 복잡한 데이터 변환 및 정제 작업을 수행하는 데 적합하며, ELT는 대량의 데이터를 적재하는 데 적합하다.
- 비용: ETL은 변환 작업을 위해 추가적인 리소스가 필요하므로 비용이 더 많이 소요될 수 있다. 반면 ELT는 로드 후 변환하기 때문에 변환 작업에 따른 비용이 줄어든다.
- 스케일링: ELT는 클라우드 기술을 활용하여 대량의 데이터를 처리할 수 있어 스케일링에 용이하다. ETL도 클라우드에서 사용될 수 있지만, 변환 작업에 따라 성능이 제약될 수 있다.
💡데이터 웨어하우스 (Data Warehouse)
데이터 웨어하우스는 기업이 전략적 의사결정과 비즈니스 인텔리전스를 위해 데이터를 저장, 관리, 분석하는 데 사용되는 중앙 집중형 데이터 저장소이다.
다양한 데이터 소스로부터 추출, 변환, 적재(ETL)된 데이터가 데이터 웨어하우스에 저장되며, 이를 통해 사용자들은 통합된 데이터에 접근하여 의사결정에 활용할 수 있다.
데이터 웨어하우스는 정보(Data)와 창고(Warehouse)의 합성어로, 의사결정에 도움을 주기 위해 분석 가능한 형태로 변환된 데이터가 저장되어 있는 중앙저장소이다. 즉, 의사결정에 필요한 데이터가 들어있는 데이터베이스라고 할 수 있다.
데이터베이스와 데이터웨어하우스
데이터베이스는 데이터를 구조화하여 저장하고 관리하는 시스템으로, 주로 해당 정보 시스템을 운영하고 일상적인 트랜잭션 처리를 위한 목적으로 사용된다. 데이터베이스는 주로 실시간 트랜잭션 처리에 중점을 두고 있어서 분석 목적에는 적합하지 않다. 이에 반해, 데이터 웨어하우스는 분석 목적을 위해 설계된 중앙 집중형 데이터 저장소이다.
데이터 웨어하우스를 사용함으로써, 운영 데이터베이스에서 데이터를 추출할 때 발생할 수 있는 부하를 최소화할 수 있다. 데이터 웨어하우스는 운영 데이터베이스로부터 데이터를 추출하여 중앙 집중적으로 저장하므로, 운영 시스템에 부담을 주지 않으면서 데이터를 효율적으로 분석할 수 있다.
또한, 데이터 웨어하우스는 큰 규모의 데이터를 저장하고 조회하며, 복잡한 분석을 수행하는 데 적합하다. 이를 통해 기업은 전략적인 의사결정을 지원하는 데 필요한 데이터를 효과적으로 활용할 수 있다.
데이터베이스는 정보 시스템을 운영하기 위한 존재일 뿐, 분석 목적이 아니기 때문에 데이터 웨어하우스가 필요하다. 데이터 웨어하우스를 사용하면 부하를 발생시키지 않고 운영 DB를 추출하고 큰 규모의 데이터 조회 및 분석을 할 수 있다.
데이터 웨어하우스의 특징
- 중앙 집중형 데이터 저장소: 데이터 웨어하우스는 기업의 모든 데이터를 중앙에서 통합하여 저장하는 중앙 집중형 구조를 가지고 있다. 이는 기업 내부의 다양한 데이터 소스로부터 추출된 데이터를 하나의 통합된 환경에 모아 통합된 데이터를 제공함으로써 일관된 데이터 관리와 접근성을 제공한다.
- 비즈니스 인텔리전스와 분석을 위한 설계: 데이터 웨어하우스는 주로 비즈니스 인텔리전스(Business Intelligence, BI) 및 분석 목적으로 설계된다. 이는 데이터를 기반으로 한 의사결정 및 전략 수립을 지원하기 위해 데이터를 효율적으로 저장하고 관리하는 것을 의미한다.
- 정형 및 비정형 데이터 처리: 데이터 웨어하우스는 정형 데이터뿐만 아니라 비정형 데이터도 처리할 수 있다. 이는 다양한 형식과 소스의 데이터를 통합하여 저장하고 분석할 수 있으며, 비즈니스에 중요한 인사이트를 발견하는 데 도움이 된다.
- 시간 축적 데이터: 데이터 웨어하우스는 주로 시간에 따른 데이터의 변화를 추적하고 분석하는 데 사용된다. 이는 과거부터 현재까지의 데이터를 지속적으로 축적하여 시계열 데이터 분석이나 트렌드 분석에 활용된다.
- 고성능 쿼리 및 분석 도구 지원: 데이터 웨어하우스는 대규모 데이터 집합에 대한 고성능 쿼리 및 분석 도구를 지원한다. 이는 복잡한 분석 작업이나 대량의 데이터를 신속하게 처리하여 실시간으로 인사이트를 도출하는 데 도움이 된다.
- 데이터 품질 및 일관성 관리: 데이터 웨어하우스는 데이터 품질과 일관성을 유지하기 위한 다양한 기능을 제공한다. 이는 데이터의 정제, 표준화, 일치성 검사 등을 통해 데이터의 신뢰성을 확보하고 비즈니스 의사결정에 신뢰성을 제공한다.
- 스토리지 및 관리 비용 최적화: 데이터 웨어하우스는 데이터를 효율적으로 저장하고 관리함으로써 스토리지 및 관리 비용을 최적화한다. 이는 데이터의 압축, 파티셔닝, 인덱싱 등을 통해 데이터 관리 비용을 절감하고 기업의 자원을 효율적으로 활용하는 데 도움이 된다.
데이터 웨어하우스 구축 과정
- 요구 사항 분석
데이터 웨어하우스 프로젝트를 시작하기 전에 비즈니스 요구 사항을 분석해야 한다. 이는 기업의 목표와 비즈니스 프로세스를 이해하고 데이터 웨어하우스가 어떻게 이를 지원할 수 있는지를 결정하는 것을 포함한다. - 데이터 소스 식별
데이터 웨어하우스에 저장할 데이터를 제공하는 데이터 소스를 식별한다. 이는 기존의 OLTP(Online Transaction Processing) 시스템, 엔터프라이즈 애플리케이션, 외부 데이터 소스 등을 포함할 수 있다. - 데이터 추출(Extract)
데이터 추출 단계에서는 식별된 데이터 소스에서 필요한 데이터를 추출한다. 이를 위해 ETL(추출, 변환, 적재) 도구나 스크립트를 사용하여 데이터를 수집하고 임시 저장소에 저장한다. - 데이터 변환(Transform)
추출된 데이터는 다양한 형식과 구조로 저장되어 있을 수 있다. 변환 단계에서는 추출된 데이터를 목적지 데이터 저장소에 적합한 형식으로 변환하고 정제한다. 이 과정에서는 데이터 형식을 변경하거나 조작하고, 데이터 품질을 향상시키는 작업이 수행된다. - 데이터 적재(Load)
변환된 데이터는 데이터 웨어하우스에 로드된다. 이 단계에서는 변환된 데이터를 데이터 웨어하우스의 대상 테이블이나 파일에 적재하여 저장한다. 데이터의 스키마를 준수하고, 데이터의 일관성과 무결성을 보장한다. - 데이터 모델링
데이터 웨어하우스에 저장된 데이터의 구조를 설계한다. 이는 차원 모델링 또는 스키마 설계를 포함할 수 있으며, 데이터 웨어하우스의 쿼리 성능 및 분석 요구 사항에 따라 결정된다. - 메타데이터 관리
데이터 웨어하우스에 저장된 데이터의 메타데이터를 관리한다. 이는 데이터의 출처, 정의, 사용 방법 등을 문서화하고 관리함으로써 데이터의 신뢰성과 효율성을 제고한다. - 테스트 및 검증
데이터 웨어하우스를 구축한 후에는 테스트와 검증을 통해 시스템의 정확성과 효율성을 확인해야 한다. 이는 데이터의 일관성, 정확성, 성능 등을 검증하는 것을 포함한다. - 배포 및 유지보수
데이터 웨어하우스가 성공적으로 구축되면, 배포하여 사용자 및 관리자에게 제공된다. 이후에는 데이터 웨어하우스의 유지보수와 모니터링이 필요하며, 사용자 요구 사항에 따라 추가 개발 및 업데이트가 이루어진다.
💡데이터 마트 (Data Mart)
데이터 마트는 특정 주제나 부서에 중점을 둔 데이터의 집합으로, 데이터 웨어하우스나 데이터 레이크에서 필요한 데이터를 추출하여 구축된다. 이는 주로 비즈니스 인텔리전스(BI) 또는 의사결정 지원 시스템을 위한 것이다. 데이터 마트는 데이터 웨어하우스와 유사한 구조를 가지고 있지만, 보다 작고 특정한 주제나 관심 영역에 초점을 맞추고 있다.
데이터 마트는 작은 범위의 데이터 웨어하우스로 볼 수 있으며, 특정한 주제나 관심 영역에 초점을 맞추어 구축된다. 데이터 마트는 비즈니스의 특정 요구사항을 충족시키기 위해 구성되며, BI 및 의사결정에 활용된다.
데이터 마트는 기업의 특정한 요구사항이나 부서의 필요에 따라 구축된다. 예를 들어, 마케팅 부서나 판매 부서에서는 고객 행동 데이터에 중점을 둘 수 있으며, 이에 따라 고객 관련 데이터를 중심으로 한 데이터 마트를 구축할 수 있다. 마찬가지로 재무 부서에서는 회계 데이터나 재무 지표에 중점을 둘 수 있으며, 이에 따라 재무 관련 데이터를 중심으로 한 데이터 마트를 구축할 수 있다.
데이터 마트는 주로 데이터의 가공 및 변환 작업을 거쳐 구축된다. 데이터 웨어하우스나 데이터 레이크에서 필요한 데이터를 추출한 후, 해당 데이터를 정제하고 모델링하여 데이터 마트를 형성한다. BI 도구를 통해 데이터 마트에서 분석 및 시각화가 이루어지며, 이를 통해 사용자는 의사결정을 내릴 수 있다.
데이터 마트의 특징
- 주제 중심 데이터: 데이터 마트는 특정 주제나 부서에 관련된 데이터를 중심으로 구축된다. 예를 들어, 영업, 마케팅, 재무 등 특정 기능이나 비즈니스 영역의 데이터를 포함할 수 있다.
- 사용자 요구에 맞는 데이터 모델링: 데이터 마트는 사용자의 요구에 따라 설계되며, 보다 빠르고 쉽게 데이터에 접근할 수 있도록 설계된다. 데이터 모델링은 주제별로 최적화되어 있어서 사용자들이 필요로 하는 정보에 쉽게 접근할 수 있다.
- 데이터 집중화: 데이터 마트는 특정 주제나 부서의 데이터를 중심으로 구축되기 때문에 해당 영역에 관련된 데이터를 집중적으로 저장한다. 이는 데이터 접근성과 분석의 용이성을 높여준다.
- 빠른 응답 시간: 데이터 마트는 특정 주제나 부서에 관련된 데이터를 중심으로 구축되어 있기 때문에 해당 영역에 대한 분석 및 질의에 대한 응답 시간이 빠르다.
- 비용 효율성: 데이터 마트는 데이터 웨어하우스보다 작은 규모로 구축되기 때문에 구축 및 유지보수 비용이 상대적으로 낮다.
💡데이터 레이크 (Data Lake)
데이터 레이크는 데이터 레이크는 데이터웨어하우스를 기반으로 한 파이프라인보다 훨씬 더 큰 개념이다. 데이터 레이크는 구조화되지 않은 원시 데이터(Raw Data)를 그대로 저장하는 저장소로, 다양한 형태와 형식의 데이터를 대규모로 저장하고 분석하는 데 사용된다.
데이터 레이크는 데이터웨어하우스보다 용량이 크고 비용이 저렴하여, 기업은 처음부터 현재까지 발생한 모든 데이터를 보관할 수 있다. 따라서 전통적인 데이터 웨어하우스와는 달리 데이터의 가공 처리를 최소화하고, 데이터의 원본 형태를 보존한다.
데이터 레이크의 관리
주요한 데이터 레이크 서비스인 AWS의 S3와 같은 경우, 데이터를 관리하기 위해 적어도 '키'를 기준으로 파티셔닝 하여 데이터를 구성한다. 이 과정에서 데이터가 중복될 수 있지만, 파티셔닝을 통해 효율적인 데이터 관리가 가능하다.
데이터 레이크 중에서도 의미 있는 데이터는 최근 데이터만 변환하여 데이터웨어하우스에 로드된다. 데이터 레이크에는 많은 양의 데이터가 저장되어 있기 때문에 일반적인 데이터 처리 도구인 Pandas로는 처리하기 어려울 수 있다. 따라서 분산 컴퓨팅 환경인 Spark, Redshift Spectrum, Athena 등을 활용하여 데이터 변환을 수행한다. 이렇게 처리된 데이터는 데이터웨어하우스나 데이터 마트에 저장된다.
데이터 레이크의 특징
- 원시 데이터의 보존: 데이터 레이크는 데이터를 그대로 저장하여 데이터의 원본 형태를 보존한다. 이는 데이터를 가공 처리하는 과정을 최소화하고, 데이터의 신속한 수집 및 보관을 가능하게 한다.
- 다양한 데이터 형식 지원: 구조화된 데이터 뿐만 아니라 비구조화된 데이터나 반정형 데이터와 같은 다양한 형태의 데이터를 수용할 수 있다. 이는 텍스트, 이미지, 비디오, 로그 파일 등 다양한 소스로부터의 데이터를 통합하여 저장할 수 있음을 의미한다.
- 대규모 데이터 처리: 데이터 레이크는 대량의 데이터를 효율적으로 처리할 수 있는 확장성을 제공한다. 이는 클라우드 기술과 결합하여 필요에 따라 스토리지 및 컴퓨팅 리소스를 확장할 수 있음을 의미한다.
- 유연성과 다양성: 데이터 레이크는 데이터의 유연성과 다양성을 유지한다. 이는 다양한 형식의 데이터를 저장하고 필요에 따라 유연하게 접근하고 분석할 수 있음을 의미한다. 데이터의 가공 처리를 최소화하므로, 데이터의 다양성을 유지하면서도 데이터 분석에 대한 제한이 줄어든다.
- 데이터 분석 및 인사이트 도출: 데이터 레이크는 데이터 과학 및 분석 작업에 필요한 기반을 제공한다. 다양한 도구와 기술을 사용하여 데이터를 탐색하고 분석함으로써 유용한 인사이트를 발견하고 비즈니스 결정에 활용할 수 있다.
2024.01.05 - [Programming/R] - [R] 데이터마이닝의 이해: BA와 BI, 기계학습, 지도학습과 비지도학습
[R] 데이터마이닝의 이해: BA와 BI, 기계학습, 지도학습과 비지도학습
💡비즈니스 애널리틱스 (Business Analytics, BA) 비즈니스 애널리틱스는 데이터를 분석하는 도구와 기법을 의미하며, 데이터를 분석하여 정량적인 정보를 도출한다. 온라인 분석처리(OLAP), 통계기법,
isaac-christian.tistory.com
비즈니스 인텔리전스에 대해서는 위 글을 참고한다.
참고 자료
데이터 마트란 무엇인가요?, aws, 2024.03.23.
데이터 마트란 무엇인가?, oracle, 2024.03.23.
데이터 마트란? 데이터 레이크, 데이터 웨어하우스와의 차이점 Data Mart, Data Lake, Data WareHouse, hwwwa, 2022.08.11.
Beyond “Modern” Data Architecture, Jeremiah Hansen, 2020.04.09.
Data Marts for Data Engineers- Types and Implementation, Chetan Dekate, 2022.08.03.
데이터웨어하우스(Data Warehouse)란?, 카프리썬, 2021.03.16.
ETL ELT 차이 (Feat. 데이터 엔지니어링의 변화), 개발자 김모씨, 2020.11.18.
How does a data warehouse, database, data mart and data lake work together?, 2023.02.06.
Data Warehouse Vs Data Mart Vs Data Lake Vs Delta Lake Vs Data Pipeline Vs Data Mesh, Mrinal Upadhyay, 2023.09.03.
