DataEngineering 2

AWS 데이터 파이프라인 구조 정리 ② — Transform부터 Analytics까지

데이터 파이프라인Data Source↓Ingestion(Kinesis / MSK / Lambda / EC2)↓S3 Raw (Data Lake)↓Transform(Glue / EMR / Lambda)↓Analytics(Athena / Redshift / BI)이 글에서는 Raw 영역에 저장된 데이터를 분석 가능한 형태로 가공하는 Transform 단계부터데이터 활용 단계까지의 구조를 정리한다.3. Transform LayerTransform Layer는 Raw 데이터 → 분석 가능한 데이터로 변환하는 단계이다.S3 Raw↓Transform Layer(Glue / EMR / Lambda)↓S3 Processed / Curated이 단계에서 수행되는 주요 작업은 다음과 같다.데이터 정제 (Cleaning)데이..

DataEngineering 2026.03.11

AWS 데이터 파이프라인 구조 정리 ① — 데이터 수집(Ingestion)과 S3 Raw 적재

데이터 엔지니어링에서 데이터 파이프라인은 일반적으로 다음과 같은 흐름을 가진다.Data Source↓Ingestion(Kinesis / MSK / Lambda / EC2)↓S3 Raw (Data Lake)↓Transform(Glue / EMR / Lambda)↓Analytics(Athena / Redshift / BI)이 글에서는 데이터가 AWS로 들어오는 Ingestion 단계부터 S3 Raw에 저장되기까지의 구조를 정리한다.1. IAM (Identity and Access Management)IAM은 AWS 리소스에 대한 접근 권한을 관리하는 서비스이다.데이터 파이프라인에서는 여러 서비스가 서로 데이터를 주고받는다.예를 들어 다음과 같은 동작이 발생한다.Lambda → S3 업로드EC2 → S3 업로..

DataEngineering 2026.03.09