데이터 파이프라인
Data Source
↓
Ingestion
(Kinesis / MSK / Lambda / EC2)
↓
S3 Raw (Data Lake)
↓
Transform
(Glue / EMR / Lambda)
↓
Analytics
(Athena / Redshift / BI)이 글에서는 Raw 영역에 저장된 데이터를 분석 가능한 형태로 가공하는 Transform 단계부터
데이터 활용 단계까지의 구조를 정리한다.
3. Transform Layer
Transform Layer는 Raw 데이터 → 분석 가능한 데이터로 변환하는 단계이다.
S3 Raw
↓
Transform Layer
(Glue / EMR / Lambda)
↓
S3 Processed / Curated이 단계에서 수행되는 주요 작업은 다음과 같다.
- 데이터 정제 (Cleaning)
- 데이터 구조 변환 (Schema Transformation)
- 데이터 통합 (Join / Aggregation)
- 파티셔닝 및 컬럼형 저장
- Feature Engineering
- 데이터 품질 검증
즉,
Transform = 데이터 분석 가능 상태로 만드는 과정
3.1 AWS Glue
AWS Glue는 AWS의 서버리스 ETL 서비스이다.
약어
ETL = Extract, Transform, Load
Glue는 다음 기능을 제공한다.
- ETL Job 실행
- Data Catalog 관리
- 스키마 자동 탐지
- Spark 기반 분산 처리
Glue 데이터 처리 흐름
S3 Raw
↓
Glue Crawler (Schema 탐지)
↓
Glue Data Catalog 등록
↓
Glue ETL Job 실행
↓
S3 Processed 저장Glue 주요 구성 요소
1) Glue Crawler
S3에 저장된 데이터를 스캔하여
- 파일 구조 분석
- 컬럼 추론
- 테이블 생성
을 수행한다.
예
s3://data-lake/raw/logs/
→ logs_table 생성즉
Crawler = 데이터 구조 자동 인식기
2) Glue Data Catalog
Glue Data Catalog는
데이터 레이크의 메타데이터 저장소
이다.
예
- 테이블 이름
- 컬럼 정보
- 데이터 위치
Athena / Redshift / EMR 등이 이 Catalog를 참조한다.
3) Glue ETL Job
Glue Job은 Spark 기반으로 실행된다.
주요 작업
- JSON → Parquet 변환
- 컬럼 정리
- Join
- Aggregation
예
Raw JSON → Partitioned Parquet3.2 EMR (Elastic MapReduce)
EMR은 AWS에서 제공하는 빅데이터 처리 클러스터 서비스이다.
EMR에서는 다음 프레임워크를 사용할 수 있다.
- Apache Spark
- Hadoop
- Hive
- Presto
즉
EMR = 대규모 데이터 처리용 분산 컴퓨팅 환경
EMR 데이터 처리 구조
S3 Raw
↓
EMR Cluster (Spark Job)
↓
S3 ProcessedEMR 특징
| 특징 | 설명 |
|---|---|
| 분산 처리 | 수백 GB ~ TB 데이터 처리 가능 |
| 유연성 | 직접 Spark 코드 실행 가능 |
| 클러스터 기반 | 노드 수 확장 가능 |
| 비용 구조 | 사용 시간 기반 과금 |
3.3 Glue vs EMR
| 항목 | Glue | EMR |
|---|---|---|
| 운영 방식 | 서버리스 | 클러스터 |
| 사용 난이도 | 낮음 | 높음 |
| 확장 방식 | 자동 | 수동 |
| 사용 사례 | 일반 ETL | 대규모 데이터 처리 |
| Spark 설정 | 제한적 | 완전 제어 가능 |
즉
Glue = 관리 편한 ETL
EMR = 강력하지만 운영 필요
3.4 Lambda Transform
Lambda는 경량 데이터 변환 작업에도 사용된다.
예
- 파일 포맷 변환
- 작은 데이터 집계
- 이벤트 기반 변환
예 구조
S3 Put Event
↓
Lambda 실행
↓
데이터 가공
↓
S3 Processed 저장4. Data Lake 내부 구조
Transform 이후 데이터 레이크는 보통 다음 구조를 가진다.
data-lake/
├ raw/
├ processed/
├ curated/영역 의미
Raw
- 원본 데이터
- 수정 없음
Processed
- 정제된 데이터
- Parquet 저장
- Partition 구성
Curated
- 비즈니스 분석용 데이터
- 집계 데이터
- Feature Dataset
즉
Raw → 기술적 정제 → 비즈니스 활용 데이터
5. Analytics Layer
Transform이 끝나면 데이터는 분석 시스템에서 사용된다.
대표 서비스
- Athena
- Redshift
- BI Tool
5.1 Amazon Athena
Athena는
S3 데이터를 SQL로 조회하는 서버리스 쿼리 서비스
이다.
구조
Athena Query
↓
Glue Data Catalog 참조
↓
S3 데이터 읽기
↓
결과 반환특징
| 특징 | 설명 |
|---|---|
| 서버 없음 | 클러스터 관리 불필요 |
| 비용 구조 | 스캔 데이터량 기반 |
| 빠른 분석 | Ad-hoc Query 가능 |
| 데이터 위치 | S3 직접 조회 |
즉
Athena = 데이터 레이크 SQL 분석 엔진
5.2 Amazon Redshift
Redshift는 AWS의 데이터 웨어하우스 서비스이다.
구조
S3 Curated Data
↓
Redshift COPY
↓
Columnar Storage
↓
BI 분석특징
| 특징 | 설명 |
|---|---|
| Columnar DB | 분석 최적화 |
| MPP 구조 | 병렬 처리 |
| 고성능 Join | 대규모 분석 가능 |
| BI 연동 | Tableau / QuickSight |
즉
Redshift = 분석용 데이터베이스
5.3 Athena vs Redshift
| 항목 | Athena | Redshift |
|---|---|---|
| 데이터 위치 | S3 | 내부 저장 |
| 비용 구조 | 쿼리당 과금 | 클러스터 과금 |
| 속도 | 중간 | 매우 빠름 |
| 사용 목적 | 탐색 분석 | 정형 분석 / 대시보드 |
6. BI Layer
마지막 단계는 데이터 시각화 및 비즈니스 활용 단계이다.
대표 도구
- Amazon QuickSight
- Tableau
- Power BI
구조
Redshift / Athena
↓
BI Tool
↓
Dashboard / KPI전체 데이터 파이프라인 흐름 정리
External Data
↓
Ingestion
(Kinesis / MSK / Lambda / EC2)
↓
S3 Raw
↓
Transform
(Glue / EMR)
↓
S3 Processed / Curated
↓
Analytics
(Athena / Redshift)
↓
BI Dashboard핵심 개념 요약
- Ingestion = 데이터 수집
- Raw = 원본 저장
- Transform = 데이터 가공
- Curated = 분석용 데이터
- Athena = 데이터 레이크 분석
- Redshift = 데이터 웨어하우스
- BI = 의사결정 도구
'DataEngineering' 카테고리의 다른 글
| AWS 데이터 파이프라인 구조 정리 ① — 데이터 수집(Ingestion)과 S3 Raw 적재 (0) | 2026.03.09 |
|---|