DataEngineering

AWS 데이터 파이프라인 구조 정리 ② — Transform부터 Analytics까지

cheshire5 2026. 3. 11. 15:20

데이터 파이프라인

Data Source
↓
Ingestion
(Kinesis / MSK / Lambda / EC2)
↓
S3 Raw (Data Lake)
↓
Transform
(Glue / EMR / Lambda)
↓
Analytics
(Athena / Redshift / BI)

이 글에서는 Raw 영역에 저장된 데이터를 분석 가능한 형태로 가공하는 Transform 단계부터
데이터 활용 단계까지의 구조를 정리한다.


3. Transform Layer

Transform Layer는 Raw 데이터 → 분석 가능한 데이터로 변환하는 단계이다.

S3 Raw
↓
Transform Layer
(Glue / EMR / Lambda)
↓
S3 Processed / Curated

이 단계에서 수행되는 주요 작업은 다음과 같다.

  • 데이터 정제 (Cleaning)
  • 데이터 구조 변환 (Schema Transformation)
  • 데이터 통합 (Join / Aggregation)
  • 파티셔닝 및 컬럼형 저장
  • Feature Engineering
  • 데이터 품질 검증

즉,

Transform = 데이터 분석 가능 상태로 만드는 과정


3.1 AWS Glue

AWS Glue는 AWS의 서버리스 ETL 서비스이다.

약어

ETL = Extract, Transform, Load

Glue는 다음 기능을 제공한다.

  • ETL Job 실행
  • Data Catalog 관리
  • 스키마 자동 탐지
  • Spark 기반 분산 처리

Glue 데이터 처리 흐름

S3 Raw
↓
Glue Crawler (Schema 탐지)
↓
Glue Data Catalog 등록
↓
Glue ETL Job 실행
↓
S3 Processed 저장

Glue 주요 구성 요소

1) Glue Crawler

S3에 저장된 데이터를 스캔하여

  • 파일 구조 분석
  • 컬럼 추론
  • 테이블 생성

을 수행한다.

s3://data-lake/raw/logs/
→ logs_table 생성

Crawler = 데이터 구조 자동 인식기


2) Glue Data Catalog

Glue Data Catalog는

데이터 레이크의 메타데이터 저장소

이다.

  • 테이블 이름
  • 컬럼 정보
  • 데이터 위치

Athena / Redshift / EMR 등이 이 Catalog를 참조한다.


3) Glue ETL Job

Glue Job은 Spark 기반으로 실행된다.

주요 작업

  • JSON → Parquet 변환
  • 컬럼 정리
  • Join
  • Aggregation

Raw JSON → Partitioned Parquet

3.2 EMR (Elastic MapReduce)

EMR은 AWS에서 제공하는 빅데이터 처리 클러스터 서비스이다.

EMR에서는 다음 프레임워크를 사용할 수 있다.

  • Apache Spark
  • Hadoop
  • Hive
  • Presto

EMR = 대규모 데이터 처리용 분산 컴퓨팅 환경


EMR 데이터 처리 구조

S3 Raw
↓
EMR Cluster (Spark Job)
↓
S3 Processed

EMR 특징

특징 설명
분산 처리 수백 GB ~ TB 데이터 처리 가능
유연성 직접 Spark 코드 실행 가능
클러스터 기반 노드 수 확장 가능
비용 구조 사용 시간 기반 과금

3.3 Glue vs EMR

항목 Glue EMR
운영 방식 서버리스 클러스터
사용 난이도 낮음 높음
확장 방식 자동 수동
사용 사례 일반 ETL 대규모 데이터 처리
Spark 설정 제한적 완전 제어 가능

Glue = 관리 편한 ETL
EMR = 강력하지만 운영 필요


3.4 Lambda Transform

Lambda는 경량 데이터 변환 작업에도 사용된다.

  • 파일 포맷 변환
  • 작은 데이터 집계
  • 이벤트 기반 변환

예 구조

S3 Put Event
↓
Lambda 실행
↓
데이터 가공
↓
S3 Processed 저장

4. Data Lake 내부 구조

Transform 이후 데이터 레이크는 보통 다음 구조를 가진다.

data-lake/
 ├ raw/
 ├ processed/
 ├ curated/

영역 의미

Raw

  • 원본 데이터
  • 수정 없음

Processed

  • 정제된 데이터
  • Parquet 저장
  • Partition 구성

Curated

  • 비즈니스 분석용 데이터
  • 집계 데이터
  • Feature Dataset

Raw → 기술적 정제 → 비즈니스 활용 데이터


5. Analytics Layer

Transform이 끝나면 데이터는 분석 시스템에서 사용된다.

대표 서비스

  • Athena
  • Redshift
  • BI Tool

5.1 Amazon Athena

Athena는

S3 데이터를 SQL로 조회하는 서버리스 쿼리 서비스

이다.

구조

Athena Query
↓
Glue Data Catalog 참조
↓
S3 데이터 읽기
↓
결과 반환

특징

특징 설명
서버 없음 클러스터 관리 불필요
비용 구조 스캔 데이터량 기반
빠른 분석 Ad-hoc Query 가능
데이터 위치 S3 직접 조회

Athena = 데이터 레이크 SQL 분석 엔진


5.2 Amazon Redshift

Redshift는 AWS의 데이터 웨어하우스 서비스이다.

구조

S3 Curated Data
↓
Redshift COPY
↓
Columnar Storage
↓
BI 분석

특징

특징 설명
Columnar DB 분석 최적화
MPP 구조 병렬 처리
고성능 Join 대규모 분석 가능
BI 연동 Tableau / QuickSight

Redshift = 분석용 데이터베이스


5.3 Athena vs Redshift

항목 Athena Redshift
데이터 위치 S3 내부 저장
비용 구조 쿼리당 과금 클러스터 과금
속도 중간 매우 빠름
사용 목적 탐색 분석 정형 분석 / 대시보드

6. BI Layer

마지막 단계는 데이터 시각화 및 비즈니스 활용 단계이다.

대표 도구

  • Amazon QuickSight
  • Tableau
  • Power BI

구조

Redshift / Athena
↓
BI Tool
↓
Dashboard / KPI

전체 데이터 파이프라인 흐름 정리

External Data
↓
Ingestion
(Kinesis / MSK / Lambda / EC2)
↓
S3 Raw
↓
Transform
(Glue / EMR)
↓
S3 Processed / Curated
↓
Analytics
(Athena / Redshift)
↓
BI Dashboard

핵심 개념 요약

  • Ingestion = 데이터 수집
  • Raw = 원본 저장
  • Transform = 데이터 가공
  • Curated = 분석용 데이터
  • Athena = 데이터 레이크 분석
  • Redshift = 데이터 웨어하우스
  • BI = 의사결정 도구