DataEngineering

AWS 데이터 파이프라인 구조 정리 ② — Transform부터 Analytics까지

cheshire5 2026. 3. 11. 15:20

데이터 파이프라인

Data Source
↓
Ingestion
(Kinesis / MSK / Lambda / EC2)
↓
S3 Raw (Data Lake)
↓
Transform
(Glue / EMR / Lambda)
↓
Analytics
(Athena / Redshift / BI)

이 글에서는 Raw 영역에 저장된 데이터를 분석 가능한 형태로 가공하는 Transform 단계부터
데이터 활용 단계까지의 구조를 정리한다.

3. Transform Layer

Transform Layer는 Raw 데이터 → 분석 가능한 데이터로 변환하는 단계이다.

S3 Raw
↓
Transform Layer
(Glue / EMR / Lambda)
↓
S3 Processed / Curated

이 단계에서 수행되는 주요 작업은 다음과 같다.

데이터 정제 (Cleaning)
데이터 구조 변환 (Schema Transformation)
데이터 통합 (Join / Aggregation)
파티셔닝 및 컬럼형 저장
Feature Engineering
데이터 품질 검증

즉,

Transform = 데이터 분석 가능 상태로 만드는 과정

3.1 AWS Glue

AWS Glue는 AWS의 서버리스 ETL 서비스이다.

약어

ETL = Extract, Transform, Load

Glue는 다음 기능을 제공한다.

ETL Job 실행
Data Catalog 관리
스키마 자동 탐지
Spark 기반 분산 처리

Glue 데이터 처리 흐름

S3 Raw
↓
Glue Crawler (Schema 탐지)
↓
Glue Data Catalog 등록
↓
Glue ETL Job 실행
↓
S3 Processed 저장

Glue 주요 구성 요소

1) Glue Crawler

S3에 저장된 데이터를 스캔하여

파일 구조 분석
컬럼 추론
테이블 생성

을 수행한다.

예

s3://data-lake/raw/logs/
→ logs_table 생성

즉

Crawler = 데이터 구조 자동 인식기

2) Glue Data Catalog

Glue Data Catalog는

데이터 레이크의 메타데이터 저장소

이다.

예

테이블 이름
컬럼 정보
데이터 위치

Athena / Redshift / EMR 등이 이 Catalog를 참조한다.

3) Glue ETL Job

Glue Job은 Spark 기반으로 실행된다.

주요 작업

JSON → Parquet 변환
컬럼 정리
Join
Aggregation

예

Raw JSON → Partitioned Parquet

3.2 EMR (Elastic MapReduce)

EMR은 AWS에서 제공하는 빅데이터 처리 클러스터 서비스이다.

EMR에서는 다음 프레임워크를 사용할 수 있다.

Apache Spark
Hadoop
Hive
Presto

즉

EMR = 대규모 데이터 처리용 분산 컴퓨팅 환경

EMR 데이터 처리 구조

S3 Raw
↓
EMR Cluster (Spark Job)
↓
S3 Processed

EMR 특징

특징	설명
분산 처리	수백 GB ~ TB 데이터 처리 가능
유연성	직접 Spark 코드 실행 가능
클러스터 기반	노드 수 확장 가능
비용 구조	사용 시간 기반 과금

3.3 Glue vs EMR

항목	Glue	EMR
운영 방식	서버리스	클러스터
사용 난이도	낮음	높음
확장 방식	자동	수동
사용 사례	일반 ETL	대규모 데이터 처리
Spark 설정	제한적	완전 제어 가능

즉

Glue = 관리 편한 ETL
EMR = 강력하지만 운영 필요

3.4 Lambda Transform

Lambda는 경량 데이터 변환 작업에도 사용된다.

예

파일 포맷 변환
작은 데이터 집계
이벤트 기반 변환

예 구조

S3 Put Event
↓
Lambda 실행
↓
데이터 가공
↓
S3 Processed 저장

4. Data Lake 내부 구조

Transform 이후 데이터 레이크는 보통 다음 구조를 가진다.

data-lake/
 ├ raw/
 ├ processed/
 ├ curated/

영역 의미

Raw

원본 데이터
수정 없음

Processed

정제된 데이터
Parquet 저장
Partition 구성

Curated

비즈니스 분석용 데이터
집계 데이터
Feature Dataset

즉

Raw → 기술적 정제 → 비즈니스 활용 데이터

5. Analytics Layer

Transform이 끝나면 데이터는 분석 시스템에서 사용된다.

대표 서비스

Athena
Redshift
BI Tool

5.1 Amazon Athena

Athena는

S3 데이터를 SQL로 조회하는 서버리스 쿼리 서비스

이다.

구조

Athena Query
↓
Glue Data Catalog 참조
↓
S3 데이터 읽기
↓
결과 반환

특징

특징	설명
서버 없음	클러스터 관리 불필요
비용 구조	스캔 데이터량 기반
빠른 분석	Ad-hoc Query 가능
데이터 위치	S3 직접 조회

즉

Athena = 데이터 레이크 SQL 분석 엔진

5.2 Amazon Redshift

Redshift는 AWS의 데이터 웨어하우스 서비스이다.

구조

S3 Curated Data
↓
Redshift COPY
↓
Columnar Storage
↓
BI 분석

특징

특징	설명
Columnar DB	분석 최적화
MPP 구조	병렬 처리
고성능 Join	대규모 분석 가능
BI 연동	Tableau / QuickSight

즉

Redshift = 분석용 데이터베이스

5.3 Athena vs Redshift

항목	Athena	Redshift
데이터 위치	S3	내부 저장
비용 구조	쿼리당 과금	클러스터 과금
속도	중간	매우 빠름
사용 목적	탐색 분석	정형 분석 / 대시보드

6. BI Layer

마지막 단계는 데이터 시각화 및 비즈니스 활용 단계이다.

대표 도구

Amazon QuickSight
Tableau
Power BI

구조

Redshift / Athena
↓
BI Tool
↓
Dashboard / KPI

전체 데이터 파이프라인 흐름 정리

External Data
↓
Ingestion
(Kinesis / MSK / Lambda / EC2)
↓
S3 Raw
↓
Transform
(Glue / EMR)
↓
S3 Processed / Curated
↓
Analytics
(Athena / Redshift)
↓
BI Dashboard

핵심 개념 요약

Ingestion = 데이터 수집
Raw = 원본 저장
Transform = 데이터 가공
Curated = 분석용 데이터
Athena = 데이터 레이크 분석
Redshift = 데이터 웨어하우스
BI = 의사결정 도구

'DataEngineering' 카테고리의 다른 글

AWS 데이터 파이프라인 구조 정리 ① — 데이터 수집(Ingestion)과 S3 Raw 적재 (0)	2026.03.09

현재글AWS 데이터 파이프라인 구조 정리 ② — Transform부터 Analytics까지

Cheshire

BDAI, 대학생활, 대외활동, 대학생학회, 데이터분석학회, 취업준비, 수업후기, 취업, 데이터분석,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Cheshire

AWS 데이터 파이프라인 구조 정리 ② — Transform부터 Analytics까지

3. Transform Layer

3.1 AWS Glue

Glue 데이터 처리 흐름

Glue 주요 구성 요소

1) Glue Crawler

2) Glue Data Catalog

3) Glue ETL Job

3.2 EMR (Elastic MapReduce)

EMR 데이터 처리 구조

EMR 특징

3.3 Glue vs EMR

3.4 Lambda Transform

4. Data Lake 내부 구조

영역 의미

Raw

Processed

Curated

5. Analytics Layer

5.1 Amazon Athena

5.2 Amazon Redshift

5.3 Athena vs Redshift

6. BI Layer

전체 데이터 파이프라인 흐름 정리

핵심 개념 요약

'DataEngineering' 카테고리의 다른 글

'DataEngineering'의 다른글

티스토리툴바

AWS 데이터 파이프라인 구조 정리 ② — Transform부터 Analytics까지

3. Transform Layer

3.1 AWS Glue

Glue 데이터 처리 흐름

Glue 주요 구성 요소

1) Glue Crawler

2) Glue Data Catalog

3) Glue ETL Job

3.2 EMR (Elastic MapReduce)

EMR 데이터 처리 구조

EMR 특징

3.3 Glue vs EMR

3.4 Lambda Transform

4. Data Lake 내부 구조

영역 의미

Raw

Processed

Curated

5. Analytics Layer

5.1 Amazon Athena

5.2 Amazon Redshift

5.3 Athena vs Redshift

6. BI Layer

전체 데이터 파이프라인 흐름 정리

핵심 개념 요약

'DataEngineering' 카테고리의 다른 글

'DataEngineering'의 다른글

관련글

티스토리툴바