BDAI FinDA 금융 데이터 분석 심화 과정

Imbalanced Data

cheshire5 2026. 1. 30. 19:13

1. 불균형 데이터란?

1-1. 개념

불균형 데이터(Imbalanced Data)란 분류 문제에서 클래스 간 데이터 수가 현저하게 차이나는 경우를 의미한다.
일반적으로 정상 클래스가 대부분을 차지하고, 이상·희귀 클래스의 비중이 매우 낮은 구조를 가진다.

주요 발생 분야:

금융 사기 탐지
이상 거래 탐지
의료 질병 진단
결함·고장 탐지

1-2. 문제점

정확도 왜곡
다수 클래스 위주의 예측으로 높은 정확도가 산출되나, 소수 클래스 예측 성능은 매우 낮을 수 있음
소수 클래스 학습 부족
학습 데이터 내 노출 빈도가 낮아 패턴 학습이 어려움
모델 편향 발생
결정 경계가 다수 클래스 중심으로 형성되어 소수 클래스 오탐지 증가
실무적 위험
실제 중요한 이벤트(사기, 질병, 이상 상황)를 탐지하지 못할 가능성 증가

2. 데이터를 조정해서 불균형 데이터를 해결하는 샘플링 기법들

샘플링 기법은 데이터 분포를 조정하여 모델이 소수 클래스 패턴을 학습할 수 있도록 돕는 방법이다.

2-1. 언더 샘플링 (Under Sampling)

다수 클래스 데이터를 제거하여 클래스 간 비율을 조정하는 방식

2-1-1. Random Sampling

다수 클래스 샘플을 무작위로 제거
구현이 간단하고 계산 비용이 낮음

한계:

중요한 정보가 제거될 가능성 존재
데이터 손실 위험 큼

2-1-2. Tomek Links

서로 다른 클래스에 속한 두 샘플이 서로의 최근접 이웃일 경우 Tomek Link로 정의
일반적으로 다수 클래스 쪽 샘플을 제거

효과:

결정 경계 주변 노이즈 제거
클래스 간 분리도 향상

2-1-3. CNN Rule (Condensed Nearest Neighbor)

최근접 이웃 분류 성능을 유지하는 최소 샘플 집합만 유지
중복되거나 불필요한 샘플 제거

특징:

데이터 압축 효과
학습 속도 및 메모리 효율 개선

2-1-4. One Sided Selection (OSS)

CNN Rule과 Tomek Links를 결합한 방법
다수 클래스 중 소수 클래스 분류에 기여하지 않는 샘플 제거

특징:

정보 손실 최소화
결정 경계 정제와 데이터 압축을 동시에 수행

2-1-5. 언더 샘플링의 장단점

장점:

학습 속도 향상
계산 비용 감소
다수 클래스 과적합 완화

단점:

정보 손실 가능성
데이터 규모가 작은 경우 성능 불안정

2-2. 오버 샘플링 (Over Sampling)

소수 클래스 데이터를 증가시켜 클래스 간 비율을 조정하는 방식

2-2-1. Resampling

소수 클래스 샘플을 단순 복제
구현이 매우 간단

한계:

동일 샘플 반복으로 인한 과적합 위험

2-2-2. SMOTE

소수 클래스 샘플과 이웃 샘플 간 선형 보간을 통해 새로운 샘플 생성
데이터 다양성 확보

2-2-3. Borderline SMOTE

결정 경계 근처에 위치한 소수 클래스 샘플을 중심으로 증강
분류가 어려운 영역의 학습 강화

2-2-4. ADASYN

학습이 어려운 소수 클래스 샘플에 더 많은 가중치를 두어 샘플 생성
지역별 데이터 밀도에 따라 증강 비율이 달라짐

2-2-5. GAN

생성 모델을 활용하여 실제와 유사한 소수 클래스 데이터 생성
복잡한 데이터 분포 학습 가능

한계:

학습 안정성 문제
높은 구현 난이도

2-2-6. 오버 샘플링의 장단점

장점:

정보 손실 없음
소수 클래스 패턴 학습 강화

단점:

과적합 가능성
학습 시간 증가
데이터 품질에 따른 성능 편차 발생

'BDAI FinDA 금융 데이터 분석 심화 과정' 카테고리의 다른 글

Feature Selection의 3대 분류와 주요 기법 정리 (0)	2026.02.26
FDS 프로젝트 회고 — 시스템을 설계한다는 것의 의미 (0)	2026.02.26
부동산이 아니라, 현금흐름 (1)	2026.01.24
금융 데이터에는 정답이 없다 (0)	2026.01.24
통계와 머신러닝을 구분해서 이해해야 하는 이유 (0)	2026.01.23

현재글Imbalanced Data

Cheshire

취업준비, 대학생활, 수업후기, 데이터분석학회, 대학생학회, 데이터분석, 대외활동, 취업, BDAI,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Cheshire

Imbalanced Data

1. 불균형 데이터란?

1-1. 개념

1-2. 문제점

2. 데이터를 조정해서 불균형 데이터를 해결하는 샘플링 기법들

2-1. 언더 샘플링 (Under Sampling)

2-1-1. Random Sampling

2-1-2. Tomek Links

2-1-3. CNN Rule (Condensed Nearest Neighbor)

2-1-4. One Sided Selection (OSS)

2-1-5. 언더 샘플링의 장단점

2-2. 오버 샘플링 (Over Sampling)

2-2-1. Resampling

2-2-2. SMOTE

2-2-3. Borderline SMOTE

2-2-4. ADASYN

2-2-5. GAN

2-2-6. 오버 샘플링의 장단점

'BDAI FinDA 금융 데이터 분석 심화 과정' 카테고리의 다른 글

'BDAI FinDA 금융 데이터 분석 심화 과정'의 다른글

티스토리툴바

Imbalanced Data

1. 불균형 데이터란?

1-1. 개념

1-2. 문제점

2. 데이터를 조정해서 불균형 데이터를 해결하는 샘플링 기법들

2-1. 언더 샘플링 (Under Sampling)

2-1-1. Random Sampling

2-1-2. Tomek Links

2-1-3. CNN Rule (Condensed Nearest Neighbor)

2-1-4. One Sided Selection (OSS)

2-1-5. 언더 샘플링의 장단점

2-2. 오버 샘플링 (Over Sampling)

2-2-1. Resampling

2-2-2. SMOTE

2-2-3. Borderline SMOTE

2-2-4. ADASYN

2-2-5. GAN

2-2-6. 오버 샘플링의 장단점

'BDAI FinDA 금융 데이터 분석 심화 과정' 카테고리의 다른 글

'BDAI FinDA 금융 데이터 분석 심화 과정'의 다른글

관련글

티스토리툴바