1. 불균형 데이터란?
1-1. 개념
불균형 데이터(Imbalanced Data)란 분류 문제에서 클래스 간 데이터 수가 현저하게 차이나는 경우를 의미한다.
일반적으로 정상 클래스가 대부분을 차지하고, 이상·희귀 클래스의 비중이 매우 낮은 구조를 가진다.
주요 발생 분야:
- 금융 사기 탐지
- 이상 거래 탐지
- 의료 질병 진단
- 결함·고장 탐지
1-2. 문제점
- 정확도 왜곡
다수 클래스 위주의 예측으로 높은 정확도가 산출되나, 소수 클래스 예측 성능은 매우 낮을 수 있음 - 소수 클래스 학습 부족
학습 데이터 내 노출 빈도가 낮아 패턴 학습이 어려움 - 모델 편향 발생
결정 경계가 다수 클래스 중심으로 형성되어 소수 클래스 오탐지 증가 - 실무적 위험
실제 중요한 이벤트(사기, 질병, 이상 상황)를 탐지하지 못할 가능성 증가
2. 데이터를 조정해서 불균형 데이터를 해결하는 샘플링 기법들
샘플링 기법은 데이터 분포를 조정하여 모델이 소수 클래스 패턴을 학습할 수 있도록 돕는 방법이다.
2-1. 언더 샘플링 (Under Sampling)
다수 클래스 데이터를 제거하여 클래스 간 비율을 조정하는 방식
2-1-1. Random Sampling
- 다수 클래스 샘플을 무작위로 제거
- 구현이 간단하고 계산 비용이 낮음
한계:
- 중요한 정보가 제거될 가능성 존재
- 데이터 손실 위험 큼
2-1-2. Tomek Links
- 서로 다른 클래스에 속한 두 샘플이 서로의 최근접 이웃일 경우 Tomek Link로 정의
- 일반적으로 다수 클래스 쪽 샘플을 제거
효과:
- 결정 경계 주변 노이즈 제거
- 클래스 간 분리도 향상
2-1-3. CNN Rule (Condensed Nearest Neighbor)
- 최근접 이웃 분류 성능을 유지하는 최소 샘플 집합만 유지
- 중복되거나 불필요한 샘플 제거
특징:
- 데이터 압축 효과
- 학습 속도 및 메모리 효율 개선
2-1-4. One Sided Selection (OSS)
- CNN Rule과 Tomek Links를 결합한 방법
- 다수 클래스 중 소수 클래스 분류에 기여하지 않는 샘플 제거
특징:
- 정보 손실 최소화
- 결정 경계 정제와 데이터 압축을 동시에 수행
2-1-5. 언더 샘플링의 장단점
장점:
- 학습 속도 향상
- 계산 비용 감소
- 다수 클래스 과적합 완화
단점:
- 정보 손실 가능성
- 데이터 규모가 작은 경우 성능 불안정
2-2. 오버 샘플링 (Over Sampling)
소수 클래스 데이터를 증가시켜 클래스 간 비율을 조정하는 방식
2-2-1. Resampling
- 소수 클래스 샘플을 단순 복제
- 구현이 매우 간단
한계:
- 동일 샘플 반복으로 인한 과적합 위험
2-2-2. SMOTE
- 소수 클래스 샘플과 이웃 샘플 간 선형 보간을 통해 새로운 샘플 생성
- 데이터 다양성 확보
2-2-3. Borderline SMOTE
- 결정 경계 근처에 위치한 소수 클래스 샘플을 중심으로 증강
- 분류가 어려운 영역의 학습 강화
2-2-4. ADASYN
- 학습이 어려운 소수 클래스 샘플에 더 많은 가중치를 두어 샘플 생성
- 지역별 데이터 밀도에 따라 증강 비율이 달라짐
2-2-5. GAN
- 생성 모델을 활용하여 실제와 유사한 소수 클래스 데이터 생성
- 복잡한 데이터 분포 학습 가능
한계:
- 학습 안정성 문제
- 높은 구현 난이도
2-2-6. 오버 샘플링의 장단점
장점:
- 정보 손실 없음
- 소수 클래스 패턴 학습 강화
단점:
- 과적합 가능성
- 학습 시간 증가
- 데이터 품질에 따른 성능 편차 발생
'BDAI FinDA 금융 데이터 분석 심화 과정' 카테고리의 다른 글
| Feature Selection의 3대 분류와 주요 기법 정리 (0) | 2026.02.26 |
|---|---|
| FDS 프로젝트 회고 — 시스템을 설계한다는 것의 의미 (0) | 2026.02.26 |
| 부동산이 아니라, 현금흐름 (1) | 2026.01.24 |
| 금융 데이터에는 정답이 없다 (0) | 2026.01.24 |
| 통계와 머신러닝을 구분해서 이해해야 하는 이유 (0) | 2026.01.23 |