BDAI FinDA 금융 데이터 분석 심화 과정

Imbalanced Data

cheshire5 2026. 1. 30. 19:13

1. 불균형 데이터란?

1-1. 개념

불균형 데이터(Imbalanced Data)란 분류 문제에서 클래스 간 데이터 수가 현저하게 차이나는 경우를 의미한다.
일반적으로 정상 클래스가 대부분을 차지하고, 이상·희귀 클래스의 비중이 매우 낮은 구조를 가진다.

주요 발생 분야:

  • 금융 사기 탐지
  • 이상 거래 탐지
  • 의료 질병 진단
  • 결함·고장 탐지

1-2. 문제점

  • 정확도 왜곡
    다수 클래스 위주의 예측으로 높은 정확도가 산출되나, 소수 클래스 예측 성능은 매우 낮을 수 있음
  • 소수 클래스 학습 부족
    학습 데이터 내 노출 빈도가 낮아 패턴 학습이 어려움
  • 모델 편향 발생
    결정 경계가 다수 클래스 중심으로 형성되어 소수 클래스 오탐지 증가
  • 실무적 위험
    실제 중요한 이벤트(사기, 질병, 이상 상황)를 탐지하지 못할 가능성 증가

2. 데이터를 조정해서 불균형 데이터를 해결하는 샘플링 기법들

샘플링 기법은 데이터 분포를 조정하여 모델이 소수 클래스 패턴을 학습할 수 있도록 돕는 방법이다.


2-1. 언더 샘플링 (Under Sampling)

다수 클래스 데이터를 제거하여 클래스 간 비율을 조정하는 방식

2-1-1. Random Sampling

  • 다수 클래스 샘플을 무작위로 제거
  • 구현이 간단하고 계산 비용이 낮음

한계:

  • 중요한 정보가 제거될 가능성 존재
  • 데이터 손실 위험 큼

2-1-2. Tomek Links

  • 서로 다른 클래스에 속한 두 샘플이 서로의 최근접 이웃일 경우 Tomek Link로 정의
  • 일반적으로 다수 클래스 쪽 샘플을 제거

효과:

  • 결정 경계 주변 노이즈 제거
  • 클래스 간 분리도 향상

2-1-3. CNN Rule (Condensed Nearest Neighbor)

  • 최근접 이웃 분류 성능을 유지하는 최소 샘플 집합만 유지
  • 중복되거나 불필요한 샘플 제거

특징:

  • 데이터 압축 효과
  • 학습 속도 및 메모리 효율 개선

2-1-4. One Sided Selection (OSS)

  • CNN Rule과 Tomek Links를 결합한 방법
  • 다수 클래스 중 소수 클래스 분류에 기여하지 않는 샘플 제거

특징:

  • 정보 손실 최소화
  • 결정 경계 정제와 데이터 압축을 동시에 수행

2-1-5. 언더 샘플링의 장단점

장점:

  • 학습 속도 향상
  • 계산 비용 감소
  • 다수 클래스 과적합 완화

단점:

  • 정보 손실 가능성
  • 데이터 규모가 작은 경우 성능 불안정

2-2. 오버 샘플링 (Over Sampling)

소수 클래스 데이터를 증가시켜 클래스 간 비율을 조정하는 방식

2-2-1. Resampling

  • 소수 클래스 샘플을 단순 복제
  • 구현이 매우 간단

한계:

  • 동일 샘플 반복으로 인한 과적합 위험

2-2-2. SMOTE

  • 소수 클래스 샘플과 이웃 샘플 간 선형 보간을 통해 새로운 샘플 생성
  • 데이터 다양성 확보

2-2-3. Borderline SMOTE

  • 결정 경계 근처에 위치한 소수 클래스 샘플을 중심으로 증강
  • 분류가 어려운 영역의 학습 강화

2-2-4. ADASYN

  • 학습이 어려운 소수 클래스 샘플에 더 많은 가중치를 두어 샘플 생성
  • 지역별 데이터 밀도에 따라 증강 비율이 달라짐

2-2-5. GAN

  • 생성 모델을 활용하여 실제와 유사한 소수 클래스 데이터 생성
  • 복잡한 데이터 분포 학습 가능

한계:

  • 학습 안정성 문제
  • 높은 구현 난이도

2-2-6. 오버 샘플링의 장단점

장점:

  • 정보 손실 없음
  • 소수 클래스 패턴 학습 강화

단점:

  • 과적합 가능성
  • 학습 시간 증가
  • 데이터 품질에 따른 성능 편차 발생