BDAI FinDA 금융 데이터 분석 심화 과정

통계와 머신러닝을 구분해서 이해해야 하는 이유

cheshire5 2026. 1. 23. 23:32

 

1️⃣ 통계 모델은 “예측”이 아니라 “해석의 근거”다

💬 면접 질문
연체에 영향을 미치는 변수를 어떻게 판단하며, 그 결과를 왜 신뢰할 수 있습니까?

Best Answer
통계 모델에서는 변수의 계수와 통계적 유의성을 통해 연체 확률에 영향을 미치는 요인을 판단한다.
계수의 부호는 연체 확률을 증가·감소시키는 방향을 의미하며, 이는 금융·경제적 직관과 일치해야 한다.

또한 p-value를 통해 해당 효과가 표본의 우연이 아니라 실제로 존재함을 검증할 수 있다.
이러한 설명 가능성과 검증 가능성 때문에 통계 모델은 정책 근거 및 규제 대응에 활용될 수 있다.

👉 즉, 통계 모델은 ‘왜 그런 판단이 나왔는가’를 설명할 수 있는 모델이다.


2️⃣ p-value는 “중요도”가 아니라 “존재 여부”를 말한다

💬 면접 질문
p-value가 작은 변수는 무엇을 의미하나요?

Best Answer
p-value가 작다는 것은 해당 변수가 연체에 영향을 미친다는 효과가 통계적으로 유의하다는 의미다.
이는 효과의 크기나 중요도를 의미하는 것이 아니라, 표본의 우연으로 보기 어렵다는 근거를 제공한다.

따라서 p-value는
👉 변수가 중요하다기보다, 효과가 존재함을 확인하는 지표로 해석해야 한다.


3️⃣ 머신러닝은 “왜”보다 “얼마나 잘 맞히는가”에 집중한다

💬 면접 질문
Random Forest가 Logistic Regression보다 성능이 좋은 이유는 무엇인가요?

Best Answer
Random Forest는 비선형 관계와 변수 간 상호작용을 자동으로 포착할 수 있는 비모수적 모델이기 때문이다.
선형성, 정규성, 독립성 같은 데이터 생성 가정을 하지 않기 때문에 복잡한 구조의 데이터에서도 예측 성능이 안정적이다.

특히 AUC 기준으로 분류 성능이 더 우수한 경우가 많다.
다만 이는 예측 성능이 높다는 의미이지, 모델이 더 옳거나 설명력이 높다는 뜻은 아니다.


4️⃣ 잔차 가정의 차이가 통계와 머신러닝을 가른다

💬 면접 질문
랜덤 포레스트는 왜 잔차 분포를 가정하지 않아도 되나요?

Best Answer
통계 모델은 확률적 오차 구조를 가정하고 그 위에서 추론을 수행한다.
잔차의 대칭성·정규성·독립성 가정이 깨질 경우 계수 해석과 p-value의 신뢰성이 무너질 수 있다.

반면 랜덤 포레스트는 확률 모형이나 잔차 분포를 전제로 하지 않고,
반복적인 분할과 앙상블을 통해 예측 성능을 직접 최적화한다.

👉 그래서 분포가 비정규적이거나 이상치가 많은 데이터에서도 비교적 강한 성능을 보인다.


5️⃣ 예측 성능이 좋은 모델이 항상 좋은 모델은 아니다

💬 면접 질문
연체 모델을 규제기관에 제출해야 한다면 어떤 모델을 선택하겠습니까?

Best Answer
규제기관 제출 목적이라면 예측 성능보다 설명 가능성과 검증 가능성이 중요하다.
변수 영향 방향, 신뢰구간, 차별 검증, 재현성을 제시할 수 있는 통계 모델을 기본 모델로 채택하는 것이 합리적이다.

실무에서는

  • 1차 심사: 통계 모델
  • 보조 도구: 머신러닝 모델(리스크 감지, 경보용)

과 같이 역할을 분리해 활용한다.

👉 머신러닝은 통계를 대체하는 것이 아니라 다른 문제를 푸는 도구다.

 

통계는 세상을 이해하려는 학문이고,
머신러닝은 세상을 이용하려는 기술이다.
좋은 모델이란 성능이 높은 모델이 아니라,
그 질문에 가장 적합한 모델이다.