전체 글 14

[1주차] BDAI 선택 이유 + BDAI 수업, 행사에서 가장 기대되는 점 or 얻어가고 싶은 점

BDAI 금융 데이터 분석 심화반에서 데이터 프로젝트를 경험하며 느낀 점은 데이터 처리 구조와 함께, 모델링 역시 문제 해결 과정에서 핵심적인 역할을 한다는 것이었다. 특히 이상거래 탐지(FDS) 프로젝트를 진행하면서 단순히 모델을 학습시키는 수준을 넘어, 모델을 어떻게 설계하고 평가하며 실제 환경에서 활용 가능한 형태로 만드는지가 중요하다는 것을 체감했다.이러한 경험을 바탕으로 BDAI학회 12기 데이터 분석 모델링반(ML 모델 배포 중심)에 참여하게 되었다. 빅데이터 분석 학회 활동을 통해 모델링 이론을 적용하는 것을 넘어, 모델을 실제 서비스 환경에서 동작 가능한 구조로 구현하는 경험을 쌓는 것이 목적이다.FDS 프로젝트에서 느낀 모델링의 중요성문제 정의에 따른 모델 설계의 필요성이상거래 탐지는 단..

[1주차] BDAI 선택 이유 + BDAI 수업, 행사에서 가장 기대되는 점 or 얻어가고 싶은 점

[1주차] BDAI 선택 이유 + 데이터 핸들링·자동화 수업에서 얻고 싶은 것— FDS 프로젝트 이후 데이터 엔지니어링 역량의 필요성을 느끼며 BDAI 금융 데이터 분석 심화 과정에서 진행한 온라인 결제 이상거래 탐지(FDS) 프로젝트를 통해, 분석 모델보다 먼저 해결해야 할 과제가 데이터 처리 구조라는 점을 체감했다. 거래 로그, 고객 이력, 카드 사용 패턴과 같은 다양한 데이터를 결합하고 시간 흐름에 맞게 가공하는 과정에서 데이터 핸들링 방식 자체가 성능과 개발 속도에 직접적인 영향을 준다는 경험을 했다.이러한 문제의식을 바탕으로 BDAI학회 12기 데이터 분석 실전반(데이터 핸들링과 자동화)에 참여하게 되었다. 빅데이터 분석 학회 활동을 통해 데이터 분석 기술뿐 아니라, 데이터를 효율적으로 처리하고..

AWS 데이터 파이프라인 구조 정리 ② — Transform부터 Analytics까지

데이터 파이프라인Data Source↓Ingestion(Kinesis / MSK / Lambda / EC2)↓S3 Raw (Data Lake)↓Transform(Glue / EMR / Lambda)↓Analytics(Athena / Redshift / BI)이 글에서는 Raw 영역에 저장된 데이터를 분석 가능한 형태로 가공하는 Transform 단계부터데이터 활용 단계까지의 구조를 정리한다.3. Transform LayerTransform Layer는 Raw 데이터 → 분석 가능한 데이터로 변환하는 단계이다.S3 Raw↓Transform Layer(Glue / EMR / Lambda)↓S3 Processed / Curated이 단계에서 수행되는 주요 작업은 다음과 같다.데이터 정제 (Cleaning)데이..

DataEngineering 2026.03.11

AWS 데이터 파이프라인 구조 정리 ① — 데이터 수집(Ingestion)과 S3 Raw 적재

데이터 엔지니어링에서 데이터 파이프라인은 일반적으로 다음과 같은 흐름을 가진다.Data Source↓Ingestion(Kinesis / MSK / Lambda / EC2)↓S3 Raw (Data Lake)↓Transform(Glue / EMR / Lambda)↓Analytics(Athena / Redshift / BI)이 글에서는 데이터가 AWS로 들어오는 Ingestion 단계부터 S3 Raw에 저장되기까지의 구조를 정리한다.1. IAM (Identity and Access Management)IAM은 AWS 리소스에 대한 접근 권한을 관리하는 서비스이다.데이터 파이프라인에서는 여러 서비스가 서로 데이터를 주고받는다.예를 들어 다음과 같은 동작이 발생한다.Lambda → S3 업로드EC2 → S3 업로..

DataEngineering 2026.03.09

Feature Selection의 3대 분류와 주요 기법 정리

0. 문제 설정: Feature Selection이 왜 필요한가WhatFeature Selection은 입력 변수(feature) 중에서 학습·추론·해석에 유리한 subset을 선택하는 과정이다.Why일반화 성능 향상: 노이즈 변수 제거 → 과적합(Overfitting) 감소계산 비용 절감: 학습/추론 속도, 메모리 사용량 절감해석 가능성 향상: “무엇이 중요했는지” 설명 가능데이터 품질 이슈 완화: 결측/이상치/중복 변수의 영향 축소다중공선성(Multicollinearity) 완화: 선형계열 모델에서 계수 불안정 문제 감소1. Filter Based Feature Selection(필터 기반 특징 선택)1.1 Filter의 정의What모델 학습 이전에 데이터 자체의 통계·정보량·거리 구조만으로 feat..

FDS 프로젝트 회고 — 시스템을 설계한다는 것의 의미

들어가며모델을 돌리는 건 누구나 할 수 있다.sklearn 불러서 fit하고 classification_report 뽑는 건 튜토리얼 한 번이면 된다.그게 프로젝트의 핵심이 되어선 안 된다고 생각했다.이번 프로젝트에서 내가 집중한 건 하나였다.실사용을 고려해서 설계했는가.온라인 카드 거래 사기 탐지 시스템, FDS를 만들면서 배운 것들을 정리한다.1. 문제는 모델이 아니라 제약이었다프로젝트 초반에 이런 질문을 했다."FDS는 왜 어려운가?"답은 두 단어였다. Latency와 Context.온라인 카드 거래는 실시간으로 판별해야 한다.거래가 들어오는 순간 승인 또는 차단 결정이 나야 한다.그런데 사기를 정확하게 탐지하려면 맥락이 필요하다.이 고객이 평소에 어떤 업종을 썼는지,최근에 이상한 패턴이 있었는지,..

Imbalanced Data

1. 불균형 데이터란?1-1. 개념불균형 데이터(Imbalanced Data)란 분류 문제에서 클래스 간 데이터 수가 현저하게 차이나는 경우를 의미한다.일반적으로 정상 클래스가 대부분을 차지하고, 이상·희귀 클래스의 비중이 매우 낮은 구조를 가진다.주요 발생 분야:금융 사기 탐지이상 거래 탐지의료 질병 진단결함·고장 탐지1-2. 문제점정확도 왜곡다수 클래스 위주의 예측으로 높은 정확도가 산출되나, 소수 클래스 예측 성능은 매우 낮을 수 있음소수 클래스 학습 부족학습 데이터 내 노출 빈도가 낮아 패턴 학습이 어려움모델 편향 발생결정 경계가 다수 클래스 중심으로 형성되어 소수 클래스 오탐지 증가실무적 위험실제 중요한 이벤트(사기, 질병, 이상 상황)를 탐지하지 못할 가능성 증가2. 데이터를 조정해서 불균형 ..

부동산이 아니라, 현금흐름

리츠·부동산 펀드·토큰화 부동산으로 배우는 금융 데이터 분석의 핵심금융 상품을 공부하다 보면어느 순간부터 “이게 부동산 이야기인지, 코인 이야기인지, 채권 이야기인지”헷갈리기 시작한다.하지만 데이터를 다루는 입장에서 중요한 건 따로 있다.이 상품의 본질적인 수익은 어디서 나오고,그 수익을 둘러싼 데이터는 어떤 구조로 생성·유통되는가?이 글은리츠, 부동산 펀드, 토큰화 부동산을 비교하면서‘어떤 상품이 좋은가’가 아니라‘어떤 구조가 어떤 데이터 패턴을 만드는가’를 이해하기 위한 기록이다.1. 리츠의 본질: 부동산이 아니라 ‘규제된 현금흐름’리츠(REITs)는 흔히 부동산 투자라고 불린다.하지만 데이터 관점에서 보면 이 표현은 정확하지 않다.리츠는 부동산이 아니라‘규제된 현금흐름 분배 기계’성장 자산 X투기 ..

금융 데이터에는 정답이 없다

금융 데이터에는 정답이 없다— Kaggle이 가르쳐주지 않는 시간, 누수, 그리고 의사결정의 문제많은 사람들이 데이터 분석을 이렇게 배운다.잘 정제된 데이터명확한 라벨높은 성능→ 좋은 모델Kaggle은 이 구조의 정점에 있다.대부분의 Kaggle 데이터는 “이기면 되는 문제”로 설계되어 있다.하지만 금융 데이터는 다르다.애초에 정답을 맞히기 위해 만들어진 데이터가 아니기 때문이다.1️⃣ 금융 데이터에는 ‘정답’이 정의되지 않는다금융에서는 라벨부터가 사후적이다.부도는 언제부터 부도인가?위기는 언제 시작되었는가?연체는 30일인가, 90일인가?같은 데이터라도 목적에 따라 정답이 달라진다.리스크 관리 관점수익 극대화 관점규제 대응 관점📌 그래서 금융 데이터에서는“accuracy를 높이자”는 Kaggle식 사고..

통계와 머신러닝을 구분해서 이해해야 하는 이유

1️⃣ 통계 모델은 “예측”이 아니라 “해석의 근거”다💬 면접 질문연체에 영향을 미치는 변수를 어떻게 판단하며, 그 결과를 왜 신뢰할 수 있습니까?✅ Best Answer통계 모델에서는 변수의 계수와 통계적 유의성을 통해 연체 확률에 영향을 미치는 요인을 판단한다.계수의 부호는 연체 확률을 증가·감소시키는 방향을 의미하며, 이는 금융·경제적 직관과 일치해야 한다.또한 p-value를 통해 해당 효과가 표본의 우연이 아니라 실제로 존재함을 검증할 수 있다.이러한 설명 가능성과 검증 가능성 때문에 통계 모델은 정책 근거 및 규제 대응에 활용될 수 있다.👉 즉, 통계 모델은 ‘왜 그런 판단이 나왔는가’를 설명할 수 있는 모델이다.2️⃣ p-value는 “중요도”가 아니라 “존재 여부”를 말한다💬 면접 질..