Github: github.com/ydy8989
E-mail: ydy89899**@**gmail.com
안녕하세요. 5년차 데이터 과학자 윤도연입니다.
다양한 도메인의 프로젝트에서 주어진 조건과 트레이드 오프를 고려한 최적의 결과를 도출하는 데 집중합니다.
상황에 맞는 기술을 깊이 있게 다루며, 필요할 땐 빠르게 새로운 스택에도 적응하며 팀의 성장 방안을 모색합니다.
모르는 것은 바로 질문하며, 제 의견을 드러내는 것에 어려움이 없습니다.
Career
라이앤캐처스 | Data Scientist & ML Engineer
2021.11 ~ 2025.03
- 다양한 산업군의 프로젝트에서 데이터 분석 및 머신러닝 모델 개발 주도
- Python, Pandas, Pytorch, Scikit-learn, 등을 활용한 분석 및 모델링 파이프라인 다수 구축
- 도메인별 요구사항에 따라 데이터 수집 → 전처리 → 모델 학습/평가 → 배포까지 전 단계 경험
ML Engineer
2024.09 ~
2025.01
한림대학교 RAG 기반 AI 조교 구축
강의계획서, 논문 초안, 문제 생성 및 수정 등의 기능을 지닌, 교수님들을 위한 AI 조교 챗봇 개발
- LangChain을 활용한 Advanced RAG 파이프라인 설계 구현 주도
- Hybrid search 적용 & IVF 인덱싱 도입을 통한 Retriever 속도 및 정확도 향상
- 문항 생성 니즈에 맞는 retriever 구현 및 프롬프트 엔지니어링으로 생성물 저장 비율 향상
Data
Scientist
2023.06 ~
2024.04
AI 채용서류 평가 자동화 모델 구현
14개 서류평가 위반사항(6어절 이상 표절, 상관 없는 글 작성, 블라인드 위반, 타기업 지원서 복붙 등)을 검출하는 로직 구현
- 해시값 비교를 통한 표절 검출 스크립트의 완료 속도 2일에서 2시간으로 단축
- SimCSE 기반 문장 임베딩과 leave-one-out 평균 비교 방식 도입하여, 문항에 상관없는 답변 검출시 휴먼 리소스 90% 이상 감소
- 전체 14개 위반 사항 검출 정확도 recall > 0.95, f1-score 기존 대비 0.2 향상
ML Engineer
2023.01 ~
2023 03
사내 지식거래 플랫폼 유사 문서 랭킹
자사 신규 서비스에 들어갈 “문서 클러스터링” 기능 구현을 위한 랭킹 시스템 구현
- 작성 시점 이전 문서에 한정된 유사도 탐색 로직을 설계하여 지식재산권 보호 기준 반영 및 검색
- KoElectra 기반 문서 임베딩 및 SimCSE 리랭커를 활용한 2단계 유사 문서 검색 파이프라인을 구현하고, 정확도와 검색 효율을 동시에 확보
- MongoDB + FAISS 인덱스 이중 구조로 벡터 저장과 유사도 계산을 분리하여, 실시간 대응이 가능한 고속 검색 시스템을 설계 및 운영
Data
Scientist
2022.09 ~
2022.12
“대스타 해결사 플랫폼” 데이터 증강 대회
텍스트 분류 모델에 대한 정보 없이, 데이터 증강 전략만으로 성능을 극대화하는 데이터 증강 대회에서 준우승 수상(상금 9천만원)
- 모델 정보 없이 주어진 원시 텍스트만으로 텍스트 분류 성능을 향상시켜야 하는 조건 하에서, 전략 중심의 데이터 증강 기법을 설계 및 적용
- 문체 변환 모델, Back Translation, TEM 등 다양한 증강 기법을 앙상블 적용하고, 사전 구축한 자동화 파이프라인을 통해 증강 효율 및 다양성 확보
- 실험 환경의 빠른 셋업 및 증강 전략 최적화를 통해 제한된 시간 내 높은 품질의 증강 데이터 생성, 준우승 달성
Data
Scientist
2021.11 ~
2022.12
“와인나라” 사이트 와인 추천 모델 개발
데이터 부족 상황에서의 개인화 추천 한계를 보완하기 위해 유사 와인 추천 모델 설계 및 데이터 적재 전략 수립
- Implicit한 유저-아이템 데이터의 sparse한 분포로 인해 ALS 모델의 일반화 성능이 낮았음을 분석하고, 고객사에 데이터 수집 가이드라인 제공
- 와인 도메인 특성상 popularity bias를 고려한 비개인화 추천 전략을 제시하고, 클라이언트의 추천 시스템 초기 정착과 사용자 만족도 향상에 기여
- 와인 테이스팅 노트와 메타 데이터와 결합한 임베딩 모델을 활용하여, 비지도 추천 환경에서 Query 와인과의 평균 맛 유사도(RMSE)를 21% 개선
ScatterX | Data Scientist
2019.06 ~ 2020.03
- 반도체 공정 내 이상 탐지 자동 분류 모델 개발 → 삼성전자 전 공정 적용
- 센서 기반 Interlock 분류를 통한 휴먼 리소스 절감
Data
Scientist
2019.06 ~
2020.03
삼성전자 반도체 센서데이터 이상탐지 모델 개발
일 발생 수천만건의 반도체 센서 데이터의 공정 기준을 만족하지 못할 시 정지시키는 인터락 상황에 대해, 진짜 고장 상황인지 여부를 분류하는 모델 개발
- 인터락 발생 시점 기준 과거 30일 시계열 센서 데이터 기반 7종 이상 케이스 분류를 위한 데이터 처리 및 모델링 파이프라인을 주도적으로 설계 및 구현
- 단일 모델의 한계를 보완하기 위해, 7가지 케이스별 특성에 따라 Autoencoder, SGAN, 회귀 모델을 병렬 적용하는 구조를 설계하여 분류 정확도와 유연성을 향상
- Precision 0.99, F1 score 0.83 달성하고, 전체 공정에 적용하여 휴먼 리소스 80% 절감에 기여