2. 자기소개
윤 석 준 (Seok-joon, Yun)
(주) 직방 개발자
아파트 시세 담당
https://www.facebook.com/seokjoon.yun.9
https://devstarsj.github.io
seokjoon.yun@gmail.com
3. 평범한 백엔드 개발자
주요 관심사
- AWS Lambda와 API Gateway를 이용해서 Serverless Web API 만들기
- Monolith to Serverless using AWS Lambda
- AWS Lambda + API Gateway Binary Response
- Image Converter using AWS Lambda (typescript) + Akamai CDN
- Excel Downloader using AWS Lambda (python)
- Html to PDF using AWS Lambda (typescript)
33. 시세 데이터
• raw data : 1100만 건
• train data : 2000만 건
• predict data : 3800만 건
피처 개수
• 30 ~ 250 개
34. AWS EC2 using custom AMI
• AWS Deep Learning AMI를 이용해서 custom AMI 생성
• 모델 및 필요한 라이브러리 설치
• AWS, GCP, Git credential 정보
• Git repository
• 실행 스크립트
• git pull & run jupyter notebook
• ec2 stop / terminate
47. 첨부터 끝까지 다 해봤다.
• 데이터 수집, 정제
• Hyperparameter Tuning
• 모델 적용
• 예측 데이터 생성
• 분석 / 시각화
• API 개발
48. 그중 가장 재밌었던 것은
• Pipeline 작업
• 작업을 작은 단위로 분리
• 코드 모듈화
그래서 내가 하고싶은 것은
Automated Machine Learning Pipeline on Cloud Platform 구축
49. 학습 데이터 생성
모델 생성 (train)
결과 생성 (predict)
분석 / 시각화
Parquet
Parquet
pickle
Hyperparameter
Tuning
Machine Learning Pipeline on Cloud Platform (as-is)
50. Train (CV) #n
학습 데이터 생성 #n
학습 데이터 생성 #2
Automated Machine Learning Pipeline on Cloud Platform
(to-be)
학습 데이터 생성 #1
분석 / 시각화
Ensemble
(Stacking)
Train (CV) #2
Train (CV) #1
Parquet
ParquetHyperparameter
Tuning #n
Hyperparameter
Tuning #2
Hyperparameter
Tuning #1
서비스
53. 그중 가장 재밌었던 것은
• Pipeline 작업
• 작업을 작은 단위로 분리
• 코드 모듈화
그래서 내가 하고싶은 것은
Automated Machine Learning Pipeline on Cloud Platform 구축
Kaggle team 초대 환영합니다. seokjoon.yun@gmail.com
나머지 일들은 ? 동료가 필요합니다.
55. 더 나아가기 위해서는…
• 통계학, 수학적 지식이 필요
-> 방송통신대 정보통계학과 편입
• 혼자라 외로워요. 내가 맞게 하고 있나요 ?
-> 외부 활동/스터디 활발히 참가
• 회사일 이외의 데이터 분석 및 ML 기법 학습
-> Kaggle 대회 참가 및 Kernel 분석