SlideShare a Scribd company logo
1 of 2
Download to read offline
데이터 사이언스 SCHOOL
1
Abstract
- 영화 관객 수를 예측함에 있어 구전효과를 제외한 마케팅 효과를 반영하는 개봉 1주차 누적 관객 수를
예측한다.
- 배급사, 감독, 배우 점수 등 7개의 변수 입력(feature) → 개봉 전 영화의 1주차 관객수 예측(target)
프로젝트 개요
why
- 영화가 개봉하기 전, 초기 흥행 성적에 영향을 미치는 변수들을 알아보고 앞으로 개봉할 유사 영화의 관객 수를 예
측모델을 만들어보기 위해 시작함.
how
- 데이터 수집
- ‘영화진흥위원회’ 웹사이트 : 1주차 관객수(y), 스크린수,배급사,감독,배우(X)
- ‘네이버 영화’ 웹사이트 크롤링: 사전평점, 평가자 수, 보고싶어요 수(X)
- 방법론
- 전처리 과정 : Scikit-Learn 패키지의 RobustScaler
- 선형 회귀 분석(statsmodels 패키지의 OLS 클래스 사용)
영화 개봉 1주차 관객수 예측
팀 project / 2016.08 ~ 2016.09
[그림1] scaling 후 dataset
[그림2] 회귀분석 결과표
데이터 사이언스 SCHOOL
2
Abstract
- 그동안 배웠던 이론 중 분류 모델을 실습하자는 취지에서 출발, Kaggle에 있는 전체 competition 중
classification이 필요한 subject를 선정
- bone_length, rotting_flesh, hair_length, has_soul, color 5개의 변수 입력(feature) → ghost, goblin,
ghoul 총 3가지 type(target)으로 예측
프로젝트 개요
how
- 데이터 수집
- 주어진 train data 371개, test data 528개 사용
- 방법론
- 전처리 과정 : category 변수에 대해 Label Encoding 시행
- classification 위해 의사 결정 나무(Decision Tree) 모형 사용
- score = .66 on public leaderboard, 성능 개선 작업 필요
Kaggle (https://www.kaggle.com/c/ghouls-goblins-and-ghosts-boo)
개인 project / 2016.12 ~ 2016.12
[그림1] 데이터 출처와 pandas로 읽은 train data 샘플
[그림2] DecisionTreeClassifier의 시각화

More Related Content

Viewers also liked

[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측Robert Lee
 
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측Robert Lee
 
[패스트캠퍼스] 야구 선수 연봉 예측
[패스트캠퍼스] 야구 선수 연봉 예측[패스트캠퍼스] 야구 선수 연봉 예측
[패스트캠퍼스] 야구 선수 연봉 예측Giwook Lee
 
[패스트캠퍼스] Outbrain Click Prediction
[패스트캠퍼스] Outbrain Click Prediction[패스트캠퍼스] Outbrain Click Prediction
[패스트캠퍼스] Outbrain Click Prediction완식 윤
 
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템Kweonwoo Moon
 
디마스 포트폴리오 2
디마스 포트폴리오 2디마스 포트폴리오 2
디마스 포트폴리오 2moon-young
 
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규FAST CAMPUS
 
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범FAST CAMPUS
 
[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviews[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviewsSung Guk Lee
 
[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델
[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델
[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델경수 김
 
Soundlight Around NHN NEXT [141212 Data visualization]
Soundlight Around NHN NEXT [141212 Data visualization]Soundlight Around NHN NEXT [141212 Data visualization]
Soundlight Around NHN NEXT [141212 Data visualization]Yurim Jin
 
[제5회] 9x년생 개발자 모임
[제5회] 9x년생 개발자 모임[제5회] 9x년생 개발자 모임
[제5회] 9x년생 개발자 모임Yurim Jin
 
[제3회] 9x년생 개발자 모임
[제3회] 9x년생 개발자 모임[제3회] 9x년생 개발자 모임
[제3회] 9x년생 개발자 모임Yurim Jin
 
[제4회] 9x년생 개발자 모임
[제4회] 9x년생 개발자 모임[제4회] 9x년생 개발자 모임
[제4회] 9x년생 개발자 모임Yurim Jin
 
[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델
[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델
[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델Youngil Koh
 
[제6회] 9x년생 개발자 모임
[제6회] 9x년생 개발자 모임[제6회] 9x년생 개발자 모임
[제6회] 9x년생 개발자 모임Yurim Jin
 
"나는 네가 지난 여름에 산 것을 알고있다" - Google analytics 첫걸음...
"나는 네가 지난 여름에 산 것을 알고있다" - Google analytics 첫걸음..."나는 네가 지난 여름에 산 것을 알고있다" - Google analytics 첫걸음...
"나는 네가 지난 여름에 산 것을 알고있다" - Google analytics 첫걸음...Yurim Jin
 
빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)
빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)
빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)성호(Kevin) 나
 

Viewers also liked (20)

[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측[패스트캠퍼스] 야구선수 연봉예측
[패스트캠퍼스] 야구선수 연봉예측
 
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
[패스트캠퍼스] 네이버뉴스_및_다음_뉴스_분류_예측
 
[패스트캠퍼스] 야구 선수 연봉 예측
[패스트캠퍼스] 야구 선수 연봉 예측[패스트캠퍼스] 야구 선수 연봉 예측
[패스트캠퍼스] 야구 선수 연봉 예측
 
[패스트캠퍼스] Outbrain Click Prediction
[패스트캠퍼스] Outbrain Click Prediction[패스트캠퍼스] Outbrain Click Prediction
[패스트캠퍼스] Outbrain Click Prediction
 
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
[패스트캠퍼스]개인맞춤 패션 쇼핑몰 상품 추천 시스템
 
Portfolio
PortfolioPortfolio
Portfolio
 
디마스 포트폴리오 2
디마스 포트폴리오 2디마스 포트폴리오 2
디마스 포트폴리오 2
 
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
검색엔진을 이해하고, Ga 태그매니저 활용을 통해 데이터로 마케팅을 논하는 마케터, 아이엠뮤직 정민규
 
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
Google analytics 데이터를 통해 체계적인 마케팅 실험을 진행하는 퍼포먼스 마케터 장형범
 
[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviews[패스트캠퍼스]Sentiment analysis on movie reviews
[패스트캠퍼스]Sentiment analysis on movie reviews
 
[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델
[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델
[패스트캠퍼스]다산콜 센터 문의 내역 자동화 분류 모델
 
Soundlight Around NHN NEXT [141212 Data visualization]
Soundlight Around NHN NEXT [141212 Data visualization]Soundlight Around NHN NEXT [141212 Data visualization]
Soundlight Around NHN NEXT [141212 Data visualization]
 
[제5회] 9x년생 개발자 모임
[제5회] 9x년생 개발자 모임[제5회] 9x년생 개발자 모임
[제5회] 9x년생 개발자 모임
 
[제3회] 9x년생 개발자 모임
[제3회] 9x년생 개발자 모임[제3회] 9x년생 개발자 모임
[제3회] 9x년생 개발자 모임
 
[제4회] 9x년생 개발자 모임
[제4회] 9x년생 개발자 모임[제4회] 9x년생 개발자 모임
[제4회] 9x년생 개발자 모임
 
[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델
[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델
[패스트캠퍼스] 교통사고량 예측, CRF를 이용한 띄어쓰기 모델
 
분석7기 5조
분석7기 5조분석7기 5조
분석7기 5조
 
[제6회] 9x년생 개발자 모임
[제6회] 9x년생 개발자 모임[제6회] 9x년생 개발자 모임
[제6회] 9x년생 개발자 모임
 
"나는 네가 지난 여름에 산 것을 알고있다" - Google analytics 첫걸음...
"나는 네가 지난 여름에 산 것을 알고있다" - Google analytics 첫걸음..."나는 네가 지난 여름에 산 것을 알고있다" - Google analytics 첫걸음...
"나는 네가 지난 여름에 산 것을 알고있다" - Google analytics 첫걸음...
 
빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)
빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)
빅데이터 아카데미 연말평가발표자료 분석5기 우수팀(최종)
 

[패스트캠퍼스]영화 관객수 예측 & Kaggle

  • 1. 데이터 사이언스 SCHOOL 1 Abstract - 영화 관객 수를 예측함에 있어 구전효과를 제외한 마케팅 효과를 반영하는 개봉 1주차 누적 관객 수를 예측한다. - 배급사, 감독, 배우 점수 등 7개의 변수 입력(feature) → 개봉 전 영화의 1주차 관객수 예측(target) 프로젝트 개요 why - 영화가 개봉하기 전, 초기 흥행 성적에 영향을 미치는 변수들을 알아보고 앞으로 개봉할 유사 영화의 관객 수를 예 측모델을 만들어보기 위해 시작함. how - 데이터 수집 - ‘영화진흥위원회’ 웹사이트 : 1주차 관객수(y), 스크린수,배급사,감독,배우(X) - ‘네이버 영화’ 웹사이트 크롤링: 사전평점, 평가자 수, 보고싶어요 수(X) - 방법론 - 전처리 과정 : Scikit-Learn 패키지의 RobustScaler - 선형 회귀 분석(statsmodels 패키지의 OLS 클래스 사용) 영화 개봉 1주차 관객수 예측 팀 project / 2016.08 ~ 2016.09 [그림1] scaling 후 dataset [그림2] 회귀분석 결과표
  • 2. 데이터 사이언스 SCHOOL 2 Abstract - 그동안 배웠던 이론 중 분류 모델을 실습하자는 취지에서 출발, Kaggle에 있는 전체 competition 중 classification이 필요한 subject를 선정 - bone_length, rotting_flesh, hair_length, has_soul, color 5개의 변수 입력(feature) → ghost, goblin, ghoul 총 3가지 type(target)으로 예측 프로젝트 개요 how - 데이터 수집 - 주어진 train data 371개, test data 528개 사용 - 방법론 - 전처리 과정 : category 변수에 대해 Label Encoding 시행 - classification 위해 의사 결정 나무(Decision Tree) 모형 사용 - score = .66 on public leaderboard, 성능 개선 작업 필요 Kaggle (https://www.kaggle.com/c/ghouls-goblins-and-ghosts-boo) 개인 project / 2016.12 ~ 2016.12 [그림1] 데이터 출처와 pandas로 읽은 train data 샘플 [그림2] DecisionTreeClassifier의 시각화