SlideShare a Scribd company logo
1 of 20
Download to read offline
Профессия  Data Scientist
Леонид Жуков
Отделение Прикладной Математики и Информатики
lzhukov@hse.ru

Конференция «Большие Данные в национальной экономике»
Москва 2013
Высшая школа экономики, Москва, 2013
www.hse.ru
The Sexiest Job of the 21st century

McKinsey оценивает
нехватку в
140,000-190,000
специалистов к 2018г

Высшая школа экономики, Москва, 2013

2	
  
Требуются Data Scientists!

Высшая школа экономики, Москва, 2013

3	
  
Спрос и предложение

Высшая школа экономики, Москва, 2013

4	
  
Кто такие Data Scientists?
A practitioner of data science is called a data scientist ( Wikipedia)

Любит данные
Исследовательский склад ума
Цель работы – нахождение закономерностей в данных
Практик, не теоретик
Умеет и любит работать руками
Эксперт в прикладной области (*)
demand for a certain set of skills, while later demand wanes as many of those initial skills are
automated by even newer tools. Consider, for instance, the way many data processing and network
Работает в команде

management jobs that used to require legions of computer operators are now handled by automated
monitoring tools. Data science is still in its very early phase, with the amount of data exploding and
the right tools to process them just becoming
available.
The best source of new Data Science talent
is:

  Предпочтительное образование:
• 
• 
• 
• 

Computer Science
Статистика, математика
Точные науки: Физика, Инженерия, итд
Магистры и кандидаты наук

Today's BI
professionals
12%

Professionals
in disciplines
other than IT
or computer
science
27%

Other
3%

Students
studying
computer
science
34%
Students
studying
fields other
than
computer
science
24%

 EMC Data Science
Высшая школа экономики, Москва, 2013

university students.

Although data science is generating new
opportunities, our capacity to train new data
scientists is not keeping up, and nearly twothirds of respondents foresee a looming
shortfall in the number of data scientists over
the next five years. This aligns with other
research, including a recent McKinsey Global
Institute study that predicts a shortage of
190,000 data scientists by the year 2019iii.
And when our respondents were asked where
the best source for talent was, few looked to
today’s business intelligence professional.
Instead, nearly two-thirds looked
Community Survey, 2011 for today’s



5	
  

 Drew Conway, 2010

• 
• 
• 
• 
• 
• 
• 



Data Scientist:
Рабочие инструменты
•  Operating systems:
•  Linux + shell tools
•  Big data instruments:
•  Hadoop (MapReduce) + hadoop tools
•  Hive, Pig
•  NoSQL (Hbase, MongoDB, Cassandra, Neo4J)
•  Database:
•  SQL
•  Programming:
•  Python
•  Java
•  Scala
•  Machine Learning:
•  R
•  Matlab
•  Python libraries (NumPy, SciPy, Nltk,…)
•  Java libraries (Mahaut)
.
Высшая школа экономики, Москва, 2013

6	
  
День из жизни Data Scientist

Постановка	
  
задачи	
  

Получение	
  
данных	
  

Разбор	
  
форматов,	
  
организация	
  
Исследование	
  
данных	
  

Высшая школа экономики, Москва, 2013

Очистка,	
  
фильтрация	
  
Построение	
  
моделей	
  

Визуализация	
  

Обсуждение	
  
результатов	
  

7	
  
Data Scientist  или Аналитик
•  Data Scientist:
•  Используют Hadoop, MapReduce, Hive, R
•  Создают специализированные системы
и инструменты
•  Работают со структурированными и не
структурированными данными
•  Рабочие данные измеряются в TB, PB
•  Опыт научной работы, экспертиза в
статистке, машинном обучении,
программировании
•  Магистры и кандидаты наук (PhDs)
•  Разрабатывают предсказательными
модели
•  Создают data products

•  Analysts:
•  Используют Excel, SQL
•  Используют существующие
инструменты и системы
•  Работают с табличными данными
•  Данные измеряются MB,GB
•  Профессиональное образование,
нет формального научного
•  Бакалавры etc (BS, BA, MS, MBA)
•  Работают тесно с BI и маркетингом
•  Занимаются отчетами о
показателях работы бизнеса

Если Вы программируете, то скорее всего Вы - Data Scientist,
если используете Excel, то - аналитик
Высшая школа экономики, Москва, 2013

8	
  
Опрос: роли и навыки Data Scientist

From: “Analyzing the Analyzers” by Harlan Harris, Sean Murphy, and Marck Vaisman , O’Reilly Strata 2012
Высшая школа экономики, Москва, 2013

9	
  
Data Science команда - ”the dream team”

From: “Doing Data Science: Straight Talk from the Frontline”, Rachel Schutt, Cathy O'Neil, O'Reilly Media, 2013 
Высшая школа экономики, Москва, 2013

10	
  
Прикладные задачи
•  Маркетинг:
• 
• 
• 
• 

Сегментация рынка
Моделирование приобретения и оттока клиентов
Рекомендательные системы
Анализ социальных медиа

•  Финансовые и страховые компании:
• 
• 
• 
• 
• 

Предотвращение fraud
Детектирование аномального поведения
Анализ кредитных рисков
Страховые моделирование
Оптимизация портфолио

•  Здравоохранение и Фармакология:
•  Генетический анализ
•  Анализ клинических испытаний
•  Клинические системы принятия решений
Высшая школа экономики, Москва, 2013

11	
  
Дорога дальняя…

• 
• 
• 
• 
• 
• 
• 
• 
• 
• 

Программирование
Алгоритмы и структуры данных
Базы данных
Статистика
Анализ данных
Машинное обучение
Компьютерная обработка текста
Распределенные системы
Инструменты Big Data
Визуализация данных

From: Swami Chandrasekaran,Executive Architect, IBM, Watson Solutions
Высшая школа экономики, Москва, 2013

12	
  
Подготовительные программы в индустрии

TRAINING SHEET | 2

Course Outline: Cloudera Introduction to Data Science
Introduction

Data Analysis and Statistical Methods

Experimentation and Evaluation

Data Science Overview

> Relationship Between Statistics and
Probability

> Measuring Recommender Effectiveness

> Descriptive Statistics

> Conducting an Effective Experiment

> What Is Data Science?
> The Growing Need for Data Science
> The Role of a Data Scientist

> Inferential Statistics

Fundamentals of Machine Learning

Use Cases

> Overview

> Finance

> The Three Cs of Machine Learning

> Retail

> Spotlight: Naïve Bayes Classifiers

> Advertising

> Importance of Data and Algorithms

> Defense and Intelligence
> Telecommunications and Utilities
> Healthcare and Pharmaceuticals

Evaluating Input Data
> Data Formats
> Data Quantity
> Data Quality

Data Transformation

> Tips and Techniques for Working at Scale
> Summarizing and Visualizing Results
> Considerations for Improvement

Conclusion

> Types of Collaborative Filtering
> Fundamental Concepts

> Acquisition Techniques

> Deploying to Production

> What Is a Recommender System?

> Steps in the Project Lifecycle

> Where to Source Data

Production Deployment and Beyond

> Next Steps for Recommenders

> Limitations of Recommender Systems

Data Acquisition

> User Interfaces for Recommenders

Recommender Overview

Project Lifecycle
> Lab Scenario Explanation

> Designing Effective Experiments

Introduction to Apache Mahout
> What Apache Mahout Is (and Is Not)
> A Brief History of Mahout
> Availability and Installation

Appendix A : Hadoop Overview
Appendix B: Mathematical
Formulas
Appendix C : Language and Tool
Reference

> Demonstration: Using Mahout’s ItemBased Recommender

Implementing Recommenders with
Apache Mahout
> Overview
> Similarity Metrics for Binary Preferences

> Anonymization
> File Format Conversion

TRAINING SHEET

> Similarity Metrics for Numeric Preferences
> Scoring

> Joining Datasets

Cloudera Introduction to Data Science:
Cloudera Certified Professional: Data
Building RecommenderScientist (CCP:DS)
Systems

Высшая школа экономики, Москва, 2013

13	
  
Подготовительные программы в индустрии

Высшая школа экономики, Москва, 2013

14	
  
Образовательные программы
Университетские программы:
• 
• 
• 
• 
• 

University of Washington: Certificate in Data Science
UC Berkeley: Master of information and data science program
New York University: Data Science at NYU
Columbia University: Institute for Data Sciences and Engineering
University of Southern California (UCS) : Master of Science in Data Science

Онлайн курсы обучения (MOOC):
•  Coursera
•  edX
•  Udacity

Ускоренные образовательные программы (компании):
•  Zipfian Academy (12 weeks intensive program)
•  Insight Data Science Fellows program ( 6 weeks post doc training)
Высшая школа экономики, Москва, 2013

15	
  
Конференции
Индустрийные конференции и выставки:
• 
• 
• 
• 

O’Reilly Strata Conference Making Data Work
Hadoop World
Big Data Techcon
Big Data Innovation summits

Научные и академические конференции (peer reviewed):
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 

IEEE & ACM Supercomputing
IEEE Big Data
ACM KDD Knowledge Discovery and Data Mining
ACM SIGIR Information Retrieval
ICML International Conference on Machine Learning
ICDM International Conference on Data Mining
NIPS Neural Information Processing
WWW World Wide Web Conference
VLDB Very Large Data Bases
ACM CIKM Information and Knowledge Management
SIAM SDM International Conference on Data Mining
IEEE ICDE Data Engineering
IEEE Visualization

Meetups («кружки по интересам»)
Высшая школа экономики, Москва, 2013

16	
  
 Книги

Высшая школа экономики, Москва, 2013

17	
  
Открытые вопросы
• Насколько важно быть экспертом в предметной области
решаемой задачи (domain expertise) ?
• Что более важно в профессии  Data Scientist : образование или
практический опыт?
• Перспективы профессии Data Scientist, будут ли она замещена
программными решениями?

Высшая школа экономики, Москва, 2013

18	
  
ВШЭ Отделение Прикладной Математики и
Информатики
Курсы, читаемые на отделении:
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 
• 

Программирование (Python, Java, Matlab)
Архитектура компьютеров и системное программирование
Распределенные системы
Теория баз данных
Дискретная математика
Алгоритмы и структуры данных
Статистическое моделирование и анализ
Численные методы
Прикладная теория графов
Анализ и обработка данных
Методы машинного обучения
Автоматическая обработка текстов
Компьютерная лингвистика
Анализ социальных сетей

•  Запускается Магистерская программа «Наука о Данных»
Высшая школа экономики, Москва, 2013

19	
  
101000, Россия, Москва, Мясницкая ул., д. 20
Тел.: (495) 621-7983, факс: (495) 628-7931
www.hse.ru

More Related Content

Viewers also liked

Numerical Linear Algebra for Data and Link Analysis
Numerical Linear Algebra for Data and Link AnalysisNumerical Linear Algebra for Data and Link Analysis
Numerical Linear Algebra for Data and Link AnalysisLeonid Zhukov
 
Russian Big Data Startups
Russian Big Data StartupsRussian Big Data Startups
Russian Big Data StartupsLeonid Zhukov
 
ancestry-bigdatasummit-april2013
ancestry-bigdatasummit-april2013ancestry-bigdatasummit-april2013
ancestry-bigdatasummit-april2013Leonid Zhukov
 
Business of Big Data
Business of Big DataBusiness of Big Data
Business of Big DataLeonid Zhukov
 
Vis03 Workshop. DT-MRI Visualization
Vis03 Workshop. DT-MRI VisualizationVis03 Workshop. DT-MRI Visualization
Vis03 Workshop. DT-MRI VisualizationLeonid Zhukov
 
Oriented Tensor Reconstruction. Tracing Neural Pathways from DT-MRI
Oriented Tensor Reconstruction. Tracing Neural Pathways from DT-MRIOriented Tensor Reconstruction. Tracing Neural Pathways from DT-MRI
Oriented Tensor Reconstruction. Tracing Neural Pathways from DT-MRILeonid Zhukov
 
Ecosystem challenges around data use
Ecosystem challenges around data useEcosystem challenges around data use
Ecosystem challenges around data useLeonid Zhukov
 
Social Network Analysis
Social Network AnalysisSocial Network Analysis
Social Network AnalysisLeonid Zhukov
 
Инфорамционные каскады
Инфорамционные каскадыИнфорамционные каскады
Инфорамционные каскадыLeonid Zhukov
 
Social Networks: from Micromotives to Macrobehavior
Social Networks: from Micromotives to MacrobehaviorSocial Networks: from Micromotives to Macrobehavior
Social Networks: from Micromotives to MacrobehaviorLeonid Zhukov
 
Information cascades
Information cascadesInformation cascades
Information cascadesLeonid Zhukov
 
Big Data at Ancestry.com
Big Data at Ancestry.comBig Data at Ancestry.com
Big Data at Ancestry.comLeonid Zhukov
 
socialnetworkszhukov
socialnetworkszhukovsocialnetworkszhukov
socialnetworkszhukovLeonid Zhukov
 
Numerical Linear Algebra for Data and Link Analysis.
Numerical Linear Algebra for Data and Link Analysis.Numerical Linear Algebra for Data and Link Analysis.
Numerical Linear Algebra for Data and Link Analysis.Leonid Zhukov
 

Viewers also liked (17)

Numerical Linear Algebra for Data and Link Analysis
Numerical Linear Algebra for Data and Link AnalysisNumerical Linear Algebra for Data and Link Analysis
Numerical Linear Algebra for Data and Link Analysis
 
Russian Big Data Startups
Russian Big Data StartupsRussian Big Data Startups
Russian Big Data Startups
 
Data Scientists
 Data Scientists Data Scientists
Data Scientists
 
ancestry-bigdatasummit-april2013
ancestry-bigdatasummit-april2013ancestry-bigdatasummit-april2013
ancestry-bigdatasummit-april2013
 
Business of Big Data
Business of Big DataBusiness of Big Data
Business of Big Data
 
Vis03 Workshop. DT-MRI Visualization
Vis03 Workshop. DT-MRI VisualizationVis03 Workshop. DT-MRI Visualization
Vis03 Workshop. DT-MRI Visualization
 
Oriented Tensor Reconstruction. Tracing Neural Pathways from DT-MRI
Oriented Tensor Reconstruction. Tracing Neural Pathways from DT-MRIOriented Tensor Reconstruction. Tracing Neural Pathways from DT-MRI
Oriented Tensor Reconstruction. Tracing Neural Pathways from DT-MRI
 
Ecosystem challenges around data use
Ecosystem challenges around data useEcosystem challenges around data use
Ecosystem challenges around data use
 
Social Network Analysis
Social Network AnalysisSocial Network Analysis
Social Network Analysis
 
Monitorium DLP
Monitorium DLPMonitorium DLP
Monitorium DLP
 
Инфорамционные каскады
Инфорамционные каскадыИнфорамционные каскады
Инфорамционные каскады
 
Social Networks
Social NetworksSocial Networks
Social Networks
 
Social Networks: from Micromotives to Macrobehavior
Social Networks: from Micromotives to MacrobehaviorSocial Networks: from Micromotives to Macrobehavior
Social Networks: from Micromotives to Macrobehavior
 
Information cascades
Information cascadesInformation cascades
Information cascades
 
Big Data at Ancestry.com
Big Data at Ancestry.comBig Data at Ancestry.com
Big Data at Ancestry.com
 
socialnetworkszhukov
socialnetworkszhukovsocialnetworkszhukov
socialnetworkszhukov
 
Numerical Linear Algebra for Data and Link Analysis.
Numerical Linear Algebra for Data and Link Analysis.Numerical Linear Algebra for Data and Link Analysis.
Numerical Linear Algebra for Data and Link Analysis.
 

Similar to Профессия Data Scientist

Предиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияПредиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияDell_Russia
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Evgeniy Pavlovskiy
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Andzhey Arshavskiy
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data ScienceProvectus
 
Яндекс.Нижний Новгород
Яндекс.Нижний НовгородЯндекс.Нижний Новгород
Яндекс.Нижний НовгородYandex
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙqueryhunter
 
брошюра сколково кластер ит
брошюра сколково кластер итброшюра сколково кластер ит
брошюра сколково кластер итThe Skolkovo Foundation
 
зао «эвентос»
зао «эвентос»зао «эвентос»
зао «эвентос»ontosminerapi
 
Прокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceПрокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceSQALab
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхСергей Макрушин
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхSergey Makrushin
 
Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БДAndrew Sovtsov
 
Dsml for business.full version
Dsml for business.full versionDsml for business.full version
Dsml for business.full versionDmitry Guzenko
 
Большие данные и бизнес-аналитика: как найти пользу?
Большие данные и бизнес-аналитика: как найти пользу?Большие данные и бизнес-аналитика: как найти пользу?
Большие данные и бизнес-аналитика: как найти пользу?Marina Payvina
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovoqueryhunter
 
Информационная система «Забота о каждом»
Информационная система  «Забота о каждом» Информационная система  «Забота о каждом»
Информационная система «Забота о каждом» ITMO University
 
2015 06-16 круглый стол компетенции по большим данным
2015 06-16 круглый стол компетенции по большим данным2015 06-16 круглый стол компетенции по большим данным
2015 06-16 круглый стол компетенции по большим даннымEvgeniy Pavlovskiy
 

Similar to Профессия Data Scientist (20)

SPSS Modeler
SPSS ModelerSPSS Modeler
SPSS Modeler
 
Предиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решенияПредиктивная аналитика и Big Data: методы, инструменты, решения
Предиктивная аналитика и Big Data: методы, инструменты, решения
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)Digital Society Laboratory (Аршавский)
Digital Society Laboratory (Аршавский)
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Яндекс.Нижний Новгород
Яндекс.Нижний НовгородЯндекс.Нижний Новгород
Яндекс.Нижний Новгород
 
03_Сагайда
03_Сагайда03_Сагайда
03_Сагайда
 
Взгляд на Data Science
Взгляд на Data ScienceВзгляд на Data Science
Взгляд на Data Science
 
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙQuery hunter  презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
Query hunter презентация для КОНКУРСА РУССКИХ ИННОВАЦИЙ
 
брошюра сколково кластер ит
брошюра сколково кластер итброшюра сколково кластер ит
брошюра сколково кластер ит
 
зао «эвентос»
зао «эвентос»зао «эвентос»
зао «эвентос»
 
Прокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data scienceПрокачиваем информационные системы с помощью data science
Прокачиваем информационные системы с помощью data science
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Информационные технологии в эру Больших данных
Информационные технологии в эру Больших данныхИнформационные технологии в эру Больших данных
Информационные технологии в эру Больших данных
 
Моделирование для NoSQL БД
Моделирование для NoSQL БДМоделирование для NoSQL БД
Моделирование для NoSQL БД
 
Dsml for business.full version
Dsml for business.full versionDsml for business.full version
Dsml for business.full version
 
Большие данные и бизнес-аналитика: как найти пользу?
Большие данные и бизнес-аналитика: как найти пользу?Большие данные и бизнес-аналитика: как найти пользу?
Большие данные и бизнес-аналитика: как найти пользу?
 
QueryHunter project overview for lenovo
QueryHunter   project overview  for lenovoQueryHunter   project overview  for lenovo
QueryHunter project overview for lenovo
 
Информационная система «Забота о каждом»
Информационная система  «Забота о каждом» Информационная система  «Забота о каждом»
Информационная система «Забота о каждом»
 
2015 06-16 круглый стол компетенции по большим данным
2015 06-16 круглый стол компетенции по большим данным2015 06-16 круглый стол компетенции по большим данным
2015 06-16 круглый стол компетенции по большим данным
 

Профессия Data Scientist

  • 1. Профессия  Data Scientist Леонид Жуков Отделение Прикладной Математики и Информатики lzhukov@hse.ru Конференция «Большие Данные в национальной экономике» Москва 2013 Высшая школа экономики, Москва, 2013 www.hse.ru
  • 2. The Sexiest Job of the 21st century McKinsey оценивает нехватку в 140,000-190,000 специалистов к 2018г Высшая школа экономики, Москва, 2013 2  
  • 3. Требуются Data Scientists! Высшая школа экономики, Москва, 2013 3  
  • 4. Спрос и предложение Высшая школа экономики, Москва, 2013 4  
  • 5. Кто такие Data Scientists? A practitioner of data science is called a data scientist ( Wikipedia) Любит данные Исследовательский склад ума Цель работы – нахождение закономерностей в данных Практик, не теоретик Умеет и любит работать руками Эксперт в прикладной области (*) demand for a certain set of skills, while later demand wanes as many of those initial skills are automated by even newer tools. Consider, for instance, the way many data processing and network Работает в команде management jobs that used to require legions of computer operators are now handled by automated monitoring tools. Data science is still in its very early phase, with the amount of data exploding and the right tools to process them just becoming available. The best source of new Data Science talent is:   Предпочтительное образование: •  •  •  •  Computer Science Статистика, математика Точные науки: Физика, Инженерия, итд Магистры и кандидаты наук Today's BI professionals 12% Professionals in disciplines other than IT or computer science 27% Other 3% Students studying computer science 34% Students studying fields other than computer science 24%  EMC Data Science Высшая школа экономики, Москва, 2013 university students. Although data science is generating new opportunities, our capacity to train new data scientists is not keeping up, and nearly twothirds of respondents foresee a looming shortfall in the number of data scientists over the next five years. This aligns with other research, including a recent McKinsey Global Institute study that predicts a shortage of 190,000 data scientists by the year 2019iii. And when our respondents were asked where the best source for talent was, few looked to today’s business intelligence professional. Instead, nearly two-thirds looked Community Survey, 2011 for today’s 5    Drew Conway, 2010 •  •  •  •  •  •  •  Data Scientist:
  • 6. Рабочие инструменты •  Operating systems: •  Linux + shell tools •  Big data instruments: •  Hadoop (MapReduce) + hadoop tools •  Hive, Pig •  NoSQL (Hbase, MongoDB, Cassandra, Neo4J) •  Database: •  SQL •  Programming: •  Python •  Java •  Scala •  Machine Learning: •  R •  Matlab •  Python libraries (NumPy, SciPy, Nltk,…) •  Java libraries (Mahaut) . Высшая школа экономики, Москва, 2013 6  
  • 7. День из жизни Data Scientist Постановка   задачи   Получение   данных   Разбор   форматов,   организация   Исследование   данных   Высшая школа экономики, Москва, 2013 Очистка,   фильтрация   Построение   моделей   Визуализация   Обсуждение   результатов   7  
  • 8. Data Scientist  или Аналитик •  Data Scientist: •  Используют Hadoop, MapReduce, Hive, R •  Создают специализированные системы и инструменты •  Работают со структурированными и не структурированными данными •  Рабочие данные измеряются в TB, PB •  Опыт научной работы, экспертиза в статистке, машинном обучении, программировании •  Магистры и кандидаты наук (PhDs) •  Разрабатывают предсказательными модели •  Создают data products •  Analysts: •  Используют Excel, SQL •  Используют существующие инструменты и системы •  Работают с табличными данными •  Данные измеряются MB,GB •  Профессиональное образование, нет формального научного •  Бакалавры etc (BS, BA, MS, MBA) •  Работают тесно с BI и маркетингом •  Занимаются отчетами о показателях работы бизнеса Если Вы программируете, то скорее всего Вы - Data Scientist, если используете Excel, то - аналитик Высшая школа экономики, Москва, 2013 8  
  • 9. Опрос: роли и навыки Data Scientist From: “Analyzing the Analyzers” by Harlan Harris, Sean Murphy, and Marck Vaisman , O’Reilly Strata 2012 Высшая школа экономики, Москва, 2013 9  
  • 10. Data Science команда - ”the dream team” From: “Doing Data Science: Straight Talk from the Frontline”, Rachel Schutt, Cathy O'Neil, O'Reilly Media, 2013 Высшая школа экономики, Москва, 2013 10  
  • 11. Прикладные задачи •  Маркетинг: •  •  •  •  Сегментация рынка Моделирование приобретения и оттока клиентов Рекомендательные системы Анализ социальных медиа •  Финансовые и страховые компании: •  •  •  •  •  Предотвращение fraud Детектирование аномального поведения Анализ кредитных рисков Страховые моделирование Оптимизация портфолио •  Здравоохранение и Фармакология: •  Генетический анализ •  Анализ клинических испытаний •  Клинические системы принятия решений Высшая школа экономики, Москва, 2013 11  
  • 12. Дорога дальняя… •  •  •  •  •  •  •  •  •  •  Программирование Алгоритмы и структуры данных Базы данных Статистика Анализ данных Машинное обучение Компьютерная обработка текста Распределенные системы Инструменты Big Data Визуализация данных From: Swami Chandrasekaran,Executive Architect, IBM, Watson Solutions Высшая школа экономики, Москва, 2013 12  
  • 13. Подготовительные программы в индустрии TRAINING SHEET | 2 Course Outline: Cloudera Introduction to Data Science Introduction Data Analysis and Statistical Methods Experimentation and Evaluation Data Science Overview > Relationship Between Statistics and Probability > Measuring Recommender Effectiveness > Descriptive Statistics > Conducting an Effective Experiment > What Is Data Science? > The Growing Need for Data Science > The Role of a Data Scientist > Inferential Statistics Fundamentals of Machine Learning Use Cases > Overview > Finance > The Three Cs of Machine Learning > Retail > Spotlight: Naïve Bayes Classifiers > Advertising > Importance of Data and Algorithms > Defense and Intelligence > Telecommunications and Utilities > Healthcare and Pharmaceuticals Evaluating Input Data > Data Formats > Data Quantity > Data Quality Data Transformation > Tips and Techniques for Working at Scale > Summarizing and Visualizing Results > Considerations for Improvement Conclusion > Types of Collaborative Filtering > Fundamental Concepts > Acquisition Techniques > Deploying to Production > What Is a Recommender System? > Steps in the Project Lifecycle > Where to Source Data Production Deployment and Beyond > Next Steps for Recommenders > Limitations of Recommender Systems Data Acquisition > User Interfaces for Recommenders Recommender Overview Project Lifecycle > Lab Scenario Explanation > Designing Effective Experiments Introduction to Apache Mahout > What Apache Mahout Is (and Is Not) > A Brief History of Mahout > Availability and Installation Appendix A : Hadoop Overview Appendix B: Mathematical Formulas Appendix C : Language and Tool Reference > Demonstration: Using Mahout’s ItemBased Recommender Implementing Recommenders with Apache Mahout > Overview > Similarity Metrics for Binary Preferences > Anonymization > File Format Conversion TRAINING SHEET > Similarity Metrics for Numeric Preferences > Scoring > Joining Datasets Cloudera Introduction to Data Science: Cloudera Certified Professional: Data Building RecommenderScientist (CCP:DS) Systems Высшая школа экономики, Москва, 2013 13  
  • 14. Подготовительные программы в индустрии Высшая школа экономики, Москва, 2013 14  
  • 15. Образовательные программы Университетские программы: •  •  •  •  •  University of Washington: Certificate in Data Science UC Berkeley: Master of information and data science program New York University: Data Science at NYU Columbia University: Institute for Data Sciences and Engineering University of Southern California (UCS) : Master of Science in Data Science Онлайн курсы обучения (MOOC): •  Coursera •  edX •  Udacity Ускоренные образовательные программы (компании): •  Zipfian Academy (12 weeks intensive program) •  Insight Data Science Fellows program ( 6 weeks post doc training) Высшая школа экономики, Москва, 2013 15  
  • 16. Конференции Индустрийные конференции и выставки: •  •  •  •  O’Reilly Strata Conference Making Data Work Hadoop World Big Data Techcon Big Data Innovation summits Научные и академические конференции (peer reviewed): •  •  •  •  •  •  •  •  •  •  •  •  •  IEEE & ACM Supercomputing IEEE Big Data ACM KDD Knowledge Discovery and Data Mining ACM SIGIR Information Retrieval ICML International Conference on Machine Learning ICDM International Conference on Data Mining NIPS Neural Information Processing WWW World Wide Web Conference VLDB Very Large Data Bases ACM CIKM Information and Knowledge Management SIAM SDM International Conference on Data Mining IEEE ICDE Data Engineering IEEE Visualization Meetups («кружки по интересам») Высшая школа экономики, Москва, 2013 16  
  • 18. Открытые вопросы • Насколько важно быть экспертом в предметной области решаемой задачи (domain expertise) ? • Что более важно в профессии  Data Scientist : образование или практический опыт? • Перспективы профессии Data Scientist, будут ли она замещена программными решениями? Высшая школа экономики, Москва, 2013 18  
  • 19. ВШЭ Отделение Прикладной Математики и Информатики Курсы, читаемые на отделении: •  •  •  •  •  •  •  •  •  •  •  •  •  •  Программирование (Python, Java, Matlab) Архитектура компьютеров и системное программирование Распределенные системы Теория баз данных Дискретная математика Алгоритмы и структуры данных Статистическое моделирование и анализ Численные методы Прикладная теория графов Анализ и обработка данных Методы машинного обучения Автоматическая обработка текстов Компьютерная лингвистика Анализ социальных сетей •  Запускается Магистерская программа «Наука о Данных» Высшая школа экономики, Москва, 2013 19  
  • 20. 101000, Россия, Москва, Мясницкая ул., д. 20 Тел.: (495) 621-7983, факс: (495) 628-7931 www.hse.ru