Доклад посвящен экосистеме Cortana Analytics Suite, в т.ч. сервису предиктивной аналитики Azure Machine Learning. В demo-части доклада разбирается задача анализа тональности сообщений в социальных сетях.
Видео выступления и пояснения к demo-доклада доступно на http://0xcode.in/dev-camp
2. Azure ML for Developers: Machine Learning in our Life
Web
Social
Networks
Science
Healthcare
Finance
Telecom
Retail
Logistic
Security
Electronics
Proof: https://www.kaggle.com/wiki/DataScienceUseCases
4. Azure ML for Developers: Cortana Analytics Stack
DATA
Business
apps
Custom
apps
Sensors
and devices
INTELLIGENCE CONSUMERS
People
Automated
Systems
Source: Microsoft Ignite 2015
5. Azure ML for Developers: Machine Learning Use Cases in Banking
Financial Markets & etc. Retail Banking Insurance
Real-time Batch processingDuration
Market
Assets Price
Prediction
Social
Network
Analysis
Fraud
Detection
Risk Analysis
Compliance &
Regulatory
Reporting
Advertising
Campaign
Optimization
News
Analysis
Customer
Loyalty &
Marketing
Improving
operational
efficiencies
Credit
Scoring
Brand
Sentiment
Analysis
Personalized
Product
Offering
Customer
Segmentation
Reference: http://0xcode.in/big-data-in-banking
6. Azure ML for Developers: Machine Learning Use Cases in Banking
Financial Markets & etc. Retail Banking Insurance
Real-time Batch processingDuration
Market
Assets Price
Prediction
Social
Network
Analysis
Fraud
Detection
Risk Analysis
Compliance &
Regulatory
Reporting
Advertising
Campaign
Optimization
News
Analysis
Customer
Loyalty &
Marketing
Improving
operational
efficiencies
Credit
Scoring
Brand
Sentiment
Analysis
Personalized
Product
Offering
Customer
Segmentation
Reference: http://0xcode.in/big-data-in-banking
СМС атаки на клиентов банков
Закрыто депозитов / текущих счетов
на сумму:
Сентябрь 2015 -5 млрд. руб.
Декабрь 2014 -1,3 трлн. руб.
7. Data Azure Machine Learning Consumers
Cloud storage
RDBMS
NoSQL
HDFS
Azure Blobs
Business problem Modeling Business valueDeployment
Azure Marketplace
Data services store
Cortana Analytics
Gallery
community
ML Web Services
REST API Services
ML Studio
Web IDE
Workspace
Experiments
Datasets
Trained models
Notebooks
Access settings
Data Model API
Manage
Azure ML for Developers: Azure Machine Learning Architecture
Local storage
Upload data from PC…
API
Reference: Microsoft Ignite 2015
8. Azure ML for Developers: Twitter Semantic Analysis Architecture
InternetTwitter
New Tweets Processing
Azure Worker Roles
Azure
Semantic Prediction
Azure Machine Learning
h(θ0, θn)
Semantic prediction API
Azure ML Web ServicesREST API
JSON
Final Model
REST API
JSON
h(θ0, θn)
Text Analysis Service
Azure Marketplace
Store results in HBase
Azure HDInsight
Stream
New Tweet Events
Azure Event Hubs
POST, https
1
2
3
4
5
6
9. What we do?
TD-IDF, short for term frequency–inverse document frequency, is a numerical
statistic that is intended to reflect how important a word is to a document in a
collection or corpus.
Source: Wikipedia
Azure ML for Developers: Twitter sentiment analysis
What we find?
Bank of America
City Bank
#DevCampDemo
10. Microsoft Azure
Feb. 2015: Azure Machine Learning (GA)
Amazon Web Services
Apr. 2015: Amazon Machine Learning (GA)
Google Cloud Platform
Oct. 2015: Google Cloud Datalab (beta)
Cloud ComputingBig Data
Machine Learning
Machine Learning as a Service
SLA >99.9%
Big Data ready
Probably LSML
Azure ML for Developers: Machine Learning as a Service
11. Restrictions
Legislative restrictions
International & local
Azure platform restrictions
Max storage volume per account, etc.
Azure ML service restrictions
Data
Max dataset volume: 10 Gb
Vector size limitation: 2^64
Throttled policy
200 concurrent request per endpoint
Max endpoints count: 10K
Black box
No debug
No Scala, or C++, or C#
No your own “right” algorithms
No Deep Learning
Azure ML for Developers: Restrictions
12. R (quickstart)
Support R models & scripts
Python (quickstart)
Support Python scripts
Jupyter Notebooks in Azure ML Studio
Publishing
REST API & real-time mode vs batch-mode
Cortana Analytics Gallery
Share for community
Azure Marketplace
SaaS store
In-the-box integration with…
Hive, Azure Storage, Excel, Cortana Analytics Stack
Free Start & it’s child age
Azure ML for Developers: Killer Features
13. Start for free from azure.com/ml
Read Microsoft Machine Learning Blog
Examine Azure ML documentation +free books
Take free MOOCs on MVA and EdX
Communicate on Microsoft Azure Russia group
Make the world better place with Azure for Researchers Award program
Azure ML for Developers: References
15. Q&A
Now or later (send on email)
Ping me
Habr: @codezombie
LinkedIn: @dpetukhov
Facebook: @code.zombi
Read my tech code instinct blog (on http://0xCode.in/)
Download presentation from
http://0xcode.in/dev-camp or
Azure ML for Developers: Stay Connected!
Notes de l'éditeur
Анализ тональности текста (sentiment analysis) – приложение методов обработки естественного языка (natural language processing, NLP), в частности, классификации, целью которой является извлечение из текста эмоционального содержания.
TD-IDF - статистическая мера, используемая для оценки важности слова в контексте документа, являющегося частью коллекции документов или корпуса. Вес некоторого слова пропорционален количеству употребления этого слова в документе, и обратно пропорционален частоте употребления слова в других документах коллекции.
TD - отношение числа вхождения некоторого слова к общему количеству слов документа. N - число вхождений слова в документ, а в знаменателе — общее число слов в данном документе. Таким образом, оценивается важность слова t в отдельном документе d
B длинных документах среднее количество словоупотреблений будет выше, чем в коротких, даже если они посвящены одной теме.
IDF - инверсия частоты, с которой некоторое слово встречается в документах коллекции. IDF уменьшает вес широкоупотребительных слов. Для каждого уникального слова в пределах конкретной коллекции документов существует только одно значение IDF.
|D| — количество документов в корпусе;
Di x ti — количество документов, в которых встречается ti