SlideShare une entreprise Scribd logo
1  sur  29
Télécharger pour lire hors ligne
Spark	
  	
  	
  
Сегментация	
  пользователей	
  в	
  
он-­‐лайн	
  рекламе	
  	
  
	
  
Сергей	
  Жемжицкий,	
  CTO	
  CleverDATA	
  
для	
  Data	
  Science	
  Week	
  2015	
  	
  
DATA	
  MINING	
  
Company	
  Profile	
  
Сегментация	
  пользователей	
  
в	
  online-­‐рекламе	
  
Spark	
  vs	
  Hadoop	
  
Сергей	
  Жемжицкий,	
  	
  
CTO,	
  CleverDATA,	
  
28	
  августа,	
  2015	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
InternaPonal	
  market	
  
business	
  development	
  	
  
since	
  2012	
  	
  
One	
  of	
  three	
  leading	
  IT	
  companies	
  in	
  Russia	
  
43	
  branches	
  in	
  Russia	
  and	
  abroad	
  
+5500	
  employees	
  
100K	
  projects	
  for	
  10K	
  customers	
  
Data	
  management	
  innovaPve	
  
plaXorm	
  (Data	
  Exchange	
  Service)	
  
Cloud	
  Service	
  
In-­‐house	
  development	
  
Internet	
  adver[sing	
  soluPons	
  
Data	
  Management	
  Placorms	
  
Customers	
  Base	
  Management	
  	
  
Web	
  Analy[cs	
  
Marke[ng	
  automaPon	
  
Big	
  Data	
  
	
  	
  	
  	
  Data	
  Mining	
  
	
  	
  	
  	
  	
  	
  	
  	
  Digital	
  Intelligence	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Opera[onal	
  Intelligence	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Low	
  Latency	
  and	
  NoSQL	
  
	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  	
  Cloud	
  Compu[ng	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
Агенда	
  
•  Про	
  задачу;	
  
•  Hadoop	
  vs.	
  Spark;	
  
•  Особенности;	
  
•  Что	
  дальше.	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
publishers	
  
AD	
  NETWORK	
  
AD	
  NETWORK	
  
AD	
  NETWORK	
  
AD	
  NETWORK	
  
AD	
  NETWORK	
  
AD	
  NETWORK	
  
adver[sers	
  
D
S	
  
P	
  
S
S	
  
P	
  
Real	
  Time	
  Bidding	
  (RTB)	
  
TRACKING	
  DATA	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
publishers	
  
COOKIE	
  SYNCs	
  
ACCESS	
  LOGS	
  
PARTNER’S	
  DATA	
  
3rd	
  PARTY	
  DATA	
  
CLICK	
  STREAMS	
  
adver[sers	
  
S
S	
  
P	
  
D
S	
  
P	
  
DMP	
  
Data	
  Management	
  PlaXorm	
  (DMP)	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
3rd	
  party	
  
data	
  
Rela[onal	
  Data	
  Store	
  
raw	
  data	
  3rd	
  party	
  
data	
  
3rd	
  party	
  
data	
  
Raw	
  Data	
  Store	
  &	
  Processing	
  
RealTime	
  Data	
  Store	
  
user	
  profiles	
  aggregates	
  
Типовые	
  потоки	
  данных	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
Типовые	
  потоки	
  данных	
  ::	
  RTB	
  
3rd	
  party	
  
data	
  
Rela[onal	
  Data	
  Store	
  
RTB	
  
SRV	
  
Exchange	
  
SSP	
  
bid	
  req.	
  
bid	
  resp.	
  
pixels	
  ::	
  impressions	
  ::	
  clicks	
  
bid	
  requests	
  
user	
  profiles	
  
raw	
  data	
  3rd	
  party	
  
data	
  
3rd	
  party	
  
data	
  
Raw	
  Data	
  Store	
  &	
  Processing	
  
RealTime	
  Data	
  Store	
  
user	
  profiles	
  aggregates	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
1st-­‐party	
  data	
  
3rd	
  party	
  
data	
  
Rela[onal	
  Data	
  Store	
  
RTB	
  
SRV	
  
Exchange	
  
SSP	
  
bid	
  req.	
  
bid	
  resp.	
  
pixels	
  ::	
  impressions	
  ::	
  clicks	
  
bid	
  requests	
  
user	
  profiles	
  
raw	
  data	
  3rd	
  party	
  
data	
  
3rd	
  party	
  
data	
  
Raw	
  Data	
  Store	
  &	
  Processing	
  
RealTime	
  Data	
  Store	
  
user	
  profiles	
  aggregates	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
Задача	
  
Найти	
  всех	
  пользователей,	
  которые	
  
участвовали	
  в	
  рекламной	
  кампании	
  “Star	
  Wars”	
  [и]	
  
видели	
  один	
  из	
  баннеров	
  “Darth	
  Vader”	
  или	
  “Luke	
  Skywalker”	
  	
  
в	
  течении	
  последних	
  6	
  дней	
  [и]	
  
кликнули	
  на	
  этот	
  баннер	
  [и]	
  
посетили	
  страницу	
  покупки	
  светового	
  меча	
  Darth’а	
  Vader’а	
  [и]	
  
но	
  так	
  ничего	
  и	
  не	
  купили	
  
Для	
  того,	
  чтобы	
  
сделать	
  ретаргетинг	
  персонифицированным	
  баннером	
  со	
  
скидкой	
  на	
  меч	
  в	
  40%	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
find	
  all	
  users	
  who	
  have	
  
taken	
  part	
  in	
  campaign[s]	
  “Star	
  Wars”	
  [and]	
  
viewed	
  banner[s]	
  “Darth	
  Vader”	
  or	
  “Luke	
  Skywalker”	
  
during	
  [last]	
  6	
  day[s]	
  [and]	
  
clicked	
  banner[s]	
  “Darth	
  Vader's	
  lightsaber”	
  [and]	
  
visited	
  buying	
  area	
  of	
  “Darth	
  Vader's	
  lightsaber”	
  [and]	
  
not	
  visited	
  order	
  confirmed	
  area	
  of	
  “Darth	
  Vader's	
  lightsaber”	
  
Задача	
  
[impression]	
  
[click]	
  
[tr.	
  pixel]	
  
[tr.	
  pixel]	
  
id	
   cookie	
   event_id	
   event_type	
   campaign_id	
   [mestamp	
   …	
  
1	
   c1	
   “Darth	
  Vader”	
  	
   impression	
   “Star	
  Wars”	
  	
   2015-­‐04-­‐20	
  14:25:11.462	
   …	
  
2	
   c1	
   “Darth	
  Vader's	
  lightsaber”	
   click	
   “Star	
  Wars”	
  	
   2015-­‐04-­‐21	
  06:31:12.157	
   …	
  
3	
   c1	
   “Darth	
  Vader's	
  lightsaber”	
  	
   tr.	
  pixel	
   “Star	
  Wars”	
  	
   2015-­‐04-­‐22	
  18:57:19.628	
   …	
  
[cookies]	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
Задача	
  
reduce	
  
find	
  all	
  users	
  who	
  have	
  
taken	
  part	
  in	
  campaign[s]	
  “Star	
  Wars”	
  
viewed	
  banner[s]	
  “Darth	
  Vader”	
  or	
  “Luke	
  	
  
	
  	
  	
  	
  Skywalker”	
  during	
  [last]	
  6	
  day[s]	
  
clicked	
  banner[s]	
  “Darth	
  Vader's	
  lightsaber”	
  
visited	
  buying	
  area	
  of	
  “Darth	
  Vader's	
  	
  
	
  	
  	
  	
  lightsaber”	
  
not	
  visited	
  order	
  confirmed	
  area	
  of	
  “Darth	
  
	
  	
  	
  	
  Vader’s	
  lightsaber”	
  
(c1,	
  0)	
  
(c1,	
  1)	
  
(c1,	
  2)	
  
(c1,	
  3)	
  
Ø	
  
map	
  
(c1,	
  0;1;2;3)	
  
	
  	
  
true(0)	
  and	
  
true(1)	
  and	
  
true(2)	
  and	
  
true(3)	
  and	
  	
  	
  	
  	
  	
  	
  	
  
not	
  false(4)	
  
C1	
  
id	
   cookie	
   event_id	
   event_type	
   campaign_id	
   [mestamp	
   …	
  
1	
   c1	
   “Darth	
  Vader”	
  	
   impression	
   “Star	
  Wars”	
  	
   2015-­‐04-­‐20	
  14:25:11.462	
   …	
  
2	
   c1	
   “Darth	
  Vader's	
  lightsaber”	
   click	
   “Star	
  Wars”	
  	
   2015-­‐04-­‐21	
  06:31:12.157	
   …	
  
3	
   c1	
   “Darth	
  Vader's	
  lightsaber”	
  	
   tr.	
  pixel	
   “Star	
  Wars”	
  	
   2015-­‐04-­‐22	
  18:57:19.628	
   …	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
VS.	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
MR	
  vs	
  Spark	
  ::	
  Правда	
  жизни	
  
•  Стильно;	
  
•  Модно;	
  
•  Молодежно.	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
Spark	
  ::	
  Размер	
  имеет	
  значение	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
Перед	
  тем,	
  как	
  смотреть	
  на	
  Hadoop	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
Map-­‐Reduce	
  ::	
  Размер	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
Материалы	
  и	
  инструменты	
  
Hardware	
  (3	
  Nodes)	
  
•  12	
  Core	
  AMD	
  Opteron™	
  6338P	
  	
  
~	
  2.8	
  GHz	
  
•  64	
  GB	
  RAM	
  
•  1	
  GBPS	
  NICs	
  
	
  
So˜ware	
  
•  CDH	
  5.3.1	
  (Hadoop	
  2.5.0)	
  
•  Spark	
  1.2.0	
  
	
  
Data	
  
•  14.2	
  GB	
  of	
  raw	
  data	
  
•  61.1	
  M	
  of	
  transac[ons	
  
•  128	
  MB	
  block	
  size	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
MR	
  vs	
  Spark	
  ::	
  Время	
  выполнения	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
Spark	
  ::	
  Exec-­‐cores	
  vs	
  Num-­‐execs	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
MR	
  vs	
  Spark	
  ::	
  Инициализация	
  
MR	
  
	
  
ü  protected	
  void	
  setup(Context	
  ctx)	
  
ü  o.a.h.c.Configured	
  
ü  distributed	
  cache	
  
Spark	
  
	
  
ü  mapRegion	
  
ü  broadcast	
  vars	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
MR	
  vs	
  Spark	
  ::	
  Параллелизм	
  
MR	
  
	
  
ü  mapred.reduce.tasks	
  
ü  mapreduce.job.reduces	
  
ü  spliœable	
  formats	
  
Spark	
  
	
  
ü  spark.default.parallelism	
  
ü  num-­‐executors,	
  executor-­‐cores	
  in	
  
yarn	
  
ü  numTasks	
  в	
  groupByKey,	
  
reduceByKey,	
  aggregateByKey…	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
MR	
  vs	
  Spark	
  ::	
  Зависимости	
  
MR	
  
	
  
ü  o.a.h.u.Tool	
  	
  
ü  o.a.h.u.ToolRunner	
  
ü  -­‐conf	
  app.conf	
  
ü  -­‐files	
  	
  
ü  -­‐libjars	
  	
  
ü  setUserClassesTakesPrecedence	
  
Spark	
  
	
  
ü  -­‐-­‐jars	
  	
  
ü  -­‐-­‐files	
  	
  
ü  -­‐-­‐conf	
  	
  
ü  -­‐-­‐driver-­‐java-­‐op[ons	
  
ü  spark.driver.extraJavaOp[ons	
  
ü  spark.executor.extraJavaOp[ons	
  
ü  spark.driver.userClassPathFirst	
  
ü  spark.executor.userClassPathFirst	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
MR	
  vs	
  Spark	
  ::	
  Secondary	
  Sort	
  
MR	
  
	
  
ü  setSortComparatorClass	
  	
  
ü  setGroupingComparatorClass	
  
ü  setPar[[onerClass	
  
Spark	
  
	
  
ü  repar[[onAndSortWithinPar[[ons	
  
ü  mapPar[[ons	
  
ü  En[re	
  par[[on	
  processing	
  result	
  
must	
  be	
  able	
  to	
  fit	
  in	
  memory	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
MR	
  vs	
  Spark	
  ::	
  Статистика	
  
MR	
  
	
  
ü  Counters	
  
Spark	
  
	
  
ü  Accumulators	
  –	
  use	
  in	
  ac[ons	
  only	
  
	
  
Spark	
  гарантирует,	
  что	
  вызов	
  
accumulator-­‐а	
  примениться	
  
единожды	
  только	
  для	
  ac[on-­‐а,	
  
но	
  не	
  для	
  трансформаций	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
MR	
  vs	
  Spark	
  ::	
  Тестирование	
  
MR	
  
	
  
ü  MRUnit	
  
ü  o.a.h.h.MiniDFSCluster	
  
ü  o.a.h.m.MiniMRCluster	
  
ü  o.a.h.y.s.MiniYARNCluster	
  
ü  o.a.h.m.v2.MiniMRYarnCluster	
  
Spark	
  
	
  
ü  Local	
  executor	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
Что	
  дальше	
  и	
  почему	
  Spark?	
  
•  Spark	
  Streaming;	
  
•  Micro	
  Batches;	
  
•  λ-­‐архитектура.	
  
	
  
	
  
	
  
	
  
	
  
	
  
без	
  серьезного	
  хирургического	
  вмешательства	
  
cleverdata.ru	
  	
  |	
  	
  info@cleverdata.ru	
  
Спасибо	
  за	
  вопросы!	
  
info@cleverleaf.co.uk	
  	
   ::	
   info@cleverdata.ru	
  
cleverleaf.co.uk	
   ::	
   cleverdata.ru	
  
1dmp.io	
   ::	
   crawler.1dmp.io	
  
facebook.com/CleverData	
  	
   ::	
   +7	
  (495)	
  967-­‐66-­‐50	
  	
  

Contenu connexe

Tendances

CleverDATA_Spark_audience_segmentation_in_online_ad
CleverDATA_Spark_audience_segmentation_in_online_adCleverDATA_Spark_audience_segmentation_in_online_ad
CleverDATA_Spark_audience_segmentation_in_online_ad
CleverDATA
 
1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой брат1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой брат
antishmanti
 

Tendances (20)

Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
 
Customers segmentation_responce prediction
Customers segmentation_responce predictionCustomers segmentation_responce prediction
Customers segmentation_responce prediction
 
Oracle big data for finance
Oracle big data for financeOracle big data for finance
Oracle big data for finance
 
Roman styatugin clever_data_cxp_predictive marketing
Roman styatugin clever_data_cxp_predictive marketingRoman styatugin clever_data_cxp_predictive marketing
Roman styatugin clever_data_cxp_predictive marketing
 
HR_Scoring_CleverDATA
HR_Scoring_CleverDATAHR_Scoring_CleverDATA
HR_Scoring_CleverDATA
 
Clever d iab
Clever d  iabClever d  iab
Clever d iab
 
РИФ 2016, Data Monetization - Как зарабатывать на данных 2.0
РИФ 2016, Data Monetization - Как зарабатывать на данных 2.0РИФ 2016, Data Monetization - Как зарабатывать на данных 2.0
РИФ 2016, Data Monetization - Как зарабатывать на данных 2.0
 
CleverDATA_Spark_audience_segmentation_in_online_ad
CleverDATA_Spark_audience_segmentation_in_online_adCleverDATA_Spark_audience_segmentation_in_online_ad
CleverDATA_Spark_audience_segmentation_in_online_ad
 
Splunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми даннымиSplunk - универсальная платформа для работы с любыми данными
Splunk - универсальная платформа для работы с любыми данными
 
Big Data: Как принести пользу Бизнесу
Big Data: Как принести пользу БизнесуBig Data: Как принести пользу Бизнесу
Big Data: Как принести пользу Бизнесу
 
CleverDATA_1DMP.RU_ for_enterprise
CleverDATA_1DMP.RU_ for_enterpriseCleverDATA_1DMP.RU_ for_enterprise
CleverDATA_1DMP.RU_ for_enterprise
 
Big data как конкурентное преимущество в условиях кризиса
Big data как конкурентное преимущество в условиях кризисаBig data как конкурентное преимущество в условиях кризиса
Big data как конкурентное преимущество в условиях кризиса
 
Больше DMP, хороших и разных
Больше DMP, хороших и разныхБольше DMP, хороших и разных
Больше DMP, хороших и разных
 
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальностьBig Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
Big Data в маркетинге. Просто о непонятном: задачи, возможности, реальность
 
Применение Big Data в маркетинге
Применение Big Data в маркетингеПрименение Big Data в маркетинге
Применение Big Data в маркетинге
 
Big Data: О чем думают ваши клиенты?
Big Data: О чем думают ваши клиенты?Big Data: О чем думают ваши клиенты?
Big Data: О чем думают ваши клиенты?
 
Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии Одна лекция из мира Big Data: тренды, кейсы и технологии
Одна лекция из мира Big Data: тренды, кейсы и технологии
 
Den Reymer Resilience_2014
Den Reymer Resilience_2014Den Reymer Resilience_2014
Den Reymer Resilience_2014
 
1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой брат1 алексей натекин глубокая социальная аналиктика маленький большой брат
1 алексей натекин глубокая социальная аналиктика маленький большой брат
 
Konstantin Obukhov - Customer Experience Technologies
Konstantin Obukhov - Customer Experience TechnologiesKonstantin Obukhov - Customer Experience Technologies
Konstantin Obukhov - Customer Experience Technologies
 

Similaire à Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation

Netpeak Talks #8 Запуск и ведение PPC проектов в СНГ и на Западе.
Netpeak Talks #8 Запуск и ведение PPC проектов в СНГ и на Западе.Netpeak Talks #8 Запуск и ведение PPC проектов в СНГ и на Западе.
Netpeak Talks #8 Запуск и ведение PPC проектов в СНГ и на Западе.
Образовательные мероприятия "Netpeak Talks"
 
Life cloud чарухин
Life cloud чарухинLife cloud чарухин
Life cloud чарухин
startuppoint
 
Project presentation
Project presentationProject presentation
Project presentation
Roman Rezaev
 
Электронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark ScalaЭлектронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark Scala
Roman Zykov
 

Similaire à Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation (20)

SOLD OUT легко: RTB и таргетинг
SOLD OUT легко: RTB и таргетингSOLD OUT легко: RTB и таргетинг
SOLD OUT легко: RTB и таргетинг
 
Анализ и визуализация данных на базе платформы Microsoft bi
Анализ и визуализация данных на базе платформы Microsoft biАнализ и визуализация данных на базе платформы Microsoft bi
Анализ и визуализация данных на базе платформы Microsoft bi
 
Аналитика над петабайтами в реальном времени
Аналитика над петабайтами в реальном времениАналитика над петабайтами в реальном времени
Аналитика над петабайтами в реальном времени
 
Аналитика над петабайтами в реальном времени
Аналитика над петабайтами в реальном времениАналитика над петабайтами в реальном времени
Аналитика над петабайтами в реальном времени
 
Перезентация с доклада на конференции MarketingOne2014
Перезентация с доклада на конференции MarketingOne2014Перезентация с доклада на конференции MarketingOne2014
Перезентация с доклада на конференции MarketingOne2014
 
Prezent кмр
Prezent кмрPrezent кмр
Prezent кмр
 
Start upshow 3dinn
Start upshow 3dinnStart upshow 3dinn
Start upshow 3dinn
 
презентация Clever data конференция splunk октябрь 2016 v2
презентация Clever data конференция splunk октябрь 2016 v2презентация Clever data конференция splunk октябрь 2016 v2
презентация Clever data конференция splunk октябрь 2016 v2
 
TM Forum and Big Data
TM Forum and Big DataTM Forum and Big Data
TM Forum and Big Data
 
Netpeak Talks #8 Запуск и ведение PPC проектов в СНГ и на Западе.
Netpeak Talks #8 Запуск и ведение PPC проектов в СНГ и на Западе.Netpeak Talks #8 Запуск и ведение PPC проектов в СНГ и на Западе.
Netpeak Talks #8 Запуск и ведение PPC проектов в СНГ и на Западе.
 
Intens
IntensIntens
Intens
 
Graal, Truffle, SubstrateVM and other perks: what are those and why do you ne...
Graal, Truffle, SubstrateVM and other perks: what are those and why do you ne...Graal, Truffle, SubstrateVM and other perks: what are those and why do you ne...
Graal, Truffle, SubstrateVM and other perks: what are those and why do you ne...
 
Life cloud
Life cloud Life cloud
Life cloud
 
Life cloud чарухин
Life cloud чарухинLife cloud чарухин
Life cloud чарухин
 
Digital Marketing в автосалоне
Digital Marketing в автосалонеDigital Marketing в автосалоне
Digital Marketing в автосалоне
 
Project presentation
Project presentationProject presentation
Project presentation
 
Как получать клиентов для b2b из рекламной сети?
Как получать клиентов для b2b из рекламной сети?Как получать клиентов для b2b из рекламной сети?
Как получать клиентов для b2b из рекламной сети?
 
Squadder
SquadderSquadder
Squadder
 
Электронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark ScalaЭлектронная коммерция: от Hadoop к Spark Scala
Электронная коммерция: от Hadoop к Spark Scala
 
Cpa ex узкийкруг_cpa_06042017
Cpa ex узкийкруг_cpa_06042017Cpa ex узкийкруг_cpa_06042017
Cpa ex узкийкруг_cpa_06042017
 

Plus de CleverDATA

Plus de CleverDATA (16)

CRM onboarding - оффлайн данные для онлайн рекламы
CRM onboarding - оффлайн данные для онлайн рекламы CRM onboarding - оффлайн данные для онлайн рекламы
CRM onboarding - оффлайн данные для онлайн рекламы
 
Jpoint 2017 - как это было (обзор конференции)
Jpoint 2017 - как это было (обзор конференции)Jpoint 2017 - как это было (обзор конференции)
Jpoint 2017 - как это было (обзор конференции)
 
Data exchange как ключевой элемент экосистемы обмена данными
Data exchange как ключевой элемент экосистемы обмена даннымиData exchange как ключевой элемент экосистемы обмена данными
Data exchange как ключевой элемент экосистемы обмена данными
 
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...
Text mining of Beauty Blogs: о чем говорят женщины? (Артем Просветов, data sc...
 
Splunk for IT Operations and IT Service Intelligence
Splunk for IT Operations and IT Service IntelligenceSplunk for IT Operations and IT Service Intelligence
Splunk for IT Operations and IT Service Intelligence
 
CleverDATA_Afanasev_DigitalEconomy
CleverDATA_Afanasev_DigitalEconomyCleverDATA_Afanasev_DigitalEconomy
CleverDATA_Afanasev_DigitalEconomy
 
CleverDATA for Hadoop_Meetup_22052015_Spark_vs_Hadoop
CleverDATA for Hadoop_Meetup_22052015_Spark_vs_HadoopCleverDATA for Hadoop_Meetup_22052015_Spark_vs_Hadoop
CleverDATA for Hadoop_Meetup_22052015_Spark_vs_Hadoop
 
Julia Tuzin teradata omnichannel_interactions
Julia Tuzin teradata omnichannel_interactionsJulia Tuzin teradata omnichannel_interactions
Julia Tuzin teradata omnichannel_interactions
 
Karel jabornik teradata real-time-interaction_mngmt
Karel jabornik teradata real-time-interaction_mngmtKarel jabornik teradata real-time-interaction_mngmt
Karel jabornik teradata real-time-interaction_mngmt
 
Customer experience profile&PredictiveMarketing_R.Styatugin_31032015
Customer experience profile&PredictiveMarketing_R.Styatugin_31032015Customer experience profile&PredictiveMarketing_R.Styatugin_31032015
Customer experience profile&PredictiveMarketing_R.Styatugin_31032015
 
CleverCLUB-26.03.15-K.Obukhov
CleverCLUB-26.03.15-K.ObukhovCleverCLUB-26.03.15-K.Obukhov
CleverCLUB-26.03.15-K.Obukhov
 
CleverCLUB-26.03.15-G.Kanevsky
CleverCLUB-26.03.15-G.KanevskyCleverCLUB-26.03.15-G.Kanevsky
CleverCLUB-26.03.15-G.Kanevsky
 
Predictive models for Operational analytics
Predictive models for Operational analyticsPredictive models for Operational analytics
Predictive models for Operational analytics
 
Digital Marketing Analytics on Splunk platform
Digital Marketing Analytics on Splunk platformDigital Marketing Analytics on Splunk platform
Digital Marketing Analytics on Splunk platform
 
10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis 10 Critical Mistakes in Data Analysis
10 Critical Mistakes in Data Analysis
 
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...
Big Data for Customer centric organisation - CleverDATA for Oracle CIO Club M...
 

Clever data datascienceweek_spark_vs_hadoop_in_online_audience_segmentation

  • 1. Spark       Сегментация  пользователей  в   он-­‐лайн  рекламе       Сергей  Жемжицкий,  CTO  CleverDATA   для  Data  Science  Week  2015     DATA  MINING  
  • 2. Company  Profile   Сегментация  пользователей   в  online-­‐рекламе   Spark  vs  Hadoop   Сергей  Жемжицкий,     CTO,  CleverDATA,   28  августа,  2015  
  • 3. cleverdata.ru    |    info@cleverdata.ru   InternaPonal  market   business  development     since  2012     One  of  three  leading  IT  companies  in  Russia   43  branches  in  Russia  and  abroad   +5500  employees   100K  projects  for  10K  customers   Data  management  innovaPve   plaXorm  (Data  Exchange  Service)   Cloud  Service   In-­‐house  development   Internet  adver[sing  soluPons   Data  Management  Placorms   Customers  Base  Management     Web  Analy[cs   Marke[ng  automaPon   Big  Data          Data  Mining                  Digital  Intelligence                        Opera[onal  Intelligence                                      Low  Latency  and  NoSQL                                                  Cloud  Compu[ng  
  • 4. cleverdata.ru    |    info@cleverdata.ru   Агенда   •  Про  задачу;   •  Hadoop  vs.  Spark;   •  Особенности;   •  Что  дальше.  
  • 5. cleverdata.ru    |    info@cleverdata.ru   publishers   AD  NETWORK   AD  NETWORK   AD  NETWORK   AD  NETWORK   AD  NETWORK   AD  NETWORK   adver[sers   D S   P   S S   P   Real  Time  Bidding  (RTB)  
  • 6. TRACKING  DATA   cleverdata.ru    |    info@cleverdata.ru   publishers   COOKIE  SYNCs   ACCESS  LOGS   PARTNER’S  DATA   3rd  PARTY  DATA   CLICK  STREAMS   adver[sers   S S   P   D S   P   DMP   Data  Management  PlaXorm  (DMP)  
  • 7. cleverdata.ru    |    info@cleverdata.ru   3rd  party   data   Rela[onal  Data  Store   raw  data  3rd  party   data   3rd  party   data   Raw  Data  Store  &  Processing   RealTime  Data  Store   user  profiles  aggregates   Типовые  потоки  данных  
  • 8. cleverdata.ru    |    info@cleverdata.ru   Типовые  потоки  данных  ::  RTB   3rd  party   data   Rela[onal  Data  Store   RTB   SRV   Exchange   SSP   bid  req.   bid  resp.   pixels  ::  impressions  ::  clicks   bid  requests   user  profiles   raw  data  3rd  party   data   3rd  party   data   Raw  Data  Store  &  Processing   RealTime  Data  Store   user  profiles  aggregates  
  • 9. cleverdata.ru    |    info@cleverdata.ru   1st-­‐party  data   3rd  party   data   Rela[onal  Data  Store   RTB   SRV   Exchange   SSP   bid  req.   bid  resp.   pixels  ::  impressions  ::  clicks   bid  requests   user  profiles   raw  data  3rd  party   data   3rd  party   data   Raw  Data  Store  &  Processing   RealTime  Data  Store   user  profiles  aggregates  
  • 10. cleverdata.ru    |    info@cleverdata.ru   Задача   Найти  всех  пользователей,  которые   участвовали  в  рекламной  кампании  “Star  Wars”  [и]   видели  один  из  баннеров  “Darth  Vader”  или  “Luke  Skywalker”     в  течении  последних  6  дней  [и]   кликнули  на  этот  баннер  [и]   посетили  страницу  покупки  светового  меча  Darth’а  Vader’а  [и]   но  так  ничего  и  не  купили   Для  того,  чтобы   сделать  ретаргетинг  персонифицированным  баннером  со   скидкой  на  меч  в  40%  
  • 11. cleverdata.ru    |    info@cleverdata.ru   find  all  users  who  have   taken  part  in  campaign[s]  “Star  Wars”  [and]   viewed  banner[s]  “Darth  Vader”  or  “Luke  Skywalker”   during  [last]  6  day[s]  [and]   clicked  banner[s]  “Darth  Vader's  lightsaber”  [and]   visited  buying  area  of  “Darth  Vader's  lightsaber”  [and]   not  visited  order  confirmed  area  of  “Darth  Vader's  lightsaber”   Задача   [impression]   [click]   [tr.  pixel]   [tr.  pixel]   id   cookie   event_id   event_type   campaign_id   [mestamp   …   1   c1   “Darth  Vader”     impression   “Star  Wars”     2015-­‐04-­‐20  14:25:11.462   …   2   c1   “Darth  Vader's  lightsaber”   click   “Star  Wars”     2015-­‐04-­‐21  06:31:12.157   …   3   c1   “Darth  Vader's  lightsaber”     tr.  pixel   “Star  Wars”     2015-­‐04-­‐22  18:57:19.628   …   [cookies]  
  • 12. cleverdata.ru    |    info@cleverdata.ru   Задача   reduce   find  all  users  who  have   taken  part  in  campaign[s]  “Star  Wars”   viewed  banner[s]  “Darth  Vader”  or  “Luke            Skywalker”  during  [last]  6  day[s]   clicked  banner[s]  “Darth  Vader's  lightsaber”   visited  buying  area  of  “Darth  Vader's            lightsaber”   not  visited  order  confirmed  area  of  “Darth          Vader’s  lightsaber”   (c1,  0)   (c1,  1)   (c1,  2)   (c1,  3)   Ø   map   (c1,  0;1;2;3)       true(0)  and   true(1)  and   true(2)  and   true(3)  and                 not  false(4)   C1   id   cookie   event_id   event_type   campaign_id   [mestamp   …   1   c1   “Darth  Vader”     impression   “Star  Wars”     2015-­‐04-­‐20  14:25:11.462   …   2   c1   “Darth  Vader's  lightsaber”   click   “Star  Wars”     2015-­‐04-­‐21  06:31:12.157   …   3   c1   “Darth  Vader's  lightsaber”     tr.  pixel   “Star  Wars”     2015-­‐04-­‐22  18:57:19.628   …  
  • 13. cleverdata.ru    |    info@cleverdata.ru   VS.  
  • 14. cleverdata.ru    |    info@cleverdata.ru   MR  vs  Spark  ::  Правда  жизни   •  Стильно;   •  Модно;   •  Молодежно.  
  • 15. cleverdata.ru    |    info@cleverdata.ru   Spark  ::  Размер  имеет  значение  
  • 16. cleverdata.ru    |    info@cleverdata.ru   Перед  тем,  как  смотреть  на  Hadoop  
  • 17. cleverdata.ru    |    info@cleverdata.ru   Map-­‐Reduce  ::  Размер  
  • 18. cleverdata.ru    |    info@cleverdata.ru   Материалы  и  инструменты   Hardware  (3  Nodes)   •  12  Core  AMD  Opteron™  6338P     ~  2.8  GHz   •  64  GB  RAM   •  1  GBPS  NICs     So˜ware   •  CDH  5.3.1  (Hadoop  2.5.0)   •  Spark  1.2.0     Data   •  14.2  GB  of  raw  data   •  61.1  M  of  transac[ons   •  128  MB  block  size  
  • 19. cleverdata.ru    |    info@cleverdata.ru   MR  vs  Spark  ::  Время  выполнения  
  • 20. cleverdata.ru    |    info@cleverdata.ru   Spark  ::  Exec-­‐cores  vs  Num-­‐execs  
  • 21. cleverdata.ru    |    info@cleverdata.ru   MR  vs  Spark  ::  Инициализация   MR     ü  protected  void  setup(Context  ctx)   ü  o.a.h.c.Configured   ü  distributed  cache   Spark     ü  mapRegion   ü  broadcast  vars  
  • 22. cleverdata.ru    |    info@cleverdata.ru   MR  vs  Spark  ::  Параллелизм   MR     ü  mapred.reduce.tasks   ü  mapreduce.job.reduces   ü  spliœable  formats   Spark     ü  spark.default.parallelism   ü  num-­‐executors,  executor-­‐cores  in   yarn   ü  numTasks  в  groupByKey,   reduceByKey,  aggregateByKey…  
  • 23. cleverdata.ru    |    info@cleverdata.ru   MR  vs  Spark  ::  Зависимости   MR     ü  o.a.h.u.Tool     ü  o.a.h.u.ToolRunner   ü  -­‐conf  app.conf   ü  -­‐files     ü  -­‐libjars     ü  setUserClassesTakesPrecedence   Spark     ü  -­‐-­‐jars     ü  -­‐-­‐files     ü  -­‐-­‐conf     ü  -­‐-­‐driver-­‐java-­‐op[ons   ü  spark.driver.extraJavaOp[ons   ü  spark.executor.extraJavaOp[ons   ü  spark.driver.userClassPathFirst   ü  spark.executor.userClassPathFirst  
  • 24. cleverdata.ru    |    info@cleverdata.ru   MR  vs  Spark  ::  Secondary  Sort   MR     ü  setSortComparatorClass     ü  setGroupingComparatorClass   ü  setPar[[onerClass   Spark     ü  repar[[onAndSortWithinPar[[ons   ü  mapPar[[ons   ü  En[re  par[[on  processing  result   must  be  able  to  fit  in  memory  
  • 25. cleverdata.ru    |    info@cleverdata.ru   MR  vs  Spark  ::  Статистика   MR     ü  Counters   Spark     ü  Accumulators  –  use  in  ac[ons  only     Spark  гарантирует,  что  вызов   accumulator-­‐а  примениться   единожды  только  для  ac[on-­‐а,   но  не  для  трансформаций  
  • 26. cleverdata.ru    |    info@cleverdata.ru   MR  vs  Spark  ::  Тестирование   MR     ü  MRUnit   ü  o.a.h.h.MiniDFSCluster   ü  o.a.h.m.MiniMRCluster   ü  o.a.h.y.s.MiniYARNCluster   ü  o.a.h.m.v2.MiniMRYarnCluster   Spark     ü  Local  executor  
  • 27. cleverdata.ru    |    info@cleverdata.ru   Что  дальше  и  почему  Spark?   •  Spark  Streaming;   •  Micro  Batches;   •  λ-­‐архитектура.               без  серьезного  хирургического  вмешательства  
  • 28. cleverdata.ru    |    info@cleverdata.ru   Спасибо  за  вопросы!  
  • 29. info@cleverleaf.co.uk     ::   info@cleverdata.ru   cleverleaf.co.uk   ::   cleverdata.ru   1dmp.io   ::   crawler.1dmp.io   facebook.com/CleverData     ::   +7  (495)  967-­‐66-­‐50