Ce diaporama a bien été signalé.
Nous utilisons votre profil LinkedIn et vos données d’activité pour vous proposer des publicités personnalisées et pertinentes. Vous pouvez changer vos préférences de publicités à tout moment.

BIG DATA: your personal information that everyone needs

Lecture by Alexander Ryjov (Uchi.ru)

  • Soyez le premier à commenter

BIG DATA: your personal information that everyone needs

  1. 1. Аналитика больших данных: примеры использования 
 и перспективы развития Профессор Рыжов А.П. МГУ им. М.В. Ломоносова, РАНХиГС 
 при Президенте РФ, Учи.ру
  2. 2. Не хочется быть…
  3. 3. Не хочется быть…
  4. 4. Как рассказывать 
 о больших данных?
  5. 5. Рэймонд Курцвейл (Технический директор в области машинного обучения 
 и обработки естественного языка Google)
 • В 1970-е году придумал технологию преобразования текста в речь, которая помогла слабовидящим людям. Она же принесла ему первые большие деньги и обширные связи; • В 1980-е годы занялся синтезаторами и основал компанию Kurzweil Music Systems, которая производила синтезаторы и во многом определила стиль 1980-х годов в музыке. Инструментами пользовались Depeche Mode, Duran Duran и другие культовые музыканты Новой волны. • 2012 - технический директор Google. Книги: «Век разумных машин» (The Age of Intelligent Machines) и «Сингулярность уже близко» (Singularity is Near), «Как создать разум» (How to Create a Mind: The Secret of Human Thought Revealed).
  6. 6. м Где происходят самые большие изменения?
  7. 7. Alexander Ryjov. Towards an optimal task- driven information granulation. In: Information Granularity, Big Data, and Computational Intelligence. Witold Pedrycz and Shyi-Ming Chen (Eds.). Springer International Publishing Switzerland 2015 Big data: The next frontier for innovation, competition, and productivity By James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers Nature 455, 1. doi:10.1038/455001a; Published online 3 September 2008 Clifford Lynch, editor Big Data — новый термин из академической среды 2008 2011 2015
  8. 8. Хранение данных Глобальное хранение данных 
 (эксабайт/год) 0 75 150 225 300 1986 1993 2000 2007 exobyte=10 байт18
  9. 9. Глобальная мощность компьютера 0 1,75 3,5 5,25 7 1986 1993 2000 2007 операций в секунду
  10. 10. vi Big data—a growing torrent pieces of content shared on Facebook every month30 billion projected growth in global data generated per year vs. 40% growth in global IT spending 5% terabytes data collected by the US Library of Congress by April 2011 235 sectors in the United States have more data stored per company than the US Library of Congress 15 out of 17 to buy a disk drive that can store all of the world’s music$600 mobile phones in use in 20105 billion viiBig data: The next frontier for innovation, competition, and productivity Big data—capturing its value potential increase in retailers’ operating margins possible with big data 60% more deep analytical talent positions, and 140,000–190,000 more data-savvy managers needed to take full advantage of big data in the United States 1.5 million potential annual value to US health care—more than double the total annual health care spending in Spain $300 billion potential annual consumer surplus from using personal location data globally $600 billion potential annual value to Europe’s public sector administration—more than GDP of Greece €250 billion Большие данные — большие перспективы McKinsey Global Institute, 2011 Big data: The frontier for innovation, competetion, and productivity
  11. 11. Где есть данные? 
 В каких областях экономики есть потенциал? Exhibit 3 A heat map shows the relative ease of capturing the value potential across sectors Overall ease of capture index1 Talent IT intensity Data-driven mind-set Data availability Cate- gories Sectors SOURCE: McKinsey Global Institute analysis 1 See appendix for detailed definitions and metrics used for each of the criteria. Top quintile (easiest to capture) 2nd quintile 3rd quintile 4th quintile Bottom quintile (most difficult) to capture) No data available Manufacturing Construction Natural resources Computer and electronic products Real estate, rental, and leasing Wholesale trade Information Transportation and warehousing Retail trade Administrative, support, waste management, and remediation services Accommodation and food services Other services (except public administration) Arts, entertainment, and recreation Finance and Insurance Professional, scientific, and technical services Management of companies and enterprises Government Educational services Health care and social assistance Utilities GoodsServices Regulated andpublic Exhibit 3 A heat map shows the relative ease of capturing the value potential across sectors Overall ease of capture index1 Talent IT intensity Data-driven mind-set Data availability Cate- gories Sectors SOURCE: McKinsey Global Institute analysis 1 See appendix for detailed definitions and metrics used for each of the criteria. Top quintile (easiest to capture) 2nd quintile 3rd quintile 4th quintile Bottom quintile (most difficult) to capture) No data available Manufacturing Construction Natural resources Computer and electronic products Real estate, rental, and leasing Wholesale trade Information Transportation and warehousing Retail trade Administrative, support, waste management, and remediation services Accommodation and food services Other services (except public administration) Arts, entertainment, and recreation Finance and Insurance Professional, scientific, and technical services Management of companies and enterprises Government Educational services Health care and social assistance Utilities GoodsServices Regulated andpublic 6. THERE WILL BE A SHORTAGE OF TALENT NECESSARY FOR ORGANIZATIONS TO TAKE ADVANTAGE OF BIG DATA A significant constraint on realizing value from big data will be a shortage of talent, particularly of people with deep expertise in statistics and machine learning, and the managers and analysts who know how to operate companies by using insights from big data. In the United States, we expect big data to rapidly become a key determinant of competition across sectors. But we project that demand for deep analytical positions in a big data world could exceed the supply being produced on current trends by 140,000 to 190,000 positions (Exhibit 4). Furthermore, this type of talent is difficult to produce, taking years of training in the case of someone with intrinsic mathematical abilities. Although our quantitative analysis uses the United States as illustration, we believe that the constraint on this type of talent will be global, with the caveat that some regions may be able to produce the supply that can fill talent gaps in other regions.
  12. 12. Наука Промышленность Люди Какие данные нам интересны?
  13. 13. Пример №1 HR: Кто дольше проработает в компании?
  14. 14. Анализ резюме Решение Исходные данные: 
 текстовая база резюме. Технология: 
 Data mining. Результат: 
 интерактивный отчет 
 в Excel Задача Кто из сотрудников лоялен, а кто нет? Кто растет, а кто стоит на месте? Быстрый отбор кандидатов на должность. Слабое звено: Женщины из отдела 
 продаж или маркетинга, владеющие французским языком.
  15. 15. Пример использования больших данных в HR Люди отправляют резюме через сайт компании Резюме автоматически анализируются с помощью «фильтра»… … и отбираются в соответствии 
 с критериями компании
  16. 16. Как обрабатывать данные, чтобы получать знания?
  17. 17. Данные - Информация - Знания
  18. 18. 1950-е 1960/70-е 1980-е 2000-е Алан Тьюринг (Alan Turing) предложил тест для определения «может ли машина мыслить» (тест Тьюринга). В поздние 50-е многие исследователи изучали и разрабатывали системы, моделирующие человеческие способности такие как распознавание образов, генерация речи, машинный перевод, логические рассуждения (например, игра в шахматы, GPS). История искусственного интеллекта Расцвет экспертных систем (Expert Systems), извлечения знаний из данных (KDD - Knowledge Discovery in Databases). Японский проект создания ЭВМ пятого поколения, стратегическая компьютерная инициатива (СКИ) США. Прекращение финансирования со стороны венчурных фондов и грантообразующих организаций (но не DARPA). Только одна реальная экспертная система – MYCIN (разработка Стэнфорда, ранние 70-е, 6 лет). Много «экспертных систем» - компьютерных реализаций инструкций. Первые публикации ученых и предпринимателей о целесообразности использования искусственного интеллекта в бизнесе. Лозунг: «Робот на каждой кухне!» Andrew Ng, a Stanford computer scientist and a leader of the project, called Stanford Artificial Intelligence Robot, or Stair: “It’s time to build an A.I. robot. The dream is to put a robot in every home.” Brainy Robots Start Stepping Into Daily Life, 2006
  19. 19. 2015: Google открывает свои инструменты глубокого обучения
  20. 20. 2015: Facebook, IBM и другие гиганты также выкладывают ИИ в открытый доступ 2016: Facebook использует для таргетинга рекламы список параметров из 98 пунктов
  21. 21. 2016: Лидерами индустрии создается лаборатория OpenAI tp://www.forbes.com/sites/theopriestley/2015/12/11/elon-musk-and-peter-thiel-launch-openai-a-non-profit-artificial-intelligence-research-
  22. 22. Что такое знания? До-индустриальное Природные ресурсы • земля • минералы • рыба • пушнина Индустриальное Капитал • деньги • заводы • машины • … Пост-индустриальное Информационный капитал • знания • информация • данные Фермеры производят в 5 раз больше пшеницы на 1 акр, чем в 20-е годы (то есть сегодняшний колос на 80% состоит из знаний) Начало ХХ века, сталь: 1т = 4 чел/час; сейчас (Nucor Steel) 1т = 45 чел/мин
  23. 23. Сколько стоят знания? IBM vs. Microsoft • 1983 г.: IBM выбрала MS–DOS для ПК • 1996 г.: IBM — $70,7B, Microsoft — $85,5B • Основные фонды: IBM — $16,6B, Microsoft — $0,93B то есть на $100 стоимости акций IBM $23 — основные фонды на $100 стоимости акций Microsoft $1 — основные фонды
  24. 24. Информация = Данные + интерпретация (смысл) Знания = Информация + интеграция и организация
  25. 25. Знания «живут» в модели Нет знания вне системы управления Системы управления работают с реальным миром, используя модели реального мира
  26. 26. м Модель не есть реальный объект Примеры моделей: • Математические модели (Newton) • Имитационные модели • Бизнес - диаграммы (формальный язык) • Текст (естественный язык) • Стихи, музыка, балет (чувства, ощущения) Модель — грубое, не полное описание реального объекта. Любая модель содержит неопределенность «Никакое «конечное описание» объекта невозможно» В.И. Ленин
  27. 27. Особенности моделирования социальных процессов Физические/ Технические процессы Социальные/ Социотехнические процессы • Есть модели процессов в виде уравнений (например, уравнение теплопроводности) • Есть описания процессов на естественном языке или в виде параметрических зависимостей • Информация о значениях параметров измерима и однозначно интерпретируема (есть измерительные приборы) • Информация о значениях параметров доступна в виде оценок (измерительный прибор — человек), оценки одного и того же параметра могут не совпадать • Повторяемость процессов. Возможно проведение экспериментов (например, для оценки вероятностей) • Уникальность процессов. Провести серию независимых экспериментов не возможно
  28. 28. Неопределенность Физическая неопределенность Неопределенность значений слов Омонимия Нечеткость Теория формальных грамматик Неопределенность смысла фраз Неточность Случайность Лингвистическая неопределенность Теория вероятностей Теория измерений Теория нечетких множеств Что такое неопределенность?
  29. 29. Как работать с неопределенностью? Классическая 
 математика Моделирование Обучение Умный перебор мир объектов vs. мир объектов и людей теория нечетких множеств нейронные сети, генетические алгоритмы углубленный анализ данных — data mining
  30. 30. Data Mining — это процесс обнаружения в сырых и ранее неизвестных данных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
  31. 31. Набор инструментов Data Mining Технологии: •Искусственные нейронные сети •Генетические алгоритмы •Деревья принятия решений •Кластретизация (ближайшие соседи) •Rule induction: Извлечение полезных «Если — то» правил из баз данных
  32. 32. Rule induction: характеристики правил Правило R: X → Y, где X∈I, Y∈I, X∩Y≠∅; I – множество значений атрибутов базы данных Название Обозначение Формула Интерпретация Поддержка (support) S(X) (Количество записей, содержащих X)/(количество записей в базе данных) Оценка вероятности P(X) Охват (Coverage) Cr(R) Cr(R) = S(X) Статистическая подтвержденность правила; доля записей, для которых выполняется условие X Доверие (прочность, сonfidence, strength) Cf(R) S(X∩Y)/S(X) Доля тех элементов, для которых выполнены условия X и Y среди элементов, для которых выполнено X; оценка вероятности P(Y|X) Убежденность (Conviction) Cn(R) (1- S(Y))/(1-Cf(R)) Оценка, насколько импликации X → Y в нашем случае отклоняется от случая независимых переменных Рычаг (Leverage) L(R) S(X∩Y) - S(X)S(Y) Оценка отклонения совместного появления X и Y в нашем случае по сравнению со случаем независимых переменных Интерес (лифт, interest, lift) I (R) Cf(R)/S(Y) = S(X∩Y)/S(X)S(Y) Оценка во сколько раз чаще X и Y встречаются вместе в нашем случае по сравнению со случаем независимых переменных
  33. 33. Логическая интерпретиция Вывод: для больших характерно быть белым, 
 для маленьких характерно быть черным, но с меньшей уверенностью. 100 шариков: 20 больших, 80 маленьких Из 20 больших 15 белых, 5 черных Из 80 маленьких 20 белых, 60 черных Мы хотим прогнозировать цвет Большой → Черный • S = 0.2 • C = большие черные/большие = 5/20 = 0,25 • I = C/ кол-во черных среди всех = 0,25/0,65 = 0,38 Большой → Белый • S = 0.2 • С = большие белые/большие = 15/20 = 0,75 • I = C/ кол-во белых среди всех = 0,75/0,35 = 2,14 Маленький → Черный • S = 0.8 • C = маленькие черные/маленькие = 60/80 = 0,75 • I = C/ кол-во черных среди всех = 0,75/0,65 = 1,15 Маленький → Белый • S = 0.8 • С = маленькие белые/меленькие = 20/80 = 0,25 • I = C/ кол-во белых среди всех = 0,25/0,35 = 0,71
  34. 34. Геометрическая интерпретиция
  35. 35. Примеры использования больших данных
  36. 36. Пример №2 Розничная торговля
  37. 37. Анализ чеков Слабое звено: Молодые люди до 30 лет, которые часто посещают магазин (в 3,5 раза чаще, чем в среднем по базе), покупают мало товаров, средняя сумма чека — низкая ... Задача Создание профилей клиентов. Как устроен сегмент высокодоходных клиентов? Решение Исходные данные: 
 база данных чеков + база данных дисконтной программы. Технология: 
 Data mining. Результат: 
 доходность (PROFIT) разбита на 4 категории (меньше 8200; 8200 – 23300; 23300 – 60500; больше 60500). Строим профиль «PROFIT больше 60500»
  38. 38. Поведение клиентов Слабое звено: Для клиентов со средней суммой чека весной характерно приобретать товар группы №10 (в 2 раза чаще случайного поведения); для них же зимой характерно совместное приобретение товаров групп № 5, 7, 9… Задача Какие товары наиболее хорошо продаются в определенное время (года, недели, дня)? Решение Исходные данные: 
 база данных чеков. Технология: 
 Разбиваем товары на группы, разбиваем время на периоды, применяем data mining
  39. 39. Пример №3 Телеком: рекомендация мобильного контента
  40. 40. Бизнес-процесс сервиса рекомендаций Реальный мир: Поведение клиентов Информационные системы: Образ поведения клиентов Анализ данных: Анализ поведения клиентов Транзакции Выгрузки Обработка • Покупки • Заказы • Скачивания • … Базы данных • витрины • sms • e-mail • … Data MiningКоммуникации Отчет Набор 
 правил Rec. Engine Предобработка • Очистка • Трансформация • …
  41. 41. Влияние рекомендаций на рост продаж Trend Sales Start of promo Increase in sales, % (the recommended genres – 7/96) 0 6 12 18 24 1 период 2 период Среднее 14,2 22,4 5,9 1-st week 2-nd week average Increase in sales, % (other (the non- recommended) genres – 89/96 -0,4 6,05 12,5 18,95 25,4 1 период 2 период Среднее 0,59 -0,14 1,31 Увеличение продаж, (%/день) 2-nd week1-st week average
  42. 42. Продажи: типичный случай Start of promo Sales Trend downloaded to put forward Lift (efficiency) Audience Genre X Genre B x 13 971/650000 Genre Y Genre B x 10 1196/650000 Genre Z Genre B x 8 1260/650000 Genre: B Rules: Growth: 55% Правило R: X → Y
  43. 43. Продажи: лучший случай Genre: A downloaded to put forward Lift (efficiency) Audience Genre X Genre A x 2 14725/630000 Genre Y and Genre X Genre A x 4 3420/630000 Genre Z and Genre X Genre A x 4 3674/630000 Genre V Genre A x 2 5329/630000 Genre W Genre A x 3 4026/630000 Genre U Genre A x 2 5602/630000 Rules: Growth: 96% Start of promo Sales Trend Правило R: X → Y
  44. 44. Статистика: вклад рекомендованного контента в продажи Date Recommended (items) Non-recommended (items) 13.08.2011 2728 15952 14.08.2011 2669 17274 15.08.2011 2224 17284 16.08.2011 3852 17935 17.08.2011 3767 17412 18.08.2011 3318 17355 19.08.2011 3576 18422 20.08.2011 3643 15408 21.08.2011 3535 16657 22.08.2011 4161 16434 Sales (rec vs. non-rec.) Рекомендованное ед. Нерекомендованное ед.
  45. 45. Статистика: отклик Рекомендованный жанр Количество рекомендаций Количество откликов Response rate (доля) /games/arcads 7148 519 7,260772244 /games/freecharge 7089 557 7,857243617 /games/movies 2277 179 7,861220905 /games/races 14038 1654 11,78230517 /music/pricallring 112648 5149 4,570875648 /music/ruspop 188197 6967 3,70197187 /pictures/animations/mix 782 117 14,96163683 /pictures/erotica 4669 615 13,17198544 /video/musicclips 10707 1961 18,31512095
  46. 46. Пример №4 Энергетика/Smart Grid
  47. 47. Автономная система электроснабжения
  48. 48. Поведение клиентов
  49. 49. Результат: качество электричества 
 возрастает в десятки раз
  50. 50. Пример №5 Финансы: оценка качества заемщика
  51. 51. Кредитный скоринг Задача Какие товары наиболее хорошо продаются в определенное время (года, недели, дня)? Решение Исходные данные: 
 анкеты + кредитные истории заемщиков. Технология: 
 Data mining. Результат: 
 интегрированная система автоматической оценки заемщиков. Слабое звено: В 2 раза меньше дефолтов, в 5 раз меньше «плохих» кредитов.
  52. 52. Пример №6 Корпоративные отношения
  53. 53. Выявление в компании неформальных группировок и их лидеров Задача Кто является экспертом? 
 К кому обращаются люди? Кто является инициатором? Кто является связующим 
 звеном между группами? Решение Исходные данные: 
 Логи корпоративной АТС Технология: 
 Data mining. Результат: 
 Структура реальных коммуникаций Формальная структура компании Неформальные лидеры внутри компании (кластеры и коммуникаторы)
  54. 54. Пример №6 Городская среда:
 Smart Cities
  55. 55. им Smarter Cities: Turning Big Data Into Insight
  56. 56. Гамбург: экологический мониторинг «Умная» дорога в Гамбурге оптимизирует работу порта, мостов, транспортные потоки, уличное освещение, парковку портовых грузовиков. Гамбургская дорога анализирует выхлоп машин и судов, то есть включает экологический мониторинг, позволяя принять решение о необходимой скорости движения и стоимости парковки.
  57. 57. Вайсзахе: экономия 
 на городском освещении Модернизированное уличное освещение в Вайсзахе • Узкие дороги в коммуне Вайсзахе освещаются точно в соответствии с потребностью. • На окраине коммуны новая светодиодная система освещения позволяет создать индивидуальное освещение и повысить уровень комфорта визуального восприятия. • В центре города современное светодиодное освещение обеспечивает высокую интенсивность освещения и существенную экономию электроэнергии.
  58. 58. Сингапур: регулировка плотности движения В Сингапуре контролирующие организации в реальном времени получают информацию с датчиков, чтобы моделировать и предсказывать сценарии дорожного движения с точностью 90%. Системы предсказывают ситуацию на дорогах на некоторое время вперед и регулируют плотность движения, меняя пороговую плату за проезд по наиболее интенсивным направлениям и балансируя загрузку дорог.
  59. 59. Направления использования 
 Big Data в городской среде BY BOYD COHEN Re-design by Manuchis
  60. 60. Темпы роста сегментов Smart City CAGR (Compound Annnual Growth Rate) — среднегодовой темп роста с учетом сложного процента. Умная энергетика 19.6% Умная инфраструктура 8.9% Умные здания 8.8% Умное здравохранение 6.9% Умный транспорт 14.8% Умная охрана 14.% Умное управление и образование 11.6% Segments CAGR
  61. 61. Data Mining – инструмент решения бизнес-проблем Data mining можно использовать для решения любых бизнес-проблем, в которых фигурируют данные, включая:
 • Увеличение прибыльности подразделения или целого предприятия; • Понимание желаний и потребностей клиентов • Идентификация клиентов, приносящих прибыль, и приобретение новых • Сохранение клиентов и повышение лояльности • Увеличение отдачи от инвестиций (ROI) и снижение расходов на продвижение товаров и услуг • Продажа дополнительных товаров и услуг существующим клиентам • Выявление случаев мошенничества, нерационального и нецелевого расходования средств • Оценивание кредитных рисков • Увеличение отдачи от 
 веб-сайта • Повышение пропускной способности магазина и оптимизация расположения товаров для увеличения продаж • Мониторинг эффективности бизнеса
  62. 62. Как работает Data Mining?
  63. 63. Критика Big Data
  64. 64. Что после Big Data?
  65. 65. Тренды трендов Май 2011 Май 2013
  66. 66. Прорывные технологии: автоматизация умственного труда
  67. 67. Внимание медиа к технологиям и их экономический потенциал
  68. 68. Примеры исчезающих профессий
  69. 69. «Пифагор» Учитель в центре образовательного процесса.
  70. 70. «Монастырь» Книга в центре образовательного процесса. Книги уникальные и очень дорогие.
  71. 71. «Школа» Книга в центре образовательного процесса. Учебник стандартный и дешевый.
  72. 72. Education technology: 
 ландшафт
  73. 73. Education technology: 
 рынок В Восточной Европе (Россия) прогнозируется крайне высокий темп роста: 64% к 2016 году против 16% в Северной Америке
  74. 74. Развитие ИКТ/интернета, возможность накапливания и обработки больших объемов данных (big data) Успехи data sciences/ machine learning в финансах, производстве и др. областях Education technology: 
 почему прорыв возможен сейчас?
  75. 75. Что дает персонификация?
  76. 76. Вызов для EdTech: адаптивность/ персонификация/индивидуализация обучения
  77. 77. Необходимые условия для персонификации обучения Измерения Вариативный контент Критерий
  78. 78. Персонификация обучения на примере uchi.ru 980 000 учеников 65 000 учителей 300 000 родителей 7 700 школ
  79. 79. Карточка задания: визуализация для ученика
  80. 80. Карточка задания: первичные измерения Карточка Событие (действие) Клик Драг Нажатие 
 на клавишу Событие уровня оболочки Событие уровня карточки № карточки № версии Внешние события События от Scoring (бусы) Начало Карточка загружена
 (для тяжелых) Начало уровня № Время Начало упражнения № Время Выполнение упражнения Действия 
 пользователя Действия 
 системы Конец упражн. № Время Конец уровня № Время Выбор нового упражнения Выбор нового уровня Конец карточки Правильно Не правильно (Нейтрально) 26698.2 - [ACTION] Ввел цифру 5 в остановку 4 26686.9 - [BEADS] в упражнении допущена ошибка, однако бусина не откатилась назад. Сейчас бусин справа: 0 из 4 26686.9 - [ACTION] Ввел цифру 5 в остановку 4 26685.4 - [ACTION] Нужно было отвести на остановку 4, отвез на 4 26680.0 - [ACTION] Ввел цифру 3 в остановку 3 26676.8 - [ACTION] Котенок сам переехал на остановку 3. 26676.3 - [ACTION] Ввел цифру 2 в остановку 2 26660.9 - [ACTION] Котенок сам переехал на остановку 2. 26660.4 - [ACTION] На остановке 1 в инпут автоматически ввелась цифра 1. 26658.4 - [ACTION] Котенок сам переехал на остановку 1. 26656.9 - [ACTION] Нажал на кнопку 'Старт'     0.5 - [SIGNAL] Котофей, дорофей: 123     0.4 - · Упражнение началось (скрипт 920): {"final":5,"movement":3,"counting":2}     0.4 - [BEADS] упражнение начато Область Город Школа Учитель Ученик
  81. 81. Минимальная верхнеуровневая архитектура Обучение (первичные измерения) Тестирование Система оценки и мониторинга принадлежности к классам • Внимательность • Скорость • Выносливость • Обработка Система оценки и мониторинга процесса обучения • Очень легко • Штатно • Очень тяжело Система генерации сценария обучения • Тип контента • Последовательность • … Система оценки и мониторинга качества обучения • Отлично • Хорошо • Удовлетворительно • Плохо
  82. 82. Расширенная верхнеуровневая архитектура Обучение (первичные измерения) Тестирование Система оценки и мониторинга принадлежности к классам Система оценки и мониторинга процесса обучения Система генерации сценария обучения Система оценки и мониторинга качества обучения Система оценки и мониторинга психофизического состояния Система оценки и мониторинга окружающей среды Прибор Ани Мини-тесты Гаджеты Датчики PC/ планшета • Внимательность • Скорость • Выносливость • Обработка • Очень легко • Штатно • Очень тяжело • Тип контента • Последовательность • … • Отлично • Хорошо • Удовлетворительно • Плохо
  83. 83. Детализация минимальной архитектуры Первичные измерения (цифры) Система оценки и мониторинга принадлежности к классам Система оценки и мониторинга процесса обучения Система генерации сценария обучения Система оценки и мониторинга качества обучения Лингвистическое представление (принадлежность к понятиям) A X=x*; Y=y* Xx* маленький большой Если A=маленькая и B=большая то Z1 Если С=маленький то Z2 … Логическое представление (нечеткие правила) • Внимательность • Скорость • Выносливость • Обработка • Очень легко • Штатно • Очень тяжело • Тип контента • Последовательность • … • Отлично • Хорошо • Удовлетворительно • Плохо
  84. 84. Персонификация Пример работы системы: • Если ученик слабый (сильный) — не давать сложное (простое) задание • Если ученик устал — отложить сложное задние Возможности системы: • Определять сложность задания (простое/сложное) • Классифицировать учеников (слабый/сильный)
  85. 85. Сложность задания IRT (Item Response Theory (syn: latent trait theory, strong true score theory, modern mental test theory))
  86. 86. Сложность задания
  87. 87. Кластеризация заданий легкие/сложные/очень сложные
  88. 88. Кластеризация заданий: легкие/сложные/очень сложные..?
  89. 89. Классификация учеников Оптимизация: • дисбаланс классов • степень нечеткости Количество кластеров Степень нечеткости Дисбаланс 3 0,268 0,813 4 0.28 0,927 5 0.28 0,887 6 0.29 0,858 7 0.28 0,906 8 0.3 0,942 c-means (FCM, с-средних)
  90. 90. Классификация учеников (решение задания) История (70:30) Обучение (на 70%) • k-Nearest Neighbors algorithm (алгоритм k Ближайших Соседей) • Random forest (комитет решающих деревьев) • AdaBoost (Adaptive Boosting — усиление классификаторов, путём объединения их в комитет) • Gbm (Gradient boosting) Тестирование (на 30%) Ошибки 1 и 2 рода
  91. 91. Классификация учеников (прогнозирование решения задания)
  92. 92. Ассоциативные зависимости
  93. 93. Блок персонификации в структуре образовательной платформы
  94. 94. Каков потенциал?
  95. 95. Образование XIX vs Образование XXI Детальный контроль обучения: • Много параметров • Параметры косвенные Возможность персонификации: • Оценка и мониторинг когнитивных функций Адаптивность: • Возможность генерации оптимального сценария • Контроль обучения выборочный (урок) • Контроль обучения редкий (контрольные работы) • Учет персональных особенностей ограничен (массовое обучение невозможно) • Набор инструментов вовлечения/заинтересованности гибкий и большой Онлайн-образованиеТрадиционная школа Информационный образ ученика Информационный образ учителяУченикиУчитель
  96. 96. Эпоха физики 
 и химии — атомы и молекулы Эпоха биологии 
 и ДНК — первые самовоспроизводящиеся организмы Эпоха мозга — организмы, способные самостоятельно обнаруживать и обрабатывать информацию Эпоха слияния 
 человеческих технологий 
 и человеческого разума — слияние биологической 
 и технологической эволюций Эпоха технологий — совместная эволюция 
 людей и технологий
  97. 97. Спасибо!

×