4. План
Интро: знакомство. Формулировка задач. Что
плохо и как это можно менять.
Введение в журналистику данных
- Что такое журналистика данных? Как это
вписывается в редакционный процесс?
- Что такое данные и как они могут быть
полезными для журналистов
- Примеры
- Практика
6. Постановка вопроса
Журналистика данных – как любой
инструмент качественной журналистики –
это способ ответить на вопросы “Как?
Почему? Что изменилось? Что будет
дальше?” Это борьба со стереотипами и
подача нового материала
7. Журналистика данных / datadriven journalism
Журналистикой данных называют процесс
подготовки материалов, основанный на
анализе и фильтрации больших объемов
данных.
Основными факторами этого процесса
являются новые доступные ресурсы, такие
как "открытого источника" программное
обеспечение и "открытые данные".
Журналистика данных – это командная
дисциплина :)
15. Среднее время чтения материала
От 60 секунд в среднем в день на среднем
сайте СМИ
до
New York Times Snowfall: всего 13 минут на
мини-книгу в несколько тысяч слов (!)
http://multimedia.journalism.berkeley.edu/tutorials/digita
transform/websites/
17. New York Times Snowfall
6 месяцев
Команда из 10 человек
Видео, текст, интерактивные вставки
десятки тысяч долларов
Исследование траектории лавины,
визуализация...
2.9 миллиона посетителей за первые 6 дней
http://www.nytimes.com/projects/2012/snow-fall/
30. Что читают в соц сетях
http://www.slashgear.com/pew-report-shows-facebook-delivers-the-news-to-20-percentof-americans-27303225/
31. Новые медиа
Suppose you are an evil genius constructing a
device for plunging rational, well-meaning
people into furious arguments. What would
your Argument Machine look like? Probably it
would encourage people to pepper one
another with assertions in public. It would allow
bystanders to repeat comments out of context:
“Nothing creates a fight faster than in-group
language overheard by the out-group” In fact: it
would be Twitter
Derek Powazek
The Argument Machine
32. Новые инструменты? Инфотрэш!
Инфографика создаётся, чтобы
- захватить внимание человека больше чем
на 15 секунд
- стать вирусной
- желательно задурить голову...
загипнотизировать
- расшарив, человек должен выглядеть
умным
В результате...
42. Статичная непроверяемая
информация
- упоминаются десятки фамилий, но без
инициалов людей очень многих невозможно
наверняка идентифицировать. А если в
ищете информацию о предках?
- адреса устарели
- цены нельзя сопоставить с сегодняшними
- ошибки и искажения не проверишь
- какой исторический контекст?
- история ускоряется. Уже через 10 лет мы
будет так же с трудом разбираться в
43. Что было на самом деле важно?
- Война? Политика? Повседневность?
Безработица? Цены на хлеб? Красиво ли
спел Вертинский или концерт отменили?
Расстреляли ли журналиста, который
написал статью, приветствующую приход
Деникина?
- Газета не расскажет – весь контекст остался
в предыдущих номерах и в памяти людей
- не обновляемые данные = зло
44. Кстати, есть ещё одна проблема...
http://wtfviz.net/image/62517516746
46. Итак, есть проблемы
Публика всё больше привыкают тратить по 15
секунд на один материал и судить о новости
по одному взгляду (кто из друзей лайкнул)
Клановость: тенденциозность и
непроверяемость, стереотипичность.
Отсутствие контекста
Отсутствие “большой картины”
47. Итак, какие темы важны сегодня?
Девальвация
Переработка мусора
Что принесёт нам евразийское экономическое
сообщество?
За какие деньги строятся дворцы? На что
вообще идут деньги бюджета?
48. Как рассматривать эти вопросы?
Девальвация = процесс
Переработка мусора = комплексный
экономический, культурный и экологический
феномен
Что принесёт нам евразийское экономическое
сообщество?
За какие деньги строятся дворцы? На что
вообще идут деньги бюджета?
49. Проблемы 2013 - примеры
Задачи журналистики данных:
- данные помогают рассказать историю
- данные подтверждают гипотезу
- данные показывают ситуацию в развитии
50. Проблемы 2013 - примеры
http://wheredoesmymoneygo.org/dailybread.html
http://wheredoesmymoneygo.org/dailybread.html
55. Opendata.by
Процесс:
1) скачиваем PDF c Белстата
2) используем утилиту pdftotext для парсинга
текста
3) корректируем и вносим данные в БД
OpenSpending или другую
https://github.com/openspending/datatoload/is
sues/4
63. freeway.by
- когда чиновники заявляют о доступности 7080% объектов, то можно их перепроверить
(513 объектов из 625 недоступно)
- можно сравнить ситуацию год назад и
сегодня
79. Видео
Как обнаружить цензуру с помощью
анализа данных?
Jean-Baptiste Michel + Erez Lieberman
Aiden: What we learned from 5 million
books
http://www.ted.com/talks/what_we_learned_from_5_millio
n_books.html
80. Видео
Как обнаружить цензуру с помощью
анализа данных?
Jean-Baptiste Michel + Erez Lieberman
Aiden: What we learned from 5 million
books
http://www.ted.com/talks/what_we_learned_from_5_millio
n_books.html
81. Как сформулировать вопрос:
Google n-gram viewer
https://books.google.com/ngrams/graph?content=Belarus%2C
https://books.google.com/ngrams/graph?content=Kurapaty&y
http://www.ted.com/talks/what_we_learned_from_5_millio
n_books.html
88. Работа с данными
Несмотря на то, что многие считают именно
конвертацию данных в инфографику, и
вообще придумывание инфографики самым
сложным делом во всем процессе, на
самом деле это правда только в случае
получения т.н. “идеального датасета” набора данных, который не только
релевантен, но и достаточно полон, и плюс
к этому - находится именно в том формате,
который нам нужен, и не содержит
синтаксических ошибок.
91. Несколько критериев к данным
Проверенность и объективность данных
(пример New York Times)
Полнота данных. То есть их должно быть
достаточно для того, чтобы убедительно
доказать мысль, которую вы пытаетесь
донести, а не высосаны из пальца.
93. Фальшивка из Китая
NYT: revelation that the $65.4 million sale of
“Eagle Standing on a Pine Tree” a 1946 ink
painting by Qi Baishi, never in fact happened.
That was the public auction price, but then the
buyer never paid.
a good third of the public auction-result data
should be simply ignored, on the grounds that
the pieces in question never actually sold. This
includes, ironically enough, the clever
interactive chart in the NYT article itself,
showing the best-selling artists in the world
from 2006 through 2012.
http://blogs.reuters.com/felix-salmon/2013/10/28/chinas-broken-art-market/
102. Несколько критериев к данным
В данных должны присутствовать хоть какието значительные тренды, чтобы они были
интересными. Смотреть на pie chart,
закрашенный одним цветом, или идеально
ровный график не очень интересно.
Данные должны быть релевантны концепции
и идее инфографики. Не должен
присутствовать так называемый мусор, то
есть данные, не имеющие принципиальной
ценности.
Данные должны быть приведены в
машиночитаемый формат.
103. Использование данных
Создание правильного датасета зачастую
занимает до 90 процентов времени, ведь
бывают не только случаи, когда нужно
просто конвертировать или “вбить” данные
в правильный формат, например из PDF в
Excel, но и осуществить их первоначальный
сбор, то есть ситуация, когда данные еще
необходимо получить.
104. Использование данных
Поэтому не стоит представлять инфографику
как простой процесс, в котором главную
роль играют визуальные инструменты,
эффекты и wow эффект. Это кропотливая и
зачастую нудная работа, но стоящая того.
105. Форматы
XLS - самый популярный, не самый удобный
для создания графики,, но он хорош тем,
что позволяет в удобном интерфейсе
загружать или редактировать данные, и
экспортировать их в другие форматы.
106. Форматы
CSV - (от англ. Comma-Separated Values —
значения, разделённые запятыми) —
текстовый формат, предназначенный для
представления табличных данных. Каждая
строка файла — это одна строка таблицы.
Значения отдельных колонок разделяются
разделительным символом (delimiter) —
запятой (,). Однако, большинство программ
вольно трактует стандарт CSV и допускают
использование иных символов в качестве
разделителя.
107. Форматы
JSON - (англ. JavaScript Object Notation) —
текстовый формат обмена данными,
основанный на JavaScript и обычно
используемый именно с этим языком. Как и
многие другие текстовые форматы, JSON
легко читается людьми.
Несмотря на происхождение от JavaScript
(точнее, от стандарта ECMA-262), может
использоваться с любым языком
программирования. Для многих языков
существует готовый код для создания и
обработки данных в формате JSON.
108. Форматы
Excel - лидер, берет почти все кроме
джейсона.
Остальное конвертируется по ситуации,
например MySQL в CSV не сконвертируешь
без специальных скриптов. Для работы с
JSON есть встроенные PHP функции и
внешние библиотеки (Guzzle). Но для
большинства задач Эксэля и Блокнота
вполне достаточно.
Кодировка должна быть в UTF-8 without BOM
109. Форматы
Кодировка должна быть в UTF-8 without BOM
Для конвертации и приведения в единый вид
форматов времени почти всегда нужны
специальные скрипты, но можно сделать и
Экселем.
112. Примеры датасетов
Готовые тестовые датасеты: олимпийские
медали, датасет про лотерею
Лучше всего найти готовые источники
данных. Это может быть легко для ЕС, США
и даже России, но почти невозможно для
РБ. Вот несколько источников
http://data.stackexchange.com/
http://www.freebase.com/
http://www.data.gouv.fr/
http://www.data.gov/
115. Примеры
можно скачать pdf, исходные данные или
картинку/иллюстрацию
Пример из Беларуси: Выигрыши в лотерею
(OpenData.by)
116. Рекомендации
- Не используйте красный и зелёный без
дополнительных маркеров. Cледите за
цветами!
- покажите вашу презентацию ещё кому-то
перед публикацией. "Kак ты не понимаешь,
это же гениальная визуализация и анализ" и
"тыкни тут, тут и тут, чтобы увидеть самое
интересное!! что, сам не мог разобраться?"
- embedded: не делайте ширину больше 650
пикселей. сфокусируйтесь на том, что
http://www.datarevelations.com/hey-your-tableau-public-viz-is-ugly-andважно :)
confusing.html
117. Рекомендации
- embedded: не делайте ширину больше 650
пикселей. сфокусируйтесь на том, что
важно :)
- добавляйте кнопку "инструкции и описание"
http://www.datarevelations.com/hey-your-tableau-public-viz-is-ugly-andconfusing.html
120. Рекомендации
- переводите людей от одной "страницы" или
логического блока к другой
- вовлечённость: визуализация - это форма
журналистского материала. Она не должна
быть супер-скучной, привлектие зрителей
интересными фишками или даже заставкой
(как у книги)
121. проект
практика: выбор корпуса и развитие истории,
основанной на исследованиях об этом,
разработка инфографики использованием
Open Refine, Drupal и Tableau Public.
122. Обсуждение
6. Обсуждение: проблемы и возможности: как
данные журналистики стать эффективным
инструментом . ограничения (что делать
при отсутствии открытых публичных
данных)
126. проект
Как работать дальше?
- Список пособий и он-лайн источников
https://docs.google.com/spreadsheet/ccc?
key=0AiRryYZc6KR2dFJZTW5XVWdRV1ozdX
RrdkxtRFV3UUE&usp=drive_web#gid=0