SlideShare une entreprise Scribd logo
1  sur  37
Télécharger pour lire hors ligne
OPEN DATA WORKSHOP
Обработка в Open Refine и визуализация в Google Fusion
для активистов и журналистов
Виталий Власов
Urban Data Hackathon, Bishkek, 2016
ПРОБЛЕМЫ ПРИ РАБОТЕ С
ДАННЫМИ
• Не в машиночитаемом формате (html, doc, pdf)
• «Грязные» данные: не нормализированные данные (одни и те же данные
записаны в разной форме) и пр.
• Отсутствие геокоординат (или разные системы) в датасетах с адресами
• Отсутствие технической поддержки
• Несвоевременное обновление данных
• Недостаточный уровень детализации данных
• Отсутствие актуальных наборов данных
• Использование латиницы вместо кириллицы
ФУНКЦИИ OPEN REFINE
- Преобразование данных к нужному формату
- Предварительная обработка. Нахождение ошибок и опечаток
- Получение представления о массиве данных
Установка:
1. Скачать OpenRefine: http://openrefine.org/
2. Запустить установщик
3. Открыть браузер и перейти по ссылке: http://127.0.0.1:3333
http://data.gov.spb.ru/datasets/69/
ЗАГРУЗКА МАССИВА
ДАННЫХ
Создаем новый проект
Загрузка исходного массива
Настройка импорта файла. Выбор типа файла
Изменение имени проекта
Настройка кодировки
Настройка кодировки
Настройка дополнительных параметров
ПРЕДВАРИТЕЛЬНАЯ
ОЧИСТКА ДАННЫХ
количество
строк в файле
количество
отображаемых
строк
название
столбца
Основные элементы страницы
Изменение наименований столбцов
Удаление столбцов
Преобразование в числовой формат
Удаление пробелов: value.replace(" ", "")
Разделение колонок на две
Преобразование в формат дат
Фасеты
ИЗУЧЕНИЕ ДАННЫХ
Использование фасетов для изучения встречающихся значений
Текстовые фасеты
Использование фасетов для изучения встречающихся значений
Временные фасеты
Использование фасетов для изучения встречающихся значений
Числовые фасеты
Использование кластеризации
GOOGLE FUSION
• https://www.google.com/fusiontables/data?
dsrcid=implicit&pli=1
• Интерактивные диаграммы
• Визуализация данных на карте
• Встраивание на сайте (iframe)
http://data.un.org/Data.aspx?d=UNAIDS&f=inID%3a7
Виталий Власов
inxaoc@gmail.com
Open City Foundation
@OpenCityRu

Contenu connexe

En vedette

En vedette (8)

Lyft meeting rev 1.28
Lyft meeting rev 1.28Lyft meeting rev 1.28
Lyft meeting rev 1.28
 
Vývojářské Nástroje a Techniky
Vývojářské Nástroje a TechnikyVývojářské Nástroje a Techniky
Vývojářské Nástroje a Techniky
 
La experiencia de las concesiones hospitalarias y las posibilidades de partne...
La experiencia de las concesiones hospitalarias y las posibilidades de partne...La experiencia de las concesiones hospitalarias y las posibilidades de partne...
La experiencia de las concesiones hospitalarias y las posibilidades de partne...
 
Become a citizen data scientist
Become a citizen data scientistBecome a citizen data scientist
Become a citizen data scientist
 
Ibtgroup & Eurofinsa.Catalogo de proyectos de construcción y equipamiento sec...
Ibtgroup & Eurofinsa.Catalogo de proyectos de construcción y equipamiento sec...Ibtgroup & Eurofinsa.Catalogo de proyectos de construcción y equipamiento sec...
Ibtgroup & Eurofinsa.Catalogo de proyectos de construcción y equipamiento sec...
 
El Pensamiento Complejo
El Pensamiento Complejo El Pensamiento Complejo
El Pensamiento Complejo
 
Wiki conference - 2016
Wiki conference - 2016Wiki conference - 2016
Wiki conference - 2016
 
Lesson intro. Introduction to Open Data
Lesson intro. Introduction to Open DataLesson intro. Introduction to Open Data
Lesson intro. Introduction to Open Data
 

Similaire à Vitaly Vlasov. Open Data Workshop (OpenRefine and Google Fusion). Urban Data Hackathon Bishkek 2016

1C-Bitrix Corporate Intranet Portal
1C-Bitrix Corporate Intranet Portal1C-Bitrix Corporate Intranet Portal
1C-Bitrix Corporate Intranet Portal
Irina Zimitskaya
 
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ...
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ..."Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ...
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ...
Vitaly Vlasov
 
Обработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данныхОбработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данных
Irina Radchenko
 
Слоны в облаках
Слоны в облакахСлоны в облаках
Слоны в облаках
Pavel Mezentsev
 

Similaire à Vitaly Vlasov. Open Data Workshop (OpenRefine and Google Fusion). Urban Data Hackathon Bishkek 2016 (20)

SharePoint 2010 in four easy steps (SharePoint Conference Russia)
SharePoint 2010 in four easy steps (SharePoint Conference Russia)SharePoint 2010 in four easy steps (SharePoint Conference Russia)
SharePoint 2010 in four easy steps (SharePoint Conference Russia)
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему Hadoop
 
Загрузка больших объемов данных для бизнес-аналитики
Загрузка больших объемов данных для бизнес-аналитикиЗагрузка больших объемов данных для бизнес-аналитики
Загрузка больших объемов данных для бизнес-аналитики
 
DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.DBD lection 4. Big Data, NoSQL. In Russian.
DBD lection 4. Big Data, NoSQL. In Russian.
 
1C-Bitrix Corporate Intranet Portal
1C-Bitrix Corporate Intranet Portal1C-Bitrix Corporate Intranet Portal
1C-Bitrix Corporate Intranet Portal
 
DE-Group.Microsoft SharePoint
DE-Group.Microsoft SharePointDE-Group.Microsoft SharePoint
DE-Group.Microsoft SharePoint
 
Microsoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMicrosoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективно
 
Microsoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMicrosoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективно
 
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на HadoopBigIntegrate - разрушение мифов по поводу ETL на Hadoop
BigIntegrate - разрушение мифов по поводу ETL на Hadoop
 
Лекция 2. Основы Hadoop
Лекция 2. Основы HadoopЛекция 2. Основы Hadoop
Лекция 2. Основы Hadoop
 
OSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya GershanovOSPconf Big Data Forum 2014 Ilya Gershanov
OSPconf Big Data Forum 2014 Ilya Gershanov
 
SharePoint Introduction
SharePoint IntroductionSharePoint Introduction
SharePoint Introduction
 
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ...
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ..."Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ...
"Теория и практика открытых данных" (Пермь) Часть 2: Порталы и использование ...
 
Data Pools - средство управления тестовыми данными
Data Pools - средство управления тестовыми даннымиData Pools - средство управления тестовыми данными
Data Pools - средство управления тестовыми данными
 
Евгений Аралов
Евгений АраловЕвгений Аралов
Евгений Аралов
 
Обработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данныхОбработка данных для построения цифровой истории в журналистике данных
Обработка данных для построения цифровой истории в журналистике данных
 
Слоны в облаках
Слоны в облакахСлоны в облаках
Слоны в облаках
 
Презентация «1С:Документооборот. Обзор возможностей для конкретных областей п...
Презентация «1С:Документооборот. Обзор возможностей для конкретных областей п...Презентация «1С:Документооборот. Обзор возможностей для конкретных областей п...
Презентация «1С:Документооборот. Обзор возможностей для конкретных областей п...
 
Verification based on open data arrays [RUS]
Verification based on open data arrays [RUS]Verification based on open data arrays [RUS]
Verification based on open data arrays [RUS]
 
Power BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опытPower BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опыт
 

Plus de Vitaly Vlasov

Intorduction for Open Data Hackathon 2014: Hack for Piter
Intorduction for Open Data Hackathon 2014: Hack for PiterIntorduction for Open Data Hackathon 2014: Hack for Piter
Intorduction for Open Data Hackathon 2014: Hack for Piter
Vitaly Vlasov
 
Startup Class - Введение и использование SCRUM для командной работы
Startup Class - Введение и использование SCRUM для командной работыStartup Class - Введение и использование SCRUM для командной работы
Startup Class - Введение и использование SCRUM для командной работы
Vitaly Vlasov
 
Презентация портала открытых данных Ульяновской Области
Презентация портала открытых данных Ульяновской ОбластиПрезентация портала открытых данных Ульяновской Области
Презентация портала открытых данных Ульяновской Области
Vitaly Vlasov
 
Евгений Емельянов "Портал открытых данных правительства Москвы"
Евгений Емельянов "Портал открытых данных правительства Москвы"Евгений Емельянов "Портал открытых данных правительства Москвы"
Евгений Емельянов "Портал открытых данных правительства Москвы"
Vitaly Vlasov
 
"Теория и практика открытых данных" (Пермь) Часть 1: Введение
"Теория и практика открытых данных" (Пермь) Часть 1: Введение"Теория и практика открытых данных" (Пермь) Часть 1: Введение
"Теория и практика открытых данных" (Пермь) Часть 1: Введение
Vitaly Vlasov
 
Презентация о презентациях. Урок 101-ый
Презентация о презентациях. Урок 101-ыйПрезентация о презентациях. Урок 101-ый
Презентация о презентациях. Урок 101-ый
Vitaly Vlasov
 
Case for open data in transit
Case for open data in  transitCase for open data in  transit
Case for open data in transit
Vitaly Vlasov
 
Local open government directive [DRAFT] Перевод на русский язык
Local open government directive [DRAFT] Перевод на русский языкLocal open government directive [DRAFT] Перевод на русский язык
Local open government directive [DRAFT] Перевод на русский язык
Vitaly Vlasov
 
Open Data проекты в США
Open Data проекты в СШАOpen Data проекты в США
Open Data проекты в США
Vitaly Vlasov
 

Plus de Vitaly Vlasov (20)

Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...
Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...
Results of Open Transport Data Readiness Assessment in Kyrgyz Republic by Vit...
 
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаям
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаямOpen Data в DataLab (23-25 января 2017). Напутстсвие джежаям
Open Data в DataLab (23-25 января 2017). Напутстсвие джежаям
 
Как делать презентацию?
Как делать презентацию?Как делать презентацию?
Как делать презентацию?
 
Open Transport data in Russia - Civic hacking, data, examples
Open Transport data in Russia - Civic hacking, data, examplesOpen Transport data in Russia - Civic hacking, data, examples
Open Transport data in Russia - Civic hacking, data, examples
 
Intorduction for Open Data Hackathon 2014: Hack for Piter
Intorduction for Open Data Hackathon 2014: Hack for PiterIntorduction for Open Data Hackathon 2014: Hack for Piter
Intorduction for Open Data Hackathon 2014: Hack for Piter
 
Open Data in Russia (Open budget, Open transport, etc) for WeGO Webinar
Open Data in Russia (Open budget, Open transport, etc) for WeGO WebinarOpen Data in Russia (Open budget, Open transport, etc) for WeGO Webinar
Open Data in Russia (Open budget, Open transport, etc) for WeGO Webinar
 
Startup Class - Business Model Canvas
Startup Class - Business Model CanvasStartup Class - Business Model Canvas
Startup Class - Business Model Canvas
 
Startup Class - Введение и использование SCRUM для командной работы
Startup Class - Введение и использование SCRUM для командной работыStartup Class - Введение и использование SCRUM для командной работы
Startup Class - Введение и использование SCRUM для командной работы
 
Презентация проекта "Liveable City"
Презентация проекта "Liveable City"Презентация проекта "Liveable City"
Презентация проекта "Liveable City"
 
Как использовать открытые данные для общественного контроля: инструменты и ре...
Как использовать открытые данные для общественного контроля: инструменты и ре...Как использовать открытые данные для общественного контроля: инструменты и ре...
Как использовать открытые данные для общественного контроля: инструменты и ре...
 
Мобильные приложения в экосистеме открытых данных (RIW 2013)
Мобильные приложения в экосистеме открытых данных (RIW 2013)Мобильные приложения в экосистеме открытых данных (RIW 2013)
Мобильные приложения в экосистеме открытых данных (RIW 2013)
 
Презентация портала открытых данных Ульяновской Области
Презентация портала открытых данных Ульяновской ОбластиПрезентация портала открытых данных Ульяновской Области
Презентация портала открытых данных Ульяновской Области
 
Евгений Емельянов "Портал открытых данных правительства Москвы"
Евгений Емельянов "Портал открытых данных правительства Москвы"Евгений Емельянов "Портал открытых данных правительства Москвы"
Евгений Емельянов "Портал открытых данных правительства Москвы"
 
"Теория и практика открытых данных" (Пермь) Часть 1: Введение
"Теория и практика открытых данных" (Пермь) Часть 1: Введение"Теория и практика открытых данных" (Пермь) Часть 1: Введение
"Теория и практика открытых данных" (Пермь) Часть 1: Введение
 
Презентация о презентациях. Урок 101-ый
Презентация о презентациях. Урок 101-ыйПрезентация о презентациях. Урок 101-ый
Презентация о презентациях. Урок 101-ый
 
Case for open data in transit
Case for open data in  transitCase for open data in  transit
Case for open data in transit
 
Local open government directive [DRAFT] Перевод на русский язык
Local open government directive [DRAFT] Перевод на русский языкLocal open government directive [DRAFT] Перевод на русский язык
Local open government directive [DRAFT] Перевод на русский язык
 
Open Data проекты в США
Open Data проекты в СШАOpen Data проекты в США
Open Data проекты в США
 
Social media marketing: POE media, facebook, KPI
Social media marketing: POE media, facebook, KPISocial media marketing: POE media, facebook, KPI
Social media marketing: POE media, facebook, KPI
 
Social media marketing в Facebook и Twitter
Social media marketing в Facebook и TwitterSocial media marketing в Facebook и Twitter
Social media marketing в Facebook и Twitter
 

Vitaly Vlasov. Open Data Workshop (OpenRefine and Google Fusion). Urban Data Hackathon Bishkek 2016