SlideShare a Scribd company logo
1 of 46
Download to read offline
OPEN DATA WORKSHOP
Скрепинг данных с сайтов гос. органов с помощью import.io
и обработка в Open Refine для активистов и журналистов
Виталий Власов
Ольга Пархимович
ПРОБЛЕМЫ ПРИ РАБОТЕ С
ДАННЫМИ
• Не в машиночитаемом формате (html, doc, pdf)
• «Грязные» данные: не нормализированные данные (одни и те же данные
записаны в разной форме) и пр.
• Отсутствие геокоординат (или разные системы) в датасетах с адресами
• Отсутствие технической поддержки
• Несвоевременное обновление данных
• Недостаточный уровень детализации данных
• Отсутствие актуальных наборов данных
• Использование латиницы вместо кириллицы
IMPORT.IO
• http://import.io - сервис для скрепинга данных
• http://zakupki.okmot.kg/pub/PublicOrder.action
ФУНКЦИИ OPEN REFINE
- Преобразование данных к нужному формату
- Предварительная обработка. Нахождение ошибок и опечаток
- Получение представления о массиве данных
Установка:
1. Скачать OpenRefine: http://openrefine.org/
2. Запустить установщик
3. Открыть браузер и перейти по ссылке: http://127.0.0.1:3333
ЗАГРУЗКА МАССИВА
ДАННЫХ
Создаем новый проект
Загрузка исходного массива
Настройка импорта файла. Выбор типа файла
Изменение имени проекта
Настройка кодировки
Настройка кодировки
Настройка дополнительных параметров
ПРЕДВАРИТЕЛЬНАЯ
ОЧИСТКА ДАННЫХ
количество
строк в файле
количество
отображаемых
строк
название
столбца
Основные элементы страницы
Изменение наименований столбцов
- закупающая
организация
- наименование
закупки
- планируемая сумма
- количество лотов
- метод закупки
- дата публикации
- срок подачи заявок
- статус
Удаление столбцов
Преобразование в числовой формат
Удаление пробелов: value.replace(" ", "")
Разделение колонок на две
Преобразование в формат дат
Фасеты
ИЗУЧЕНИЕ ДАННЫХ
Использование фасетов для изучения встречающихся значений
Текстовые фасеты
Использование фасетов для изучения встречающихся значений
Временные фасеты
Использование фасетов для изучения встречающихся значений
Числовые фасеты
Использование кластеризации
Виталий Власов
inxaoc@gmail.com
@myOpenCity
Ольга Пархимович
olya.parkhimovich@gmail.com
@OpenDataRu

More Related Content

Similar to Использование программ Import IO и OpenRefine

Загрузка больших объемов данных для бизнес-аналитики
Загрузка больших объемов данных для бизнес-аналитикиЗагрузка больших объемов данных для бизнес-аналитики
Загрузка больших объемов данных для бизнес-аналитикиBadoo Development
 
SECON'2016. Алексеев Олег, Живой API
SECON'2016. Алексеев Олег, Живой APISECON'2016. Алексеев Олег, Живой API
SECON'2016. Алексеев Олег, Живой APISECON
 
Opendata practice for Global Editors Hackathon
Opendata practice for Global Editors HackathonOpendata practice for Global Editors Hackathon
Opendata practice for Global Editors HackathonIvan Begtin
 
Алексей Иванкин: Highload + PHP
Алексей Иванкин: Highload + PHPАлексей Иванкин: Highload + PHP
Алексей Иванкин: Highload + PHPOleg Poludnenko
 
Как достать машиночитаемые государственные данные, которых, вроде бы, нет
Как достать машиночитаемые государственные данные, которых, вроде бы, нетКак достать машиночитаемые государственные данные, которых, вроде бы, нет
Как достать машиночитаемые государственные данные, которых, вроде бы, нетElena Nikitina
 
Обеспечение централизованной обработки документации в ОЦО группы «ФосАгро»
Обеспечение централизованной обработки документации в ОЦО группы «ФосАгро»Обеспечение централизованной обработки документации в ОЦО группы «ФосАгро»
Обеспечение централизованной обработки документации в ОЦО группы «ФосАгро»Корпорация ЭЛАР
 
Подводные камни при внедрении электронного архива и оцифровке документов
Подводные камни при внедрении электронного архива и оцифровке документовПодводные камни при внедрении электронного архива и оцифровке документов
Подводные камни при внедрении электронного архива и оцифровке документовLANIT
 
Использование распределённой очереди задач для обработки данных в бекенде спо...
Использование распределённой очереди задач для обработки данных в бекенде спо...Использование распределённой очереди задач для обработки данных в бекенде спо...
Использование распределённой очереди задач для обработки данных в бекенде спо...Yandex
 
Асинхронный биллинг для службы такси - IzhDevCom November 2014
Асинхронный биллинг для службы такси - IzhDevCom November 2014Асинхронный биллинг для службы такси - IzhDevCom November 2014
Асинхронный биллинг для службы такси - IzhDevCom November 2014Egor Konovalov
 
SharePoint Introduction
SharePoint IntroductionSharePoint Introduction
SharePoint IntroductionVitaly Baum
 
Open Data проекты в США
Open Data проекты в СШАOpen Data проекты в США
Open Data проекты в СШАVitaly Vlasov
 
Роботизация функций - разбор первичной финансовой документации
Роботизация функций - разбор первичной финансовой документацииРоботизация функций - разбор первичной финансовой документации
Роботизация функций - разбор первичной финансовой документацииНФП
 
Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахСкрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахIvan Begtin
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesIlya Gershanov
 
Microsoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMicrosoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноEugenia Korshunova (Pavlova)
 
Microsoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMicrosoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMarina Payvina
 
Продвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхПродвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхDenodo
 
Power BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опытPower BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опытMarina Payvina
 

Similar to Использование программ Import IO и OpenRefine (18)

Загрузка больших объемов данных для бизнес-аналитики
Загрузка больших объемов данных для бизнес-аналитикиЗагрузка больших объемов данных для бизнес-аналитики
Загрузка больших объемов данных для бизнес-аналитики
 
SECON'2016. Алексеев Олег, Живой API
SECON'2016. Алексеев Олег, Живой APISECON'2016. Алексеев Олег, Живой API
SECON'2016. Алексеев Олег, Живой API
 
Opendata practice for Global Editors Hackathon
Opendata practice for Global Editors HackathonOpendata practice for Global Editors Hackathon
Opendata practice for Global Editors Hackathon
 
Алексей Иванкин: Highload + PHP
Алексей Иванкин: Highload + PHPАлексей Иванкин: Highload + PHP
Алексей Иванкин: Highload + PHP
 
Как достать машиночитаемые государственные данные, которых, вроде бы, нет
Как достать машиночитаемые государственные данные, которых, вроде бы, нетКак достать машиночитаемые государственные данные, которых, вроде бы, нет
Как достать машиночитаемые государственные данные, которых, вроде бы, нет
 
Обеспечение централизованной обработки документации в ОЦО группы «ФосАгро»
Обеспечение централизованной обработки документации в ОЦО группы «ФосАгро»Обеспечение централизованной обработки документации в ОЦО группы «ФосАгро»
Обеспечение централизованной обработки документации в ОЦО группы «ФосАгро»
 
Подводные камни при внедрении электронного архива и оцифровке документов
Подводные камни при внедрении электронного архива и оцифровке документовПодводные камни при внедрении электронного архива и оцифровке документов
Подводные камни при внедрении электронного архива и оцифровке документов
 
Использование распределённой очереди задач для обработки данных в бекенде спо...
Использование распределённой очереди задач для обработки данных в бекенде спо...Использование распределённой очереди задач для обработки данных в бекенде спо...
Использование распределённой очереди задач для обработки данных в бекенде спо...
 
Асинхронный биллинг для службы такси - IzhDevCom November 2014
Асинхронный биллинг для службы такси - IzhDevCom November 2014Асинхронный биллинг для службы такси - IzhDevCom November 2014
Асинхронный биллинг для службы такси - IzhDevCom November 2014
 
SharePoint Introduction
SharePoint IntroductionSharePoint Introduction
SharePoint Introduction
 
Open Data проекты в США
Open Data проекты в СШАOpen Data проекты в США
Open Data проекты в США
 
Роботизация функций - разбор первичной финансовой документации
Роботизация функций - разбор первичной финансовой документацииРоботизация функций - разбор первичной финансовой документации
Роботизация функций - разбор первичной финансовой документации
 
Скрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтахСкрытые данные. Какие данные спрятаны на госсайтах
Скрытые данные. Какие данные спрятаны на госсайтах
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
Microsoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMicrosoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективно
 
Microsoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективноMicrosoft BI User Group: Работаем с 1С эффективно
Microsoft BI User Group: Работаем с 1С эффективно
 
Продвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данныхПродвинутый анализ и машинное обучение с помощью виртуализации данных
Продвинутый анализ и машинное обучение с помощью виртуализации данных
 
Power BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опытPower BI для аналитики данных из 1С: практический опыт
Power BI для аналитики данных из 1С: практический опыт
 

More from Olya Parkhimovich

Открытые финансовые данные в медийных проектах
Открытые финансовые данные в медийных проектахОткрытые финансовые данные в медийных проектах
Открытые финансовые данные в медийных проектахOlya Parkhimovich
 
Открытые финансовые данные: где искать и как понимать?
Открытые финансовые данные: где искать и как понимать?Открытые финансовые данные: где искать и как понимать?
Открытые финансовые данные: где искать и как понимать?Olya Parkhimovich
 
Презентация об открытых государственных финансовых данных
Презентация об открытых государственных финансовых данныхПрезентация об открытых государственных финансовых данных
Презентация об открытых государственных финансовых данныхOlya Parkhimovich
 
Что такое открытый бюджет и как читать финансовые данные
Что такое открытый бюджет и как читать финансовые данныеЧто такое открытый бюджет и как читать финансовые данные
Что такое открытый бюджет и как читать финансовые данныеOlya Parkhimovich
 
Open Budget Format: Issues on Development of Specification and Converter Impl...
Open Budget Format: Issues on Development of Specification and Converter Impl...Open Budget Format: Issues on Development of Specification and Converter Impl...
Open Budget Format: Issues on Development of Specification and Converter Impl...Olya Parkhimovich
 
Анализ открытости муниципальных бюджетов
Анализ открытости муниципальных бюджетовАнализ открытости муниципальных бюджетов
Анализ открытости муниципальных бюджетовOlya Parkhimovich
 
Пожелания к наборам открытых финансовых данных
Пожелания к наборам открытых финансовых данныхПожелания к наборам открытых финансовых данных
Пожелания к наборам открытых финансовых данныхOlya Parkhimovich
 
Открытые финансовые данные. Опыт России и Кыргызстана
Открытые финансовые данные. Опыт России и КыргызстанаОткрытые финансовые данные. Опыт России и Кыргызстана
Открытые финансовые данные. Опыт России и КыргызстанаOlya Parkhimovich
 
Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)
Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)
Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)Olya Parkhimovich
 
Project of Saint Petersburg Open Budget
Project of Saint Petersburg Open BudgetProject of Saint Petersburg Open Budget
Project of Saint Petersburg Open BudgetOlya Parkhimovich
 
Рейтинг открытости бюджетов. Open Budget Initiative
Рейтинг открытости бюджетов. Open Budget InitiativeРейтинг открытости бюджетов. Open Budget Initiative
Рейтинг открытости бюджетов. Open Budget InitiativeOlya Parkhimovich
 
Данные расходов UK и проект Budget Puzzle
Данные расходов UK и проект Budget PuzzleДанные расходов UK и проект Budget Puzzle
Данные расходов UK и проект Budget PuzzleOlya Parkhimovich
 
Этапы создания бюджета США и портал USASpending.gov
Этапы создания бюджета США и портал USASpending.govЭтапы создания бюджета США и портал USASpending.gov
Этапы создания бюджета США и портал USASpending.govOlya Parkhimovich
 
Портал бюджета СПб
Портал бюджета СПбПортал бюджета СПб
Портал бюджета СПбOlya Parkhimovich
 

More from Olya Parkhimovich (17)

Открытые финансовые данные в медийных проектах
Открытые финансовые данные в медийных проектахОткрытые финансовые данные в медийных проектах
Открытые финансовые данные в медийных проектах
 
Открытые финансовые данные: где искать и как понимать?
Открытые финансовые данные: где искать и как понимать?Открытые финансовые данные: где искать и как понимать?
Открытые финансовые данные: где искать и как понимать?
 
Презентация об открытых государственных финансовых данных
Презентация об открытых государственных финансовых данныхПрезентация об открытых государственных финансовых данных
Презентация об открытых государственных финансовых данных
 
Что такое открытый бюджет и как читать финансовые данные
Что такое открытый бюджет и как читать финансовые данныеЧто такое открытый бюджет и как читать финансовые данные
Что такое открытый бюджет и как читать финансовые данные
 
Open Budget Format: Issues on Development of Specification and Converter Impl...
Open Budget Format: Issues on Development of Specification and Converter Impl...Open Budget Format: Issues on Development of Specification and Converter Impl...
Open Budget Format: Issues on Development of Specification and Converter Impl...
 
Анализ открытости муниципальных бюджетов
Анализ открытости муниципальных бюджетовАнализ открытости муниципальных бюджетов
Анализ открытости муниципальных бюджетов
 
Пожелания к наборам открытых финансовых данных
Пожелания к наборам открытых финансовых данныхПожелания к наборам открытых финансовых данных
Пожелания к наборам открытых финансовых данных
 
Открытые финансовые данные. Опыт России и Кыргызстана
Открытые финансовые данные. Опыт России и КыргызстанаОткрытые финансовые данные. Опыт России и Кыргызстана
Открытые финансовые данные. Опыт России и Кыргызстана
 
Open Budget Format
Open Budget FormatOpen Budget Format
Open Budget Format
 
Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)
Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)
Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)
 
Open data in russia
Open data in russiaOpen data in russia
Open data in russia
 
Open Data. Основы
Open Data. ОсновыOpen Data. Основы
Open Data. Основы
 
Project of Saint Petersburg Open Budget
Project of Saint Petersburg Open BudgetProject of Saint Petersburg Open Budget
Project of Saint Petersburg Open Budget
 
Рейтинг открытости бюджетов. Open Budget Initiative
Рейтинг открытости бюджетов. Open Budget InitiativeРейтинг открытости бюджетов. Open Budget Initiative
Рейтинг открытости бюджетов. Open Budget Initiative
 
Данные расходов UK и проект Budget Puzzle
Данные расходов UK и проект Budget PuzzleДанные расходов UK и проект Budget Puzzle
Данные расходов UK и проект Budget Puzzle
 
Этапы создания бюджета США и портал USASpending.gov
Этапы создания бюджета США и портал USASpending.govЭтапы создания бюджета США и портал USASpending.gov
Этапы создания бюджета США и портал USASpending.gov
 
Портал бюджета СПб
Портал бюджета СПбПортал бюджета СПб
Портал бюджета СПб
 

Использование программ Import IO и OpenRefine