SlideShare une entreprise Scribd logo
1  sur  23
Clean Up Your Dirty Data Using
2
OpenRefine – сервис для обработки и очистки данных
• Получение
представления о
больших
массивах данных;
• Нахождение
ошибок и
опечаток
• Переработка
данных в нужные
форматы.
http://openrefine.org/
3
План презентации
1. Общее представление о массиве данных и очистка данных
2. Создаем машиночитаемые данные из текста
3. Преобразовываем формат данных
4
Кейс 1. Общее представление о массиве данных
Количество строк Названия столбцов
Импорт, экспорт проектов
Гос. контракты Ленинградской области за март и май 2014 года
5
Построение фасетов
Значения, встречающиеся в столбце
Построение фасетов
Сортировка по количеству
6
Изменение наименований и удаление столбцов
Изменение наименования столбца Удаление столбца
7
Работа с датами
Преобразование текстовых значений в даты Исследование дат
Пример: даты публикации контрактов
Выходные Время
публикации
Март Май
8
Работа с персональными данными
Исходные столбцы
Пример: Ф.И.О. генеральных директоров
Ошибки в заполнении данных
Построение фасетов
Объединение столбцов
value + " " + cells["First Name"].value + " " + cells["Middle Name"].value
(Объединяем столбцы с фамилией, именем и отчеством в один столбец)
Количество
вариантов
9
Работа с персональными данными. Исправляем ошибки
Массовое редактирование ячеек
Кластеризация данных
10
Работа с номерами телефонов
Фасеты и кластеризация (fingerprint)
2206 вариантов
Кластеризация (ngram-fingerprint)
2170 вариантов
11
Кластеризация данных (находим дубликаты)
Фасеты и кластеризация (fingerprint) 604 -> 483 варианта
12
Кластеризация данных (находим дубликаты)
Фасеты и кластеризация (ngram-fingerprint) 483 -> 468 варианта
13
Кластеризация данных (находим дубликаты)
Фасеты и кластеризация (fingerprint) 2737 -> 2676 варианта
14
Кластеризация данных (находим дубликаты)
Фасеты и кластеризация (ngram-fingerprint) 2676 -> 2432 варианта
15
Кейс 2. Преобразовываем текстовые данные в таблицу
Пример данных: Шаг 1. Создаем новый проект
Шаг 2. Делим данные на несколько столбцов
В качестве разделителя используем: ‘ (‘
16
Кейс 2. Преобразовываем текстовые данные в таблицу
Шаг 3. Удаляем лишние символы
Делим вторую колонку на две,
используя в качестве разделителя: ‘) ’
Выбираем меню столбца, содержащего
лишние символы
Вводим нужную функцию
replace(value, /d+(. )/, "")
С помощью функции replace
мы заменяем выражение
“/d+(. )” на выражение: “”
Выражение “/d+(. )” означает
последовательность символов:
«любая цифра с точкой и
пробелом», например «1. » или
«2. ».
Выражение “” означает
отсутствие символов.
Результат: из требуемого
столбца удаляются все цифры с
точками и пробелами
Для составления выражений читаем
раздел Help, синтаксис языка GREL и
регулярные выражения.
17
Кейс 2. Преобразовываем текстовые данные в таблицу
Шаг 4. Переименовываем столбцы
Меню колонки:
Edit column > Rename column
replace(value, " ", " ")
Шаг 5. Удаляем двойные пробелы (при необходимости)
Меню колонки:
Edit cells > Transform
Шаг 6. Добавляем порядковые номера
строк и меняем порядок столбцов
Меню колонки:
Edit column > Add column based on this column row.index+1
Меню колонки:
Edit column > Move column to beginning
Шаг 7. Экспортируем
результат
18
Кейс 3. Преобразовываем данные бюджета
• Большое количество
строк, не содержащих
новой информации;
• Формат данных не удобен
как для изучения
пользователями, так и для
автоматизированной
обработки
Исходные данные:
19
Кейс 3. Преобразовываем данные бюджета
Результат:
• Массив данных не содержит лишней и дублирующейся информации;
• Формат данных совместим с форматом сервиса OpenSpending;
• Данные могут быть подвергнуты автоматизированной обработке;
• Данные могут быть изучены (самостоятельно пользователем или с
помощью сервисов визуализации) без предварительной обработки.
20
Кейс 3. Преобразовываем данные бюджета
Шаг 1. Импорт файла
- Выбираем название
проекта;
- Устанавливаем
количество верхних
строк, которые не
должны быть
импортированы;
- Выбираем строки
для названия
столбцов.
21
Кейс 3. Преобразовываем данные бюджета
Шаг 2. Удаление лишних строк, использование star
22
Кейс 3. Преобразовываем данные бюджета
Шаг 3. Добавляем столбцы
Шаг 4. Массовое изменение ячеек
Спасибо за внимание!
Ольга Пархимович
olya.parkhimovich@gmail.com
@OpenDataRu, @k0shk

Contenu connexe

Tendances

Занятие 4 Использование простых формул и функций
Занятие 4 Использование простых формул и функцийЗанятие 4 Использование простых формул и функций
Занятие 4 Использование простых формул и функцийНиколай Колдовский
 
Занятие 3 Основы ввода и вывода данных
Занятие 3 Основы ввода и вывода данныхЗанятие 3 Основы ввода и вывода данных
Занятие 3 Основы ввода и вывода данныхНиколай Колдовский
 
реляционная база Access
реляционная база Accessреляционная база Access
реляционная база AccessVladimir Burdaev
 
импорт информации из бд
импорт информации из бдимпорт информации из бд
импорт информации из бдVladimir Burdaev
 
ионова наталья
ионова натальяионова наталья
ионова натальяmarinaev
 
создание запросов, отчётов, Web страниц
создание запросов, отчётов, Web страницсоздание запросов, отчётов, Web страниц
создание запросов, отчётов, Web страницVladimir Burdaev
 
3. Таблицы
3. Таблицы3. Таблицы
3. ТаблицыArtyukhova
 
Клочков А. Автоматизация рассылки запросов потенциальным поставщикам средст...
Клочков А. Автоматизация  рассылки  запросов потенциальным поставщикам средст...Клочков А. Автоматизация  рассылки  запросов потенциальным поставщикам средст...
Клочков А. Автоматизация рассылки запросов потенциальным поставщикам средст...FMTeam
 
О работе с документами .xls, .xlsx, .rtf
О работе с документами .xls, .xlsx, .rtfО работе с документами .xls, .xlsx, .rtf
О работе с документами .xls, .xlsx, .rtfMoscow.pm
 
Бази даних-1 (LibreOffice Base)
Бази даних-1 (LibreOffice Base)Бази даних-1 (LibreOffice Base)
Бази даних-1 (LibreOffice Base)s-lana
 
0015
00150015
0015JIuc
 
Прикладная эконометрика. Лекция 2
Прикладная эконометрика. Лекция 2Прикладная эконометрика. Лекция 2
Прикладная эконометрика. Лекция 2Vladimir Tcherniak
 
Занятие 2 Работа с книгами и листами
Занятие 2 Работа с книгами и листамиЗанятие 2 Работа с книгами и листами
Занятие 2 Работа с книгами и листамиНиколай Колдовский
 
VBA Excel создание табеля успеваемости
VBA Excel создание табеля успеваемостиVBA Excel создание табеля успеваемости
VBA Excel создание табеля успеваемостиIlya Batozsky
 

Tendances (20)

149
149149
149
 
Занятие 4 Использование простых формул и функций
Занятие 4 Использование простых формул и функцийЗанятие 4 Использование простых формул и функций
Занятие 4 Использование простых формул и функций
 
Access 01
Access 01Access 01
Access 01
 
Access 02
Access 02Access 02
Access 02
 
Занятие 3 Основы ввода и вывода данных
Занятие 3 Основы ввода и вывода данныхЗанятие 3 Основы ввода и вывода данных
Занятие 3 Основы ввода и вывода данных
 
реляционная база Access
реляционная база Accessреляционная база Access
реляционная база Access
 
импорт информации из бд
импорт информации из бдимпорт информации из бд
импорт информации из бд
 
Занятие 1 Представление Excel
Занятие 1 Представление ExcelЗанятие 1 Представление Excel
Занятие 1 Представление Excel
 
ионова наталья
ионова натальяионова наталья
ионова наталья
 
создание запросов, отчётов, Web страниц
создание запросов, отчётов, Web страницсоздание запросов, отчётов, Web страниц
создание запросов, отчётов, Web страниц
 
3. Таблицы
3. Таблицы3. Таблицы
3. Таблицы
 
Клочков А. Автоматизация рассылки запросов потенциальным поставщикам средст...
Клочков А. Автоматизация  рассылки  запросов потенциальным поставщикам средст...Клочков А. Автоматизация  рассылки  запросов потенциальным поставщикам средст...
Клочков А. Автоматизация рассылки запросов потенциальным поставщикам средст...
 
О работе с документами .xls, .xlsx, .rtf
О работе с документами .xls, .xlsx, .rtfО работе с документами .xls, .xlsx, .rtf
О работе с документами .xls, .xlsx, .rtf
 
Бази даних-1 (LibreOffice Base)
Бази даних-1 (LibreOffice Base)Бази даних-1 (LibreOffice Base)
Бази даних-1 (LibreOffice Base)
 
0015
00150015
0015
 
Access 2
Access 2Access 2
Access 2
 
Прикладная эконометрика. Лекция 2
Прикладная эконометрика. Лекция 2Прикладная эконометрика. Лекция 2
Прикладная эконометрика. Лекция 2
 
Lekcia8
Lekcia8Lekcia8
Lekcia8
 
Занятие 2 Работа с книгами и листами
Занятие 2 Работа с книгами и листамиЗанятие 2 Работа с книгами и листами
Занятие 2 Работа с книгами и листами
 
VBA Excel создание табеля успеваемости
VBA Excel создание табеля успеваемостиVBA Excel создание табеля успеваемости
VBA Excel создание табеля успеваемости
 

En vedette

Использование программ Import IO и OpenRefine
Использование программ Import IO и OpenRefineИспользование программ Import IO и OpenRefine
Использование программ Import IO и OpenRefineOlya Parkhimovich
 
Зачем нужны открытые данные?
Зачем нужны открытые данные?Зачем нужны открытые данные?
Зачем нужны открытые данные?Olya Parkhimovich
 
School of Data - What is it?
School of Data - What is it?School of Data - What is it?
School of Data - What is it?School of Data
 
Skillshare - Understanding extractives data
Skillshare - Understanding extractives dataSkillshare - Understanding extractives data
Skillshare - Understanding extractives dataSchool of Data
 
Skillshare - Creating Excel Dashboards
Skillshare - Creating Excel DashboardsSkillshare - Creating Excel Dashboards
Skillshare - Creating Excel DashboardsSchool of Data
 

En vedette (6)

Использование программ Import IO и OpenRefine
Использование программ Import IO и OpenRefineИспользование программ Import IO и OpenRefine
Использование программ Import IO и OpenRefine
 
Зачем нужны открытые данные?
Зачем нужны открытые данные?Зачем нужны открытые данные?
Зачем нужны открытые данные?
 
School of Data - What is it?
School of Data - What is it?School of Data - What is it?
School of Data - What is it?
 
Intro to open refine
Intro to open refineIntro to open refine
Intro to open refine
 
Skillshare - Understanding extractives data
Skillshare - Understanding extractives dataSkillshare - Understanding extractives data
Skillshare - Understanding extractives data
 
Skillshare - Creating Excel Dashboards
Skillshare - Creating Excel DashboardsSkillshare - Creating Excel Dashboards
Skillshare - Creating Excel Dashboards
 

Similaire à Использование Open refine для работы с открытыми бюджетами и гос. контрактами

14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
14.цикл из пяти уроков информатики в 8 классе табличный процессор excel14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
14.цикл из пяти уроков информатики в 8 классе табличный процессор excelKirrrr123
 
Обзор полезных функций и приемов в Excel
Обзор полезных функций и приемов в ExcelОбзор полезных функций и приемов в Excel
Обзор полезных функций и приемов в ExcelTanya Mikhalchenko
 
Паттерны проектирования источников данных
Паттерны проектирования источников данныхПаттерны проектирования источников данных
Паттерны проектирования источников данныхAlex Polorotov
 
паттерны проектирования источников данных
паттерны проектирования источников данныхпаттерны проектирования источников данных
паттерны проектирования источников данныхVitaliy Trenkenshu
 
отчеты 12 класс
отчеты 12 классотчеты 12 класс
отчеты 12 классinnaivarlak
 
отчеты 12 класс
отчеты 12 классотчеты 12 класс
отчеты 12 классinnaivarlak
 
11 ms acces_приемы работыt
11 ms acces_приемы работыt11 ms acces_приемы работыt
11 ms acces_приемы работыtEvgeniy Golendyhin
 
лабораторная работа №4
лабораторная работа №4лабораторная работа №4
лабораторная работа №4Zhanna Kazakova
 
Базы данных лекция №7
Базы данных лекция №7Базы данных лекция №7
Базы данных лекция №7Vitaliy Pak
 
Разработка баз данных - введение
Разработка баз данных - введениеРазработка баз данных - введение
Разработка баз данных - введениеАлександр Шамрай
 
лекции спрг 6_семестр (1)
лекции спрг 6_семестр (1)лекции спрг 6_семестр (1)
лекции спрг 6_семестр (1)djbelyakk
 
0029
00290029
0029JIuc
 

Similaire à Использование Open refine для работы с открытыми бюджетами и гос. контрактами (20)

14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
14.цикл из пяти уроков информатики в 8 классе табличный процессор excel14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
14.цикл из пяти уроков информатики в 8 классе табличный процессор excel
 
Обзор полезных функций и приемов в Excel
Обзор полезных функций и приемов в ExcelОбзор полезных функций и приемов в Excel
Обзор полезных функций и приемов в Excel
 
Excel03
Excel03Excel03
Excel03
 
Excel
ExcelExcel
Excel
 
Stat 1 alpha
Stat 1 alphaStat 1 alpha
Stat 1 alpha
 
1
11
1
 
Паттерны проектирования источников данных
Паттерны проектирования источников данныхПаттерны проектирования источников данных
Паттерны проектирования источников данных
 
паттерны проектирования источников данных
паттерны проектирования источников данныхпаттерны проектирования источников данных
паттерны проектирования источников данных
 
11 класс
11 класс11 класс
11 класс
 
отчеты 12 класс
отчеты 12 классотчеты 12 класс
отчеты 12 класс
 
отчеты 12 класс
отчеты 12 классотчеты 12 класс
отчеты 12 класс
 
Excel02
Excel02Excel02
Excel02
 
P03
P03P03
P03
 
11 ms acces_приемы работыt
11 ms acces_приемы работыt11 ms acces_приемы работыt
11 ms acces_приемы работыt
 
24
2424
24
 
лабораторная работа №4
лабораторная работа №4лабораторная работа №4
лабораторная работа №4
 
Базы данных лекция №7
Базы данных лекция №7Базы данных лекция №7
Базы данных лекция №7
 
Разработка баз данных - введение
Разработка баз данных - введениеРазработка баз данных - введение
Разработка баз данных - введение
 
лекции спрг 6_семестр (1)
лекции спрг 6_семестр (1)лекции спрг 6_семестр (1)
лекции спрг 6_семестр (1)
 
0029
00290029
0029
 

Plus de Olya Parkhimovich

Открытые финансовые данные в медийных проектах
Открытые финансовые данные в медийных проектахОткрытые финансовые данные в медийных проектах
Открытые финансовые данные в медийных проектахOlya Parkhimovich
 
Открытые финансовые данные: где искать и как понимать?
Открытые финансовые данные: где искать и как понимать?Открытые финансовые данные: где искать и как понимать?
Открытые финансовые данные: где искать и как понимать?Olya Parkhimovich
 
Презентация об открытых государственных финансовых данных
Презентация об открытых государственных финансовых данныхПрезентация об открытых государственных финансовых данных
Презентация об открытых государственных финансовых данныхOlya Parkhimovich
 
Что такое открытый бюджет и как читать финансовые данные
Что такое открытый бюджет и как читать финансовые данныеЧто такое открытый бюджет и как читать финансовые данные
Что такое открытый бюджет и как читать финансовые данныеOlya Parkhimovich
 
Open Budget Format: Issues on Development of Specification and Converter Impl...
Open Budget Format: Issues on Development of Specification and Converter Impl...Open Budget Format: Issues on Development of Specification and Converter Impl...
Open Budget Format: Issues on Development of Specification and Converter Impl...Olya Parkhimovich
 
Анализ открытости муниципальных бюджетов
Анализ открытости муниципальных бюджетовАнализ открытости муниципальных бюджетов
Анализ открытости муниципальных бюджетовOlya Parkhimovich
 
Пожелания к наборам открытых финансовых данных
Пожелания к наборам открытых финансовых данныхПожелания к наборам открытых финансовых данных
Пожелания к наборам открытых финансовых данныхOlya Parkhimovich
 
Открытые финансовые данные. Опыт России и Кыргызстана
Открытые финансовые данные. Опыт России и КыргызстанаОткрытые финансовые данные. Опыт России и Кыргызстана
Открытые финансовые данные. Опыт России и КыргызстанаOlya Parkhimovich
 
Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)
Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)
Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)Olya Parkhimovich
 
Project of Saint Petersburg Open Budget
Project of Saint Petersburg Open BudgetProject of Saint Petersburg Open Budget
Project of Saint Petersburg Open BudgetOlya Parkhimovich
 
Рейтинг открытости бюджетов. Open Budget Initiative
Рейтинг открытости бюджетов. Open Budget InitiativeРейтинг открытости бюджетов. Open Budget Initiative
Рейтинг открытости бюджетов. Open Budget InitiativeOlya Parkhimovich
 
Данные расходов UK и проект Budget Puzzle
Данные расходов UK и проект Budget PuzzleДанные расходов UK и проект Budget Puzzle
Данные расходов UK и проект Budget PuzzleOlya Parkhimovich
 
Этапы создания бюджета США и портал USASpending.gov
Этапы создания бюджета США и портал USASpending.govЭтапы создания бюджета США и портал USASpending.gov
Этапы создания бюджета США и портал USASpending.govOlya Parkhimovich
 
Портал бюджета СПб
Портал бюджета СПбПортал бюджета СПб
Портал бюджета СПбOlya Parkhimovich
 

Plus de Olya Parkhimovich (17)

Открытые финансовые данные в медийных проектах
Открытые финансовые данные в медийных проектахОткрытые финансовые данные в медийных проектах
Открытые финансовые данные в медийных проектах
 
Открытые финансовые данные: где искать и как понимать?
Открытые финансовые данные: где искать и как понимать?Открытые финансовые данные: где искать и как понимать?
Открытые финансовые данные: где искать и как понимать?
 
Презентация об открытых государственных финансовых данных
Презентация об открытых государственных финансовых данныхПрезентация об открытых государственных финансовых данных
Презентация об открытых государственных финансовых данных
 
Что такое открытый бюджет и как читать финансовые данные
Что такое открытый бюджет и как читать финансовые данныеЧто такое открытый бюджет и как читать финансовые данные
Что такое открытый бюджет и как читать финансовые данные
 
Open Budget Format: Issues on Development of Specification and Converter Impl...
Open Budget Format: Issues on Development of Specification and Converter Impl...Open Budget Format: Issues on Development of Specification and Converter Impl...
Open Budget Format: Issues on Development of Specification and Converter Impl...
 
Анализ открытости муниципальных бюджетов
Анализ открытости муниципальных бюджетовАнализ открытости муниципальных бюджетов
Анализ открытости муниципальных бюджетов
 
Пожелания к наборам открытых финансовых данных
Пожелания к наборам открытых финансовых данныхПожелания к наборам открытых финансовых данных
Пожелания к наборам открытых финансовых данных
 
Открытые финансовые данные. Опыт России и Кыргызстана
Открытые финансовые данные. Опыт России и КыргызстанаОткрытые финансовые данные. Опыт России и Кыргызстана
Открытые финансовые данные. Опыт России и Кыргызстана
 
Open Budget Format
Open Budget FormatOpen Budget Format
Open Budget Format
 
Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)
Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)
Поверхностный анализ кандидатов в депутаты Санкт-Петербурга (черновик)
 
Open data in russia
Open data in russiaOpen data in russia
Open data in russia
 
Open Data. Основы
Open Data. ОсновыOpen Data. Основы
Open Data. Основы
 
Project of Saint Petersburg Open Budget
Project of Saint Petersburg Open BudgetProject of Saint Petersburg Open Budget
Project of Saint Petersburg Open Budget
 
Рейтинг открытости бюджетов. Open Budget Initiative
Рейтинг открытости бюджетов. Open Budget InitiativeРейтинг открытости бюджетов. Open Budget Initiative
Рейтинг открытости бюджетов. Open Budget Initiative
 
Данные расходов UK и проект Budget Puzzle
Данные расходов UK и проект Budget PuzzleДанные расходов UK и проект Budget Puzzle
Данные расходов UK и проект Budget Puzzle
 
Этапы создания бюджета США и портал USASpending.gov
Этапы создания бюджета США и портал USASpending.govЭтапы создания бюджета США и портал USASpending.gov
Этапы создания бюджета США и портал USASpending.gov
 
Портал бюджета СПб
Портал бюджета СПбПортал бюджета СПб
Портал бюджета СПб
 

Использование Open refine для работы с открытыми бюджетами и гос. контрактами

  • 1. Clean Up Your Dirty Data Using
  • 2. 2 OpenRefine – сервис для обработки и очистки данных • Получение представления о больших массивах данных; • Нахождение ошибок и опечаток • Переработка данных в нужные форматы. http://openrefine.org/
  • 3. 3 План презентации 1. Общее представление о массиве данных и очистка данных 2. Создаем машиночитаемые данные из текста 3. Преобразовываем формат данных
  • 4. 4 Кейс 1. Общее представление о массиве данных Количество строк Названия столбцов Импорт, экспорт проектов Гос. контракты Ленинградской области за март и май 2014 года
  • 5. 5 Построение фасетов Значения, встречающиеся в столбце Построение фасетов Сортировка по количеству
  • 6. 6 Изменение наименований и удаление столбцов Изменение наименования столбца Удаление столбца
  • 7. 7 Работа с датами Преобразование текстовых значений в даты Исследование дат Пример: даты публикации контрактов Выходные Время публикации Март Май
  • 8. 8 Работа с персональными данными Исходные столбцы Пример: Ф.И.О. генеральных директоров Ошибки в заполнении данных Построение фасетов Объединение столбцов value + " " + cells["First Name"].value + " " + cells["Middle Name"].value (Объединяем столбцы с фамилией, именем и отчеством в один столбец) Количество вариантов
  • 9. 9 Работа с персональными данными. Исправляем ошибки Массовое редактирование ячеек Кластеризация данных
  • 10. 10 Работа с номерами телефонов Фасеты и кластеризация (fingerprint) 2206 вариантов Кластеризация (ngram-fingerprint) 2170 вариантов
  • 11. 11 Кластеризация данных (находим дубликаты) Фасеты и кластеризация (fingerprint) 604 -> 483 варианта
  • 12. 12 Кластеризация данных (находим дубликаты) Фасеты и кластеризация (ngram-fingerprint) 483 -> 468 варианта
  • 13. 13 Кластеризация данных (находим дубликаты) Фасеты и кластеризация (fingerprint) 2737 -> 2676 варианта
  • 14. 14 Кластеризация данных (находим дубликаты) Фасеты и кластеризация (ngram-fingerprint) 2676 -> 2432 варианта
  • 15. 15 Кейс 2. Преобразовываем текстовые данные в таблицу Пример данных: Шаг 1. Создаем новый проект Шаг 2. Делим данные на несколько столбцов В качестве разделителя используем: ‘ (‘
  • 16. 16 Кейс 2. Преобразовываем текстовые данные в таблицу Шаг 3. Удаляем лишние символы Делим вторую колонку на две, используя в качестве разделителя: ‘) ’ Выбираем меню столбца, содержащего лишние символы Вводим нужную функцию replace(value, /d+(. )/, "") С помощью функции replace мы заменяем выражение “/d+(. )” на выражение: “” Выражение “/d+(. )” означает последовательность символов: «любая цифра с точкой и пробелом», например «1. » или «2. ». Выражение “” означает отсутствие символов. Результат: из требуемого столбца удаляются все цифры с точками и пробелами Для составления выражений читаем раздел Help, синтаксис языка GREL и регулярные выражения.
  • 17. 17 Кейс 2. Преобразовываем текстовые данные в таблицу Шаг 4. Переименовываем столбцы Меню колонки: Edit column > Rename column replace(value, " ", " ") Шаг 5. Удаляем двойные пробелы (при необходимости) Меню колонки: Edit cells > Transform Шаг 6. Добавляем порядковые номера строк и меняем порядок столбцов Меню колонки: Edit column > Add column based on this column row.index+1 Меню колонки: Edit column > Move column to beginning Шаг 7. Экспортируем результат
  • 18. 18 Кейс 3. Преобразовываем данные бюджета • Большое количество строк, не содержащих новой информации; • Формат данных не удобен как для изучения пользователями, так и для автоматизированной обработки Исходные данные:
  • 19. 19 Кейс 3. Преобразовываем данные бюджета Результат: • Массив данных не содержит лишней и дублирующейся информации; • Формат данных совместим с форматом сервиса OpenSpending; • Данные могут быть подвергнуты автоматизированной обработке; • Данные могут быть изучены (самостоятельно пользователем или с помощью сервисов визуализации) без предварительной обработки.
  • 20. 20 Кейс 3. Преобразовываем данные бюджета Шаг 1. Импорт файла - Выбираем название проекта; - Устанавливаем количество верхних строк, которые не должны быть импортированы; - Выбираем строки для названия столбцов.
  • 21. 21 Кейс 3. Преобразовываем данные бюджета Шаг 2. Удаление лишних строк, использование star
  • 22. 22 Кейс 3. Преобразовываем данные бюджета Шаг 3. Добавляем столбцы Шаг 4. Массовое изменение ячеек
  • 23. Спасибо за внимание! Ольга Пархимович olya.parkhimovich@gmail.com @OpenDataRu, @k0shk