Семинар Центра компетенции компании КРОК «Построение единой информационной среды как средство поддержания стабильности бизнеса в условиях кризиса».
Подробнее о мероприятии http://www.croc.ru/action/detail/1602/
Презентация Юрия Кудрявцева, эксперта направления BI департамента информационных систем компании КРОК
2. СОДЕРЖАНИЕ
• Роль ETL-инструмента в аналитической
системе
• О Pentaho и Pentaho BI Suite
• О Pentaho Data Integrator
• Пример работы PDI
• Опыт использования PDI в проектах КРОК
и особенности ETL-масштабирования
5. О PENTAHO CORPORATION
• Основана в 2004 году
• Первый производитель Open Source BI
• В управляющую команду входят менеджеры
из Hyperion, IBM Cognos, Business Objects,
Oracle, IBM, SAS
• Полноценная система BI, включающая
отчетность, OLAP-анализ, ETL и data mining
8. АРХИТЕКТУРА PENTAHO BI
• Модульная
архитектура
• SOA
• 100% Java EE
• Тонкие web-клиенты,
Ajax
• Места разработки на
Eclipse
9. PENTAHO DATA INTEGRATOR
Проект начат в 2001 году под названием Kettle
(Kettle Extraction Transportation Transformation
Loading Enviroment)
10. ОСОБЕННОСТИ PDI
• Ориентация на метаданные
– Что сделать, а не как сделать
– Единый репозиторий метаданных
• Подключение к множеству источников
• Возможность добавлять собственные
расширения и компоненты
• Масштабируемость, использование
кластеров
• Удобный графический интерфейс
• Отладка трансформаций
13. ЗАГРУЗКА ДАННЫХ. LOAD
• Загрузка данных в БД (специальные
компоненты для массовой загрузки, Upsert)
• Обновление ХД (компоненты для SCD2,
генерации суррогатных ключей)
• Партиционирование
• Параллельное чтение/загрузка
14. ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ
• Активное сообщество:
– Более 10 тысяч скачиваний PDI в месяц
– Более 50,000 тем в форумах за 3 года
• Общедоступная система учета ошибок — Jira
• Более 30 внешних разработчиков
16. МАСШТАБИРОВАНИЕ ETL.
КОНВЕЙЕР
• Последовательная обработка наборов записей в потоке
• Каждый шаг выполняется отдельным процессом, можно
увеличивать количество процессов на шаг
• Ограниченные возможности
масштабирования («вытягивания») работы
17. МАСШТАБИРОВАНИЕ ETL.
ПАРТИЦИОНИРОВАНИЕ
• Партиционирование данных для
независимой обработки на нескольких
узлах кластера
• Линейное масштабирование
по количеству узлов
• Зависимость от метода
партиционирования
• Сложнее проектирование
18. МАСШТАБИРОВАНИЕ ETL
• Сочетание конвейера и партиционирования
• Выбор метода масштабирования для каждой работы
• Поиск оптимальной производительности
19. МАСШТАБИРУЕМОСТЬ PDI
• Простое подключение рабочих узлов в кластер
• Партиционирование данных
• Визуальный интерфейс настройки
многопроцессорного выполнения. Каждая из задач
выполняется на 4-х узлах
20. ИСПОЛЬЗОВАНИЕ PDI. ОПЫТ КРОК
• Государственная организация
– Выгрузка данных из ХД в кубы Essbase
– Использование сложных преобразований данных, регулярных
выражений
– Многопоточная загрузка
– Скорость более 20 тысяч строк/с
• Johnson&Johnson
– Интеграция данных из файлов Excel
• Пилотные проекты
– Генерация данных для нагрузочных тестирований
– Импорт файлов
– Сложные преобразования файлов без использования СУБД
21. ЛИЦЕНЗИРОВАНИЕ PDI
• Community Edition – полноценный, вполне
рабочий инструмент. Поддержка с
нерегламентированным временем отклика, но та же
система заявок Jira
• Enterprise Edition – от 10к$ годовая
поддержка (4 процессора), время реакции <4 часов.
Чуть больше шагов.
22. ИТОГО
• PDI – эффективный ETL-инструмент, использование
которого может помочь Вам строить аналитические
системы и хранилища данных без дополнительных
начальных затрат на лицензии
• КРОК поможет оптимально применить PDI:
• Обучение
• Консалтинг
• Методология ETL
23. СПАСИБО ЗА ВНИМАНИЕ!
Юрий Кудрявцев,
ЭКСПЕРТ НАПРАВЛЕНИЯ
БИЗНЕС-ПРИЛОЖЕНИЙ
КОМПАНИИ КРОК
Т.: (495)974-22-74 доб. 6396
Ф: (495) 974 2277
email: yk@croc.ru