SlideShare a Scribd company logo
1 of 23
Download to read offline
ОСОБЕННОСТИ ETL-ИНСТРУМЕНТА
PENTAHO DATA INTEGRATOR.
ОПЫТ КРОК
Юрий Кудрявцев,
ЭКСПЕРТ НАПРАВЛЕНИЯ
БИЗНЕС-ПРИЛОЖЕНИЙ
КОМПАНИИ КРОК
СОДЕРЖАНИЕ
• Роль ETL-инструмента в аналитической
системе
• О Pentaho и Pentaho BI Suite
• О Pentaho Data Integrator
• Пример работы PDI
• Опыт использования PDI в проектах КРОК
и особенности ETL-масштабирования
АНАЛИТИЧЕСКАЯ СИСТЕМА
Витрины
ETL
Хранилище данных
Отчетность
Источники
данных
ERP,
CRM,..
Источники
данных
ERP,
CRM,..
ПИСАТЬ КОД ИЛИ ИСПОЛЬЗОВАТЬ
ГОТОВЫЙ ETL?
О PENTAHO CORPORATION
• Основана в 2004 году
• Первый производитель Open Source BI
• В управляющую команду входят менеджеры
из Hyperion, IBM Cognos, Business Objects,
Oracle, IBM, SAS
• Полноценная система BI, включающая
отчетность, OLAP-анализ, ETL и data mining
ЗАКАЗЧИКИ PENTAHO
БЕЛЬГИЙСКОЕ УПРАВЛЕНИЕ
ТРАФИКОМ
• Он-лайн интеграция
данных 570 сенсоров
• Самая большая
таблица фактов –
более миллиарда
записей,
добавляется
100 млн. ежемесячно
АРХИТЕКТУРА PENTAHO BI
• Модульная
архитектура
• SOA
• 100% Java EE
• Тонкие web-клиенты,
Ajax
• Места разработки на
Eclipse
PENTAHO DATA INTEGRATOR
Проект начат в 2001 году под названием Kettle
(Kettle Extraction Transportation Transformation
Loading Enviroment)
ОСОБЕННОСТИ PDI
• Ориентация на метаданные
– Что сделать, а не как сделать
– Единый репозиторий метаданных
• Подключение к множеству источников
• Возможность добавлять собственные
расширения и компоненты
• Масштабируемость, использование
кластеров
• Удобный графический интерфейс
• Отладка трансформаций
ИЗВЛЕЧЕНИЕ ДАННЫХ.
EXTRACT
• Свыше 25 типов БД
• Текстовые файлы
• XML
• XLS
• dbf, Xbase
• Access
• LDAP
• Системные данные
ТРАНСФОРМАЦИЯ ДАННЫХ.
TRANSFORM
• Lookup (поиск соответствия)
– В таблицах БД
– Файлах
– Памяти сервера
• Вычисления агрегатов
• Сложные трансформации
– Регулярные выражения
– JavaScript
• Фильтрация
• Сортировка
ЗАГРУЗКА ДАННЫХ. LOAD
• Загрузка данных в БД (специальные
компоненты для массовой загрузки, Upsert)
• Обновление ХД (компоненты для SCD2,
генерации суррогатных ключей)
• Партиционирование
• Параллельное чтение/загрузка
ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ
• Активное сообщество:
– Более 10 тысяч скачиваний PDI в месяц
– Более 50,000 тем в форумах за 3 года
• Общедоступная система учета ошибок — Jira
• Более 30 внешних разработчиков
ДЕМОНСТРАЦИЯ PDI.
ЗАГРУЗКА ДАННЫХ
О КЛИЕНТАХ В ХД
МАСШТАБИРОВАНИЕ ETL.
КОНВЕЙЕР
• Последовательная обработка наборов записей в потоке
• Каждый шаг выполняется отдельным процессом, можно
увеличивать количество процессов на шаг
• Ограниченные возможности
масштабирования («вытягивания») работы
МАСШТАБИРОВАНИЕ ETL.
ПАРТИЦИОНИРОВАНИЕ
• Партиционирование данных для
независимой обработки на нескольких
узлах кластера
• Линейное масштабирование
по количеству узлов
• Зависимость от метода
партиционирования
• Сложнее проектирование
МАСШТАБИРОВАНИЕ ETL
• Сочетание конвейера и партиционирования
• Выбор метода масштабирования для каждой работы
• Поиск оптимальной производительности
МАСШТАБИРУЕМОСТЬ PDI
• Простое подключение рабочих узлов в кластер
• Партиционирование данных
• Визуальный интерфейс настройки
многопроцессорного выполнения. Каждая из задач
выполняется на 4-х узлах
ИСПОЛЬЗОВАНИЕ PDI. ОПЫТ КРОК
• Государственная организация
– Выгрузка данных из ХД в кубы Essbase
– Использование сложных преобразований данных, регулярных
выражений
– Многопоточная загрузка
– Скорость более 20 тысяч строк/с
• Johnson&Johnson
– Интеграция данных из файлов Excel
• Пилотные проекты
– Генерация данных для нагрузочных тестирований
– Импорт файлов
– Сложные преобразования файлов без использования СУБД
ЛИЦЕНЗИРОВАНИЕ PDI
• Community Edition – полноценный, вполне
рабочий инструмент. Поддержка с
нерегламентированным временем отклика, но та же
система заявок Jira
• Enterprise Edition – от 10к$ годовая
поддержка (4 процессора), время реакции <4 часов.
Чуть больше шагов.
ИТОГО
• PDI – эффективный ETL-инструмент, использование
которого может помочь Вам строить аналитические
системы и хранилища данных без дополнительных
начальных затрат на лицензии
• КРОК поможет оптимально применить PDI:
• Обучение
• Консалтинг
• Методология ETL
СПАСИБО ЗА ВНИМАНИЕ!
Юрий Кудрявцев,
ЭКСПЕРТ НАПРАВЛЕНИЯ
БИЗНЕС-ПРИЛОЖЕНИЙ
КОМПАНИИ КРОК
Т.: (495)974-22-74 доб. 6396
Ф: (495) 974 2277
email: yk@croc.ru

More Related Content

What's hot

미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
NAVER Engineering
 

What's hot (9)

발표Ppt (1)
발표Ppt (1)발표Ppt (1)
발표Ppt (1)
 
CNIT 126 6: Recognizing C Code Constructs in Assembly
CNIT 126 6: Recognizing C Code Constructs in Assembly CNIT 126 6: Recognizing C Code Constructs in Assembly
CNIT 126 6: Recognizing C Code Constructs in Assembly
 
Let's refine your Scala Code
Let's refine your Scala CodeLet's refine your Scala Code
Let's refine your Scala Code
 
파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차파이썬을 활용한 챗봇 서비스 개발 3일차
파이썬을 활용한 챗봇 서비스 개발 3일차
 
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
미등록단어 문제 해결을 위한 비지도학습 기반 한국어자연어처리 방법론 및 응용
 
Angular Unit Testing
Angular Unit TestingAngular Unit Testing
Angular Unit Testing
 
TDOH x 台科 pwn課程
TDOH x 台科 pwn課程TDOH x 台科 pwn課程
TDOH x 台科 pwn課程
 
Customize Your Car: An Adventure in Using Elixir and Nerves to Hack Your Vehi...
Customize Your Car: An Adventure in Using Elixir and Nerves to Hack Your Vehi...Customize Your Car: An Adventure in Using Elixir and Nerves to Hack Your Vehi...
Customize Your Car: An Adventure in Using Elixir and Nerves to Hack Your Vehi...
 
Functor, Apply, Applicative And Monad
Functor, Apply, Applicative And MonadFunctor, Apply, Applicative And Monad
Functor, Apply, Applicative And Monad
 

Viewers also liked

ProveIT. ETL как конструктор алгоритмов обработки данных.
ProveIT. ETL как конструктор алгоритмов обработки данных.ProveIT. ETL как конструктор алгоритмов обработки данных.
ProveIT. ETL как конструктор алгоритмов обработки данных.
chester_ds
 
Sas rule based codebook generation for exploratory data analysis - wuss 2012
Sas rule based codebook generation for exploratory data analysis - wuss 2012Sas rule based codebook generation for exploratory data analysis - wuss 2012
Sas rule based codebook generation for exploratory data analysis - wuss 2012
RossBettinger
 
Великие географические открытия
Великие географические открытияВеликие географические открытия
Великие географические открытия
Katty Zimina
 
Itransition: Talend - о компании и решениях
Itransition:  Talend - о компании и решенияхItransition:  Talend - о компании и решениях
Itransition: Talend - о компании и решениях
Itransition Group Ltd.
 
Презентация Informatica MDM
Презентация Informatica MDMПрезентация Informatica MDM
Презентация Informatica MDM
Oleksii Tsipiniuk
 

Viewers also liked (15)

Реализация bi-системы собственными силами или как снизить стоимость проекта. ...
Реализация bi-системы собственными силами или как снизить стоимость проекта. ...Реализация bi-системы собственными силами или как снизить стоимость проекта. ...
Реализация bi-системы собственными силами или как снизить стоимость проекта. ...
 
ProveIT. ETL как конструктор алгоритмов обработки данных.
ProveIT. ETL как конструктор алгоритмов обработки данных.ProveIT. ETL как конструктор алгоритмов обработки данных.
ProveIT. ETL как конструктор алгоритмов обработки данных.
 
Интеграция данных компании
Интеграция данных компанииИнтеграция данных компании
Интеграция данных компании
 
BI Pentaho for Retail
BI Pentaho for RetailBI Pentaho for Retail
BI Pentaho for Retail
 
Talend - about company and solutions
Talend - about company and solutionsTalend - about company and solutions
Talend - about company and solutions
 
Sas rule based codebook generation for exploratory data analysis - wuss 2012
Sas rule based codebook generation for exploratory data analysis - wuss 2012Sas rule based codebook generation for exploratory data analysis - wuss 2012
Sas rule based codebook generation for exploratory data analysis - wuss 2012
 
Великие географические открытия
Великие географические открытияВеликие географические открытия
Великие географические открытия
 
Talend Data Quality - catalyst for CRM deployment
Talend Data Quality - catalyst for CRM deploymentTalend Data Quality - catalyst for CRM deployment
Talend Data Quality - catalyst for CRM deployment
 
Itransition: Talend - о компании и решениях
Itransition:  Talend - о компании и решенияхItransition:  Talend - о компании и решениях
Itransition: Talend - о компании и решениях
 
Очистка данных на практике: мифы и легенты Excel и R
Очистка данных на практике: мифы и легенты Excel и RОчистка данных на практике: мифы и легенты Excel и R
Очистка данных на практике: мифы и легенты Excel и R
 
Практика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему HadoopПрактика миграции реляционных баз данных в экосистему Hadoop
Практика миграции реляционных баз данных в экосистему Hadoop
 
Презентация Informatica MDM
Презентация Informatica MDMПрезентация Informatica MDM
Презентация Informatica MDM
 
Kettle – Etl Tool
Kettle – Etl ToolKettle – Etl Tool
Kettle – Etl Tool
 
Pentaho Data Integration Introduction
Pentaho Data Integration IntroductionPentaho Data Integration Introduction
Pentaho Data Integration Introduction
 
Инвестиционный проект: информационные экраны в подъездах
Инвестиционный проект: информационные экраны в подъездахИнвестиционный проект: информационные экраны в подъездах
Инвестиционный проект: информационные экраны в подъездах
 

Similar to Особенности ETL — инструмента pentaho data integrator. Опыт КРОК

Платформа для Интернета вещей AggreGate
Платформа для Интернета вещей AggreGateПлатформа для Интернета вещей AggreGate
Платформа для Интернета вещей AggreGate
Tibbo
 
Преимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleПреимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий Oracle
Andrey Akulov
 
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...Стратегия и тактика улучшения производительности BSS систем оператора мобильн...
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...
Ontico
 
Oracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памятиOracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памяти
Andrey Akulov
 
2014.12.23 Александр Андреев, Parallels
2014.12.23 Александр Андреев, Parallels2014.12.23 Александр Андреев, Parallels
2014.12.23 Александр Андреев, Parallels
Nikolay Samokhvalov
 

Similar to Особенности ETL — инструмента pentaho data integrator. Опыт КРОК (20)

Oracle Big Data proposition
Oracle Big Data propositionOracle Big Data proposition
Oracle Big Data proposition
 
Презентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BIПрезентация аналитической системы для ритейла СуперМаг BI
Презентация аналитической системы для ритейла СуперМаг BI
 
Основы OLAP. Вебинар Workaround в Softengi
Основы OLAP. Вебинар Workaround в SoftengiОсновы OLAP. Вебинар Workaround в Softengi
Основы OLAP. Вебинар Workaround в Softengi
 
Использование opensource СУБД. Подходы к миграции
Использование opensource СУБД. Подходы к миграцииИспользование opensource СУБД. Подходы к миграции
Использование opensource СУБД. Подходы к миграции
 
IBM ECM & Discovery Strategy
IBM ECM & Discovery StrategyIBM ECM & Discovery Strategy
IBM ECM & Discovery Strategy
 
Платформа для Интернета вещей AggreGate
Платформа для Интернета вещей AggreGateПлатформа для Интернета вещей AggreGate
Платформа для Интернета вещей AggreGate
 
Преимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий OracleПреимущества построения оперативной отчетности с помощью технологий Oracle
Преимущества построения оперативной отчетности с помощью технологий Oracle
 
R-Style Part
R-Style PartR-Style Part
R-Style Part
 
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...Стратегия и тактика улучшения производительности BSS систем оператора мобильн...
Стратегия и тактика улучшения производительности BSS систем оператора мобильн...
 
Fors и big data appliance
Fors и big data applianceFors и big data appliance
Fors и big data appliance
 
владивосток форум производительность_ha
владивосток форум производительность_haвладивосток форум производительность_ha
владивосток форум производительность_ha
 
Oracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памятиOracle database In-Memory - новая технология обработки в памяти
Oracle database In-Memory - новая технология обработки в памяти
 
2014.12.23 Александр Андреев, Parallels
2014.12.23 Александр Андреев, Parallels2014.12.23 Александр Андреев, Parallels
2014.12.23 Александр Андреев, Parallels
 
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-casesInformatica for Data Warehouse Optimisation and Data Lake Use-cases
Informatica for Data Warehouse Optimisation and Data Lake Use-cases
 
supercluster
superclustersupercluster
supercluster
 
Tools to ensure quality of information system
Tools to ensure quality of information system Tools to ensure quality of information system
Tools to ensure quality of information system
 
JD Edwards Orchestrator and AIS server
JD Edwards Orchestrator and AIS serverJD Edwards Orchestrator and AIS server
JD Edwards Orchestrator and AIS server
 
Построение системы аналитики
Построение системы аналитикиПостроение системы аналитики
Построение системы аналитики
 
Synergy
SynergySynergy
Synergy
 
Решения Oracle для Big Data
Решения Oracle для Big DataРешения Oracle для Big Data
Решения Oracle для Big Data
 

More from КРОК

More from КРОК (20)

Каталог видео-курсов КРОК’ОК
Каталог видео-курсов КРОК’ОККаталог видео-курсов КРОК’ОК
Каталог видео-курсов КРОК’ОК
 
Корпоративное онлайн-обучение
Корпоративное онлайн-обучениеКорпоративное онлайн-обучение
Корпоративное онлайн-обучение
 
Решение КРОК для управления недвижимостью
Решение КРОК для управления недвижимостьюРешение КРОК для управления недвижимостью
Решение КРОК для управления недвижимостью
 
Заоблачная репутация ИТ-департамента
Заоблачная репутация ИТ-департаментаЗаоблачная репутация ИТ-департамента
Заоблачная репутация ИТ-департамента
 
Умное хранение — выжмите максимум из бизнес-данных!
Умное хранение — выжмите максимум из бизнес-данных!Умное хранение — выжмите максимум из бизнес-данных!
Умное хранение — выжмите максимум из бизнес-данных!
 
3D/VR инструменты в обучении персонала
3D/VR инструменты в обучении персонала3D/VR инструменты в обучении персонала
3D/VR инструменты в обучении персонала
 
Что такое SDS?
Что такое SDS?Что такое SDS?
Что такое SDS?
 
Деловой подход к хранению данных
Деловой подход к хранению данныхДеловой подход к хранению данных
Деловой подход к хранению данных
 
ЕЭК. Создание Программно-Аппаратного Комплекса Мультимедийных Систем
ЕЭК. Создание Программно-Аппаратного Комплекса Мультимедийных СистемЕЭК. Создание Программно-Аппаратного Комплекса Мультимедийных Систем
ЕЭК. Создание Программно-Аппаратного Комплекса Мультимедийных Систем
 
ВТБ24. Модернизация контактного центра
ВТБ24. Модернизация контактного центраВТБ24. Модернизация контактного центра
ВТБ24. Модернизация контактного центра
 
Tele2. Модернизация контактного центра
Tele2. Модернизация контактного центраTele2. Модернизация контактного центра
Tele2. Модернизация контактного центра
 
КРОК. Клиенты на всю жизнь! что об этом знает ваш контакт центр
КРОК. Клиенты на всю жизнь! что об этом знает ваш контакт центрКРОК. Клиенты на всю жизнь! что об этом знает ваш контакт центр
КРОК. Клиенты на всю жизнь! что об этом знает ваш контакт центр
 
Программный сервер видеоконференций Mind
Программный сервер видеоконференций MindПрограммный сервер видеоконференций Mind
Программный сервер видеоконференций Mind
 
Решения для видеосвязи в среде Skype for business
Решения для видеосвязи в среде Skype for businessРешения для видеосвязи в среде Skype for business
Решения для видеосвязи в среде Skype for business
 
Новые возможности при создании систем вкс
Новые возможности при создании систем вксНовые возможности при создании систем вкс
Новые возможности при создании систем вкс
 
Cisco meeting server - переосмысление многоточечных конференций
Cisco meeting server - переосмысление многоточечных конференцийCisco meeting server - переосмысление многоточечных конференций
Cisco meeting server - переосмысление многоточечных конференций
 
Решения на основе сервера вкс Vinteo
Решения на основе сервера вкс VinteoРешения на основе сервера вкс Vinteo
Решения на основе сервера вкс Vinteo
 
Решения на основе сервера вкс Vinteo
Решения на основе сервера вкс VinteoРешения на основе сервера вкс Vinteo
Решения на основе сервера вкс Vinteo
 
Решения для видеосвязи в среде Skype for business
Решения для видеосвязи в среде Skype for businessРешения для видеосвязи в среде Skype for business
Решения для видеосвязи в среде Skype for business
 
Программный сервер видеоконференций Mind
Программный сервер видеоконференций MindПрограммный сервер видеоконференций Mind
Программный сервер видеоконференций Mind
 

Особенности ETL — инструмента pentaho data integrator. Опыт КРОК

  • 1. ОСОБЕННОСТИ ETL-ИНСТРУМЕНТА PENTAHO DATA INTEGRATOR. ОПЫТ КРОК Юрий Кудрявцев, ЭКСПЕРТ НАПРАВЛЕНИЯ БИЗНЕС-ПРИЛОЖЕНИЙ КОМПАНИИ КРОК
  • 2. СОДЕРЖАНИЕ • Роль ETL-инструмента в аналитической системе • О Pentaho и Pentaho BI Suite • О Pentaho Data Integrator • Пример работы PDI • Опыт использования PDI в проектах КРОК и особенности ETL-масштабирования
  • 4. ПИСАТЬ КОД ИЛИ ИСПОЛЬЗОВАТЬ ГОТОВЫЙ ETL?
  • 5. О PENTAHO CORPORATION • Основана в 2004 году • Первый производитель Open Source BI • В управляющую команду входят менеджеры из Hyperion, IBM Cognos, Business Objects, Oracle, IBM, SAS • Полноценная система BI, включающая отчетность, OLAP-анализ, ETL и data mining
  • 7. БЕЛЬГИЙСКОЕ УПРАВЛЕНИЕ ТРАФИКОМ • Он-лайн интеграция данных 570 сенсоров • Самая большая таблица фактов – более миллиарда записей, добавляется 100 млн. ежемесячно
  • 8. АРХИТЕКТУРА PENTAHO BI • Модульная архитектура • SOA • 100% Java EE • Тонкие web-клиенты, Ajax • Места разработки на Eclipse
  • 9. PENTAHO DATA INTEGRATOR Проект начат в 2001 году под названием Kettle (Kettle Extraction Transportation Transformation Loading Enviroment)
  • 10. ОСОБЕННОСТИ PDI • Ориентация на метаданные – Что сделать, а не как сделать – Единый репозиторий метаданных • Подключение к множеству источников • Возможность добавлять собственные расширения и компоненты • Масштабируемость, использование кластеров • Удобный графический интерфейс • Отладка трансформаций
  • 11. ИЗВЛЕЧЕНИЕ ДАННЫХ. EXTRACT • Свыше 25 типов БД • Текстовые файлы • XML • XLS • dbf, Xbase • Access • LDAP • Системные данные
  • 12. ТРАНСФОРМАЦИЯ ДАННЫХ. TRANSFORM • Lookup (поиск соответствия) – В таблицах БД – Файлах – Памяти сервера • Вычисления агрегатов • Сложные трансформации – Регулярные выражения – JavaScript • Фильтрация • Сортировка
  • 13. ЗАГРУЗКА ДАННЫХ. LOAD • Загрузка данных в БД (специальные компоненты для массовой загрузки, Upsert) • Обновление ХД (компоненты для SCD2, генерации суррогатных ключей) • Партиционирование • Параллельное чтение/загрузка
  • 14. ДОПОЛНИТЕЛЬНАЯ ИНФОРМАЦИЯ • Активное сообщество: – Более 10 тысяч скачиваний PDI в месяц – Более 50,000 тем в форумах за 3 года • Общедоступная система учета ошибок — Jira • Более 30 внешних разработчиков
  • 16. МАСШТАБИРОВАНИЕ ETL. КОНВЕЙЕР • Последовательная обработка наборов записей в потоке • Каждый шаг выполняется отдельным процессом, можно увеличивать количество процессов на шаг • Ограниченные возможности масштабирования («вытягивания») работы
  • 17. МАСШТАБИРОВАНИЕ ETL. ПАРТИЦИОНИРОВАНИЕ • Партиционирование данных для независимой обработки на нескольких узлах кластера • Линейное масштабирование по количеству узлов • Зависимость от метода партиционирования • Сложнее проектирование
  • 18. МАСШТАБИРОВАНИЕ ETL • Сочетание конвейера и партиционирования • Выбор метода масштабирования для каждой работы • Поиск оптимальной производительности
  • 19. МАСШТАБИРУЕМОСТЬ PDI • Простое подключение рабочих узлов в кластер • Партиционирование данных • Визуальный интерфейс настройки многопроцессорного выполнения. Каждая из задач выполняется на 4-х узлах
  • 20. ИСПОЛЬЗОВАНИЕ PDI. ОПЫТ КРОК • Государственная организация – Выгрузка данных из ХД в кубы Essbase – Использование сложных преобразований данных, регулярных выражений – Многопоточная загрузка – Скорость более 20 тысяч строк/с • Johnson&Johnson – Интеграция данных из файлов Excel • Пилотные проекты – Генерация данных для нагрузочных тестирований – Импорт файлов – Сложные преобразования файлов без использования СУБД
  • 21. ЛИЦЕНЗИРОВАНИЕ PDI • Community Edition – полноценный, вполне рабочий инструмент. Поддержка с нерегламентированным временем отклика, но та же система заявок Jira • Enterprise Edition – от 10к$ годовая поддержка (4 процессора), время реакции <4 часов. Чуть больше шагов.
  • 22. ИТОГО • PDI – эффективный ETL-инструмент, использование которого может помочь Вам строить аналитические системы и хранилища данных без дополнительных начальных затрат на лицензии • КРОК поможет оптимально применить PDI: • Обучение • Консалтинг • Методология ETL
  • 23. СПАСИБО ЗА ВНИМАНИЕ! Юрий Кудрявцев, ЭКСПЕРТ НАПРАВЛЕНИЯ БИЗНЕС-ПРИЛОЖЕНИЙ КОМПАНИИ КРОК Т.: (495)974-22-74 доб. 6396 Ф: (495) 974 2277 email: yk@croc.ru