Выступление Александра Мигаловского (ГНИВЦ ФНС России) на International Conference on Big Data and its Applications (ICBDA).
ICBDA — конференция для предпринимателей и разработчиков о том, как эффективно решать бизнес-задачи с помощью анализа больших данных.
http://icbda2015.org/
2. Причины и основания для создания АСК НДС-2
О налоге на добавленную стоимость
Налог на добавленную стоимость являются одним из важнейших источников формирования
доходной части бюджета РФ. На НДС приходится около 40% поступлений в Федеральный
бюджет.
С точки зрения механизма исчисления, НДС достаточно простой налог, но достаточно
уязвимый с точки зрения создания схем уклонения от его уплаты.
Основания для создания автоматизации контроля за уплатой НДС
Основой для создания средств автоматизированного контроля за уплатой НДС является
Федеральный закон от 28.06.2013 № 134-ФЗ «О внесении изменений в отдельные
законодательные акты Российской Федерации в части противодействия незаконным
финансовым операциям». В соответствии с требованиями 134 –ФЗ плательщик НДС обязан с
1-го квартала 2015 года подавать декларацию по НДС, которая будет включать сведения из
книг продаж и покупок, журналов учета выставленных и полученных счетов-фактур.
Реализация требований 134 –ФЗ дала возможность осуществлять автоматизированную
проверку обоснованности вычета НДС, путем осуществления сопоставление сведений,
представленных контрагентами.
Автоматизированная проверка уплаты НДС была реализована путем создания системы АСК
НДС-2.
3. Общее описание решения
Модуль
Он-лайн сервисов
проверки контрагентов
АРМ
Федеральные
информационные
ресурсы
Данные контрагентов
для проверки
Модуль сопоставления
Кластер
серверов Hadoop
Комплекс
взаимодействия с
налогоплательщиками
Модуль камеральной
налоговой проверки
Oracle Exadata
Результаты
Сопоставлений и
данные по декларациям
Налогоплательщик
Требования о
предоставлении пояснений
Налоговые
декларации
Данные из
ФИР
Данные из
ФИР
Данные из книг и журналов
налоговых деклараций
Основные этапы обработки данных в АСК НДС-2:
• Прием налоговых деклараций
• Обработка данных НД
• Взаимодействие с ИФНС
• Взаимодействие с налогоплательщиками
4. Характеристика обрабатываемых данных
Проектные требования:
• Плательщиков НДС - 1,5 миллиона
• Количество поданных деклараций
– 2 миллиона
• Количество записей о СФ
подлежащих сопоставлению – 3
миллиарда
Реальные характеристики :
• Количество поданных деклараций до
1,5 миллиона.
• Количество записей о СФ подлежащих
сопоставлению - до 1 миллиарда
Особенности обработки и использования данных
Объем данных за один налоговый период (квартал)
Срок хранения данных и участия их в сопоставлениях - 7 лет
Система должна поддерживает работу 30 000 пользователей
в том числе 2 000 одновременно работающих пользователей
Время ответа на зарос не более секунды на запросах до 1000 записей
не более 5 секунд на запросах в 100 000 записей
Ежесуточное технологическое окно на обработку данных - 5 часов
Во время интерактивного обслуживания пользователей обработка данных не осуществляется
Налогоплательщик имеет право поменять представленные данные неограниченное количество раз
Рассчитанные расхождения могут многократно открываться, закрываться, менять значения
атрибутов
5. Эволюция архитектуры
Сервер обеспечения
взаимодействия
Расчет сводных данных
Отбор расхождений в выборки
Предоставление доступа к первичной
информации
Расчет агрегатов
Кластер
серверов Hadoop
16 узлов
HDFS
Низкие характеристики производительности пакетной обработки
Большое время выполнения интерактивных запросов
Сложный интерфейс разработки
Модуль сопоставления
Выполнение логических проверок
Расчет КС
Сопоставлениезаписей о СФ
Расчет расхождений
Hbase Информации о записях о СФ
Информации о расхождениях
Агрегаты
Oracle Exadata
Сводные данные по декларациям
Данные бизнес-процесса
Агрегаты
1
6. Эволюция архитектуры
Сервер обеспечения
взаимодействия
Расчет сводных данных
Отбор расхождений в выборки
Предоставление доступа к первичной
информации
Расчет агрегатов
Кластер
серверов Hadoop
16 узлов
HDFS
Низкие характеристики производительности пакетной обработки
Большое время выполнения интерактивных запросов
Сложный интерфейс разработки
Модуль сопоставления
Выполнение логических проверок
Расчет КС
Сопоставлениезаписей о СФ
Расчет расхождений
Hbase Информации о записях о СФ
Информации о расхождениях
Агрегаты
Oracle Exadata
Сводные данные по декларациям
Данные бизнес-процесса
Агрегаты
1
SPARK
Расчет сводных данных
Отбор расхождений в выборки
Предоставление доступа к
первичной информации
Расчет агрегатов
Кластер
серверов Hadoop
16 узлов
HDFS
Модуль сопоставления
Выполнение логических проверок
Расчет КС
Сопоставлениезаписей о СФ
Расчет расхождений
Hbase
Хранение информации о записях о СФ
Хранение информации о расхождениях
Хранение агрегатов
Oracle Exadata
Сводные данные по декларациям
Данные бизнес-процесса
Агрегаты
2
Нестабильность работы
Большое время выполнения интерактивных запросов
7. Эволюция архитектуры
Сервер обеспечения
взаимодействия
Расчет сводных данных
Отбор расхождений в выборки
Предоставление доступа к первичной
информации
Расчет агрегатов
Кластер
серверов Hadoop
16 узлов
HDFS
Низкие характеристики производительности пакетной обработки
Большое время выполнения интерактивных запросов
Сложный интерфейс разработки
Модуль сопоставления
Выполнение логических проверок
Расчет КС
Сопоставлениезаписей о СФ
Расчет расхождений
Hbase Информации о записях о СФ
Информации о расхождениях
Агрегаты
Oracle Exadata
Сводные данные по декларациям
Данные бизнес-процесса
Агрегаты
1
SPARK
Расчет сводных данных
Отбор расхождений в выборки
Предоставление доступа к
первичной информации
Расчет агрегатов
Кластер
серверов Hadoop
16 узлов
HDFS
Модуль сопоставления
Выполнение логических проверок
Расчет КС
Сопоставлениезаписей о СФ
Расчет расхождений
Hbase
Хранение информации о записях о СФ
Хранение информации о расхождениях
Хранение агрегатов
Oracle Exadata
Сводные данные по декларациям
Данные бизнес-процесса
Агрегаты
2
Нестабильность работы
Большое время выполнения интерактивных запросов
Hive 2.0.0 (TEZ-LLAP)
Расчет расхождений
Расчет сводных данных
Отбор расхождений в выборки
Предоставление доступа к первичной
информации
Кластер
серверов Hadoop
16 узлов
HDFS
Модуль сопоставления
Выполнение логических проверок
Расчет КС
Сопоставлениезаписей о СФ
Hbase
Oracle Exadata
Данные бизнес-процесса
3
ORC
Хранениеинформации о записях о СФ
Хорошие характеристики производительности при пакетной
обработке.
Удобный интерфейс разработки
Проблемы с большим количеством одновременных запросов
Длительное время отклика
8. Эволюция архитектуры
Сервер обеспечения
взаимодействия
Расчет сводных данных
Отбор расхождений в выборки
Предоставление доступа к первичной
информации
Расчет агрегатов
Кластер
серверов Hadoop
16 узлов
HDFS
Низкие характеристики производительности пакетной обработки
Большое время выполнения интерактивных запросов
Сложный интерфейс разработки
Модуль сопоставления
Выполнение логических проверок
Расчет КС
Сопоставлениезаписей о СФ
Расчет расхождений
Hbase Информации о записях о СФ
Информации о расхождениях
Агрегаты
Oracle Exadata
Сводные данные по декларациям
Данные бизнес-процесса
Агрегаты
1
SPARK
Расчет сводных данных
Отбор расхождений в выборки
Предоставление доступа к
первичной информации
Расчет агрегатов
Кластер
серверов Hadoop
16 узлов
HDFS
Модуль сопоставления
Выполнение логических проверок
Расчет КС
Сопоставлениезаписей о СФ
Расчет расхождений
Hbase
Хранение информации о записях о СФ
Хранение информации о расхождениях
Хранение агрегатов
Oracle Exadata
Сводные данные по декларациям
Данные бизнес-процесса
Агрегаты
2
Нестабильность работы
Большое время выполнения интерактивных запросов
Hive 2.0.0 (TEZ-LLAP)
Расчет расхождений
Расчет сводных данных
Отбор расхождений в выборки
Предоставление доступа к первичной
информации
Кластер
серверов Hadoop
16 узлов
HDFS
Модуль сопоставления
Выполнение логических проверок
Расчет КС
Сопоставлениезаписей о СФ
Hbase
Oracle Exadata
Данные бизнес-процесса
3
ORC
Хранениеинформации о записях о СФ
Хорошие характеристики производительности при пакетной
обработке.
Удобный интерфейс разработки
Проблемы с большим количеством одновременных запросов
Длительное время отклика
Hive 2.0.0 (TEZ-LLAP)
Расчет расхождений
Расчет сводных данных
Расчет агрегатов
Отбор расхождений в выборки
Предоставление доступа к первичной
информацииКластер
серверов Hadoop
16 узлов
HDFS
Характеристики соответствующие
требованиям
Модуль сопоставления
Выполнение логических проверок
Расчет КС
Сопоставлениезаписей о СФ
Hbase
Oracle Exadata
Данные бизнес-процесса
4
ORC
Хранениеинформации о записях о СФ
Impala
Хранениезаписей о СФ
Отбор расхождений в выборки
Предоставление доступа к первичной
информации
Parquet
9. Текущее состояние и планы развития
В настоящее время реализован базовый функционал:
• Централизованный доступ к информации предоставленной НП
• Автоматизированная обработка представленной НП информации
• Автоматизированное взаимодействие с налогоплательщиком в части отправки им требований и
получения от них ответов
• Средства оперативной и аналитической обработки полученной информации
Основные направления развития:
• Расчёт и контроль KPI процесса камерального контроля
• Использование в АСК НДС-2 сведений об уплате других налогов
• Использование данных других федеральных ведомств.
• Реализация поиск схем уклонения от уплаты НДС с использованием методов
прогностического моделирования с целью выявления определенных закономерностей и
систематических взаимосвязей между переменными, которые затем можно применить к
новым совокупностям данных