Mais conteúdo relacionado Semelhante a Classificação e extração com occ (20) Classificação e extração com occ1. Copyright © OpenText Corporation. All rights reserved.
Open Text Capture
Center
Classificação e Extração
Automática de Dados de
Documento
Marcelo Carrera
Sales Executive
April 20, 2013
Copyright © Open Text Corporation. All rights reserved.
Slide 1
3. Tecnologias de Documento da Open Text
Antigo CGK, Computer Gesellschaft Konstanz
Processando Documentos desde 1972
Incomparável: Pacote completo de tecnologia
Líder mundial em tecnologia de reconhecimento
Atendimento Global
Desde 2009 como parte da Open Text
CDT: Captaris Document Technologies e
ODT: OCÉ Document Technologies
3
6. OCC – Beneficio
Copyright © Open Text Corporation. All rights reserved.
Q
Melhorar a Qualidade da Informação
Melhorar o compartilhamento de informação
Aproveitar um conjunto comum de regras de negócio
Reduzir erros
$
Reduzir Custos Operacionais
Automatizar tarefas manuais
Implantar uma plataforma única de entrada de documentos
Reduzir preenchimento/armazenamento de papel
Acelerar os Processos de Negócio
Diminuir o tempo de um ciclo
Reduzir o processamento de exceção
Melhorar o relacionamento com clientes
Aumentar produtividade da equipe
Conformidade (“Compliance”)
Garantir conformidade / auditabilidade
Melhorar visibilidade dos processos de negócio
Ter evidências para o caso de um litigio
§§
8. Casos de Uso
Slide 8
Gera
Dinheiro
Economiza
Dinheiro
Documento
Eletrônico
Qualificado
Permite
Workflow
Digital
Captura de
Dados /
Documento
Reduzir
Entrada
Manual Permite
automação
de
Processos
Digitalização de
Correspondência
Digitalizar Documentos
em Arquivos Eletrônicos
Conversão de
Documentos de
Processos Antigo
Gerenciamento de
Transações e Processos
Centro de Serviços
Captura Ad-Hoc
Copyright © Open Text Corporation. All rights reserved.
9. Caso de Uso: Digitalização de Correspondência
LAD I G I T
P A P E L
Tempo Decorrido
Distribuição Interna
Trabalho Produtivo
Análise de
Documento
Digitalização
Preparação
Entrega de
Correspondência
Distribuição Interna
Copia
Trabalho Produtivo
EntregaTransporte
Interno
Seleção
Entrega de
Correspondência
Copyright © Open Text Corporation. All rights reserved.
11. Visão Geral dos Componentes do OCC
IM EX
Fax, Email,
FTP site,
Pasta de Rede
SharePoint
Cliente do
Enterprise Scan
Aplicações de
Negócio
Arquivo
ConfiguraçãoMonitoramento
Expedição
ValidaçãoReconhecimento
Open Text Capture Center
Copyright © Open Text Corporation. All rights reserved.
12. Reconhecimento: Diferente Tipos de Documentos
Documentos
Estruturados
> Formulários
Documentos Semi-
Estruturados
> Correspondência B2B
Documentos
Desestruturados
> Correspondência C2B
Os dados estão em
grupos lógicos mas
as suas posições são
desconhecidas
Os dados podem
estar em qualquer
lugar do documento
Dados em posições
fixas
Copyright © Open Text Corporation. All rights reserved.
13. Passos no Reconhecimento de Documentos
Slide 13
Interpretação: Reforçar os dados extraídos dentro do contexto da informação
21012010
332.29 USD
X-44277
K441258-3
Data: Jan 21. 2010
Valor: 332,29 $
Nr do Pedido: X-44277
Fornecedor: Mueller & Friends
Classificação: Identificação do tipo de documento
„Nota Fiscal”
„Notas de Entrega“
„Pedidos“
„Outros“
Extração: Buscar informação básica no documento
Data: Jan 21. 2010
Valor: 332,29 $
Nr do Pedido: X-44277
Fornecedor: Mueller & Friends
Invoice
…
Separação: Dividir um lote de imagens em documentos individuais (várias páginas)
Copyright © Open Text Corporation. All rights reserved.
14. Importação
Importação Direta a partir do Enterprise Scan
Estrutura de documento e pasta mantidos
ES de meta dados mapeados para o index de dados do OCC
Entrada de Documento (hot spot) por
File system
E-Mail
FTP site
SharePoint
Tipos de Documentos
Documentos Bitmap: TIFF, GIF, JPG, …
Petro e Branco, escala de cinza, colorido
Documentos PDF
Copyright © Open Text Corporation. All rights reserved.
15. Reconhecimento: Separação de Documento
Documento 1 Documento 2 Documento 3
Coleta de páginas individuais em documentos
Fronteiras do documento podem ser definidas por bordas
Código de Barra
Patch Code
Número Fixo de Páginas
Conteúdo e regras
Copyright © Open Text Corporation. All rights reserved.
16. Reconhecimento: Classificação de Documento
16
Classifique cada documento de
acordo com a sua categoria
Métodos
Baseado em Regras, ex. certas
frases ou objetos em alguma
posição
Adaptativa: aprendizado baseado
em amostras
Pontos de identificação: por
números, códigos de barras
Uma combinação dos tipos acima
17. Reconhecimento: Motores de Extração
Copyright © Open Text Corporation. All rights reserved.
Baseado em Regras
Classificação &
Extração
Adaptativa
Auto-rotação
Desentortar /
Limpar Imagem
Remoção de
Linhas
Filtro de Cor
Adaptive
Binarization
…
Processamento
de Imagens
Código de
Barras 1D
Código de
Barras 2D
Patch Code
Check Box
Mark Sense
Padrão de
Reconhecimento
Impressora
Escrita a mão
OCR Font
e.g. MICR
Core OCR
Reconhecimento
de Formulários
Reconhecimento
de formas livres
Classificação
(ACT)
Extração
(ART)
Bando de dados
base (SnapMatch)
Motor de Reconhecimento (RecoStar) Leitor de Documento(DOKuStar)
18. Extração de Formas Livres
Normalizar
“10/24/10”
Format (US)
Day = 24
Month = Oct
Year = 2010
24.10.2010
Decompõe a “string” em
subunidades e reformata
conforme exigido
Vericar
Compara com regras de
negócio e verifica se faz
sentido
Períod
o
valido
?
24.10.2010
yes no
Exporta
Entrada
Manual
Analisar
Date
Word
Number
Busca identicações que
fazem sentido com as
regras
Transforma pixels em
caracteres por meio do
reconhecimento ótico de
caracteres
OCR
CLERK: 12
DATE SHIPPED
ORDER DATE
10/30/02
10/24/02
COVER CODE
PA
3
Extrair
Order_Date =
“10/24/10”
Encontra a data correta
entre todas as
alternaticas possiveis
Copyright © Open Text Corporation. All rights reserved.
19. Efeito de Longo Prazo das Técnicas de Forma
Livre
Abordagem de OCC
Reconhecimento
de forma livre
Tecnologia
Adaptativa
(=aprendizado)
Combinando
forma livre e
adaptativa
Reconhecimento
baseado
(template) na
forma
Aumento da taxa de reconhecimento durante tempo de produção
Copyright © Open Text Corporation. All rights reserved.
20. Opção de Nota Fiscal
O Capture Center utiliza uma base de conhecimento
interna de notas fiscais
As regras de extração forma desenvolvidas e testadas com
base em amostras de notas fiscais de mais de 4000
fornecedores diferentes.
Exemplos de idiomas de mais de 25 paises incluindo o
Brasil
Taxa de reconhecimento de mais de 95% no nível de
campos, com valores médios entre 70% a 90%
Refinamento continuo baseado na experiência de campos
Copyright © Open Text Corporation. All rights reserved.
21. Extração de Dados de Nota Fiscal
Fornecedor
Número da Nota
Linha de Itens
Valor Liquido
Valor Total
Data da Nota
Número do Pedido
Moeda
Nota da Entrega
Copyright © Open Text Corporation. All rights reserved.
22. Amostra de Dados de Nota Fiscal
Dados
ID do fornecedor como no dado mestre
Nome do vendedor
Como o dado é extraído?
Pesquisa de base de dados SnapMatch
Utiliza o dado mestre de fornecedor incluindo
informações auxiliares (nome da
empresa, número de FAX e
telefone, endereço, …)
Uso
Necessário para a postagem
Campos mandatórios para formulários de nota
fiscal
Configuração
Script para download para base de
fornecedores
Número Tel / Fax
Nome
Endereço
Conta do banco
Dados mestre
(extraido do
ERP)
Outro…
ID do fornecedor
Nome do fornecedor
Fornecedor
Copyright © Open Text Corporation. All rights reserved.
23. Amostra de Dados de Nota Fiscal (continuação)
Dados
Liquido, bruto, valor e moeda (padrão)
Percentagem de imposto(s), valor(s), frete, …
(opcional)
Como os dados são extraídos?
Uso de base de conhecimento de nota fiscal
Pesquisa por itens (uma nota fiscal é cheia de
valores)
Relacionamento lógicos e geométricos entre
valores são utilizados para remover as
ambiguidades
Uso
Necessário para a postagem
Campos mandatórios para formulários de nota
fiscal
Configuração
Configuração de idioma
Valor(es)
Copyright © Open Text Corporation. All rights reserved.
24. Amostra de Dados de Nota Fiscal (continuação)
Data
Data de emissão
Número de referência do fornecedor
Como os dados são extraídos?
Uso de base de conhecimento de nota fiscal
Pesquisa por itens (uma nota fiscal é cheia de
valores)
Normalmente a data e o número da nota fiscal
estão próximos
Uso
Necessário para a postagem
Campos mandatórios para formulários de nota
fiscal
Configuração
Configuração de idioma
Intervalo de datas aceitas por script
Data é numero da nota fiscal
Copyright © Open Text Corporation. All rights reserved.
25. Amostra de Dados de Nota Fiscal (continuação)
Dado
Número do pedido de compras
Como os dados são extraídos?
Uso de base de conhecimento de nota fiscal
Pesquisa por itens chave
Uso de sintaxe pre-definida (450…) ou fazendo
download dos pedidos de compras em
aberto
Uso
Necessário para a postagem e para
conferência de itens por linha
Campos mandatórios para formulários de nota
fiscal
Configuração
Sintaxe utilizada pela empresa para números
de pedidos
Configuração de idioma
Número do Pedido de Compras
Copyright © Open Text Corporation. All rights reserved.
26. Amostra de Dados de Nota Fiscal (continuação)
Data
Número do pedido, número de ordem da
linha, quantidade, unidade, preço
unitário, preço total, percentagem de
imposto e valor, descrição, número da nota
de entrega.
Como os dados são extraídos?
Análise de layout e conteúdo
Uso opcional de cabeçalhos de coluna
Variando a ordem de linhas
Uso
Os dados precisam estar de acordo com o
pedido e os bens entregues
Uso: Opcionalmente
Configuração
Configuração de idioma
Itens de Linha
Copyright © Open Text Corporation. All rights reserved.
27. OCR – Estado da Arte
Impresso
Texto OCR
Escrita Manual
Escrita Cursiva
Praticamente
perfeito
Perfeito ou
aceitável
Para produção
Apenas em
ambientes restritos
Copyright © Open Text Corporation. All rights reserved.
28. Reconhecimento: Balanceamento de Carga
Fácil de Escalar
Maior rendimento com clusters de servidores de reconhecimento
Suporta todos os cenários de fail-over
Copyright © Open Text Corporation. All rights reserved.
Servidor de
Reconhecimento 2
Nós Runtime
Servidor
OCC
Servidor de
Reconhecimento 1
Nós Runtime
Nós Runtime
29. Validação
Copyright © Open Text Corporation. All rights reserved.
Correção de
Separação de documento
Classificação de documento
Dados Extraidos
Desenho ergonômico
Destaque (Highlight) de dados
extraidos
Pula campos corretos
Controle total por teclado
Entrada com clique único: Extração de
dados semi-automatica com
apontamento do dado
30. Entrada com um só clique
Copyright © Open Text Corporation. All rights reserved.
31. Validação de Desenho de Máscara
Slide 31 Copyright © Open Text Corporation. All rights reserved.
32. Exportação
Content Server (LiveLink)
Pasta dependente da classe do
documento
Configuração de nome de arquivo
Meta dados por categoria
Disparo de Workflow
SharePoint
Biblioteca depentende da classe do
documento
Configuração do nome do arquivo
Atributos da biblioteca
Atributos do caminho da informação
File System
Pasta e nome do arquivos
selecionáveis
Dado em XML ou CSV
Exportação customizada
Copyright © Open Text Corporation. All rights reserved.
33. Configuração
Importação de esquema de dados das categorias do Content Server
ou das bibliotecas do SharePoint
Fácil definição de tipos de campos
Comece com KFI (key from image) e depois automatize passo a passo
Entrada de dados semiautomática
Aprendizado adaptativo
Operadores de extração pré-definidos
Operadores de extração definidos pelo
usuário
Design Studio para definição de
campos para formulários e para
sem formulários
Processos simplificados para desenvolvimento,
teste e implementação
Teste com grandes volume de dados
Teste de regração
Copyright © Open Text Corporation. All rights reserved.
34. Monitoramento e Relatórios
Ferramenta de monitoramento para controlar fase de
produção
Saúde das fontes de entrada e dos respectivos destinos
Saúde de todos os servidores de reconhecimento
Lista de todos os clientes de validação ativos
Sumário de todos os “batches” ativos
Drill down em perfis individuias e “batches”.
Mudança de estado de “batches” e recursos de
processamento
Relatório de histórico de “batches”
Passos de processamento
Quando, o que e o tempo que levou
Monitoramento da performance
Slide 34 Copyright © Open Text Corporation. All rights reserved.
35. Interface para criação de Scripts e
Programação
Escreva scripts em C#
Programe com .net (DLLs)
Pontos de entrada durante o reconhecimento
Antes do reconhecimento, ex. Predefinição de metadados
Depois da classificação, ex. Para substituir decisão de classificação
automática
Depois do reconhecimento, e.g. Para validar dados ou combinar
diversos campos de dados
Durante a validação
Baseados em eventos disparados pelo usuário como entrada de dados
e mudança de valor
Exportação customizada
Conector de entrada
Slide 35 Copyright © Open Text Corporation. All rights reserved.