SlideShare une entreprise Scribd logo
1  sur  52
Télécharger pour lire hors ligne
Anotação e classificação automática
de entidades nomeadas em notícias
esportivas em Português Brasileiro
               Rodrigo Constantin Ctenas Zaccara
                                        6367629
AGENDA
•   Motivação

•   Objetivos

•   Conceitos

•   Aquisição e extração de conteúdo

•   WebCorpus

•   Córpus UOLCP2011

•   Avaliação dos algoritmos de classificação automática

•   Trabalhos futuros
MOTIVAÇÃO



Direcionamento automático de notícias para nicho
de interesse
OBJETIVOS

• Plataforma   para anotação e classificação de entidades
 nomeadas:

 • Interface   web rica para classificação

 • Córpus   público baseado em notícias esportivas

 • Avaliação de algoritmos de anotação e classificação de
   entidades nomeadas
CONCEITOS
PROCESSAMENTO DE
     LINGUAGEM NATURAL
• Subárea    no campo de extração de informação

• Diminuir a distância entre computador e humanos na
 interpretação de comandos em linguagem natural

• Desafios:
 • Ausência de informação
 • Ambiguidade semântica
 • Exemplo: “Pessoas fazem orações por São Paulo”
APRENDIZADO DE MÁQUINA


• Início   na década de 50 com Arthur Lee Samuel

• Categorias:
  • Aprendizado supervisionado
  • Aprendizado não supervisionado
  • Aprendizado por reforço
CÓRPUS

• Coleção   de dados linguísticos

• Etapas:
 • Projeto
 • Compilação
 • Anotação
 • Uso
AQUISIÇÃO E EXTRAÇÃO
   DE CONTEÚDO
ÍNDICE
NOTÍCIA
CONTEÚDO
WEBCORPUS
VERSÃO ALPHA
PREMISSAS

• Mecanismo     flexível e dinâmico para criação do conjunto de
 etiquetas

• Pontos    de recuperação

• Sistema   iterativo de classificação

• Localização   dos recursos de interface
VERSÃO FINAL
DISPONIBILIDADE

• Licença   MIT
THE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND,
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT
HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY,
WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR
OTHER DEALINGS IN THE SOFTWARE.

• Download    em https://github.com/rodzac/webcorpus/
CÓRPUS UOLCP2011
INFORMAÇÕES

• 100 notícias anotadas manualmente do Campeonato
 Paulista de 2011

• Formatos:   texto puro e XML

• Anotado   e somente texto

• UTF-8
TIPOLOGIA

• Modo:   Escrito

• Tempo:     Contemporâneo

• Seleção:   Estático

• Conteúdo:     Especializado

• Finalidade:   Treinamento e teste
ETIQUETAS

  1a Fase         2a Fase    3a Fase


  Pessoa           Time      Torcida


   Lugar          Estádio


Organização     Campeonato
DISPONIBILIDADE

• Licença   MIT
THE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND,
EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT
HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY,
WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR
OTHER DEALINGS IN THE SOFTWARE.

• Download    em https://github.com/rodzac/UOLCP2011/
AVALIAÇÃO DOS ALGORITMOS
DE CLASSIFICAÇÃO AUTOMÁTICA
ESCOPO
• Algoritmos:

 • Maximização      de entropia

 • Índices   invertidos

 • Método     de mesclagem ROdIME

• Treinamento     particionado utilizando o UOLCP2011

• Classificação   do mini córpus
AVALIAÇÃO

                                                acertos
 precisão( acertos , entidades anotadas)=
                                          entidades anotadas


                                                acertos
cobertura (acertos ,entidades esperadas)=
                                          entidades esperadas


                                     2∗ precisão∗cobertura
    medidaF ( precisão , cobertura)=
                                      precisão +cobertura
MAXIMIZAÇÃO DE ENTROPIA
CONCEITOS

• Integrar   informações de diversas fontes heterogenias

• Modelo     baseado em características (restrições)

• Característica
               é definida por uma função binária para
 detectar sua presença

• Exemplos: inicia com letra maiúscula, contém números,
 palavra anterior inicia com letra maiúscula...
TREINAMENTO

• Corte:    3, 4 e 5

• Iterações:   100, 150 e 250

• Janela:   2, 3, 4 e 5

• Treinamento individual (pessoa, lugar, orgazanição, time,
 estádio, campeonato e torcida) e coletivo

• Total   de cenários: 3 x 3 x 4 x 8 x 10 = 2880
RESULTADOS
TREINAMENTO

               Janela   Corte   Iterações
   Pessoa        5       5         100
    Time         2       3         100
    Lugar        2       3         100
Campeonato       2       4         100
  Estádio        2       4         100
Organização      2       4         100
  Torcida         -       -          -
  Coletivo       3       5         150
UOLCP2011
                           Individual   Coletivo
 Total de entidades          2930        2930
 Entidades anotadas          1950        2988
Anotadas com sucesso         1944        2748
     Esquecidas               981          92
 Classificadas erradas         5           90
  Anotadas erradas             1          150
       Precisão               0.99       0.91
      Cobertura               0.66       0.93
       MedidaF                0.79       0.92
MINI CÓRPUS
                         Individual   Coletivo
 Total de entidades         655        655
 Entidades anotadas         231        648
Anotadas com sucesso        227        528
     Esquecidas             425         62
 Classificadas erradas       3          55
  Anotadas erradas           1          62
       Precisão             0.98       0.81
      Cobertura             0.34       0.80
       MedidaF              0.51       0.81
ÍNDICES INVERTIDOS
CONCEITOS
                                       Palavra Documento
                                           o     1, 3, 4
Documento            Texto                sao       1
    1         o sao paulo joga hoje     paulo       1
    2        hoje esta muito quente      joga       1
            palmeiras esta perdendo     hoje      1, 2
    3
                     o jogo              esta    2, 3, 4
    4          o jogo esta quente       muito       2
                                       quente     2, 4
                                      palmeiras     3
                                      perdendo      3
                                        jogo      3, 4
IMPLEMENTAÇÃO

• Algoritmo    de segmentação em janelas

• Heurística   de seleção:

 • Peso

 • Análise   simples

 • Análise   completa
TREINAMENTO


• Janela:   1, 2, 3, 4 e 5

• Heurística    de seleção: peso, análise simples e análise
 completa

• Total   de cenários: 5 x 3 x 10 =150
RESULTADOS
UOLCP2011
                           Peso   Simples   Completa
 Total de entidades        2930    2930       2930
 Entidades anotadas        2831    2901       2895
Anotadas com sucesso       2581    2871       2880
     Esquecidas             210      42        42
 Classificadas erradas      139      17         8
  Anotdas erradas           111      13         7
       Precisão            0.91     0.98      0.99
      Cobertura            0.88     0.97      0.98
       MedidaF             0.89     0.98      0.98
MINI CÓRPUS
                         Peso   Simples   Completa
 Total de entidades      655      655       655
 Entidades anotadas      539      560       511
Anotadas com sucesso     469      472       466
     Esquecidas          156      149       160
 Classificadas erradas    30       34        29
  Anotadas erradas        40       54        16
       Precisão          0.87     0.84      0.91
      Cobertura          0.71     0.72      0.71
       MedidaF           0.78     0.77      0.79
MÉTODO DE MESCLAGEM
      ROdIME
CONCEITOS


• Mesclar   resultados dos algoritmos:

 • Maximização     de entropia individual

 • Maximização     de entropia coletivo

 • Índices   invertidos com heurística completa
IMPLEMENTAÇÃO

• Prova   de conceito

• Extrair
        mais informações da biblioteca de maximização de
 entropia

• Definição   da interface BestScore

• Nota    mínima para anotação
RESULTADOS
UOLCP2011
                       Individual Coletivo Completa   ROdIME
 Total de entidades      2930      2930      2930      2930
 Entidades anotadas      1950      2988      2895      2907
Anotadas com sucesso     1944      2748      2880      2892
      Esquecidas          981        92       42        30
 Classificadas erradas      5        90        8         8
  Anotadas erradas          1       150        7         7
        Precisão          0.99     0.91      0.99      0.99
      Cobertura           0.66     0.93      0.98      0.98
       MedidaF            0.79     0.92      0.98      0.99
MINI CÓRPUS
                       Individual Coletivo Completa   ROdIME
 Total de entidades       655      655       655       655
 Entidades anotadas       231      648       511       559
Anotadas com sucesso      227      528       466       523
      Esquecidas          425       62       160        99
 Classificadas erradas      3       55        29        33
  Anotadas erradas          1       62        16         3
        Precisão          0.98     0.81      0.91      0.93
      Cobertura           0.34     0.80      0.71      0.79
       MedidaF            0.51     0.81      0.79      0.86
CARVALHO'12: UOLCP2011

                         ROdIME   MTodas   MTodas com filtro
 Total de entidades       2930     2930         2930
 Entidades anotadas       2907     2976         3005
Anotadas com sucesso      2892     2898         2903
     Esquecidas            30       15           11
 Classificadas erradas      8       17           16
  Anotadas erradas          7       61           88
       Precisão           0.99     0.97         0.96
      Cobertura           0.98     0.98         0.99
       MedidaF            0.99     0.98         0.97
CARVALHO'12: MINI CÓRPUS

                         ROdIME   MTodas   MTodas com filtro
 Total de entidades       655      655          655
 Entidades anotadas       559      605          616
Anotadas com sucesso      523      535          545
     Esquecidas            99       67           59
 Classificadas erradas     33       53           51
  Anotadas erradas          3       17           20
       Precisão           0.93     0.88         0.88
      Cobertura           0.79     0.81         0.83
       MedidaF            0.86     0.84         0.85
CONCLUSÃO

• Maximização     de entropia:

 • Treinamento     individual tem bastante precisão

 • Treinamento     coletivo tem boa cobertura

• Índices   invertidos fixam bem características do treinamento

• Método    de mesclagem ROdIME é uma boa alternativa para
 a classificação de entidades nomeadas
TRABALHOS FUTUROS
WEBCORPUS


• Tratamento     de expiração e edição concorrente

• Criar   perfil de usuário para rastrear alterações

• Adicionar   suporte a múltiplos córpus
ALGORITMOS


• Aprendizado    infinito com índices invertidos

• Avaliar   outras técnicas para o algoritmo de mesclagem

• Automatizar    a avaliação dos algoritmos durante a fase de
 treinamento
Anotação e classificação automática
de entidades nomeadas em notícias
esportivas em Português Brasileiro
               Rodrigo Constantin Ctenas Zaccara
                                        6367629

Contenu connexe

En vedette

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by HubspotMarius Sescu
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTExpeed Software
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsPixeldarts
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthThinkNow
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)contently
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024Albert Qian
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summarySpeakerHub
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next Tessa Mero
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best PracticesVit Horky
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project managementMindGenius
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36
 

En vedette (20)

2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
 
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPTEverything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
 
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage EngineeringsProduct Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
 
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental HealthHow Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
 
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdfAI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
 
Skeleton Culture Code
Skeleton Culture CodeSkeleton Culture Code
Skeleton Culture Code
 
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
 
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
 
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
 
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie InsightsSocial Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
 
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
 
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
 
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
 
Getting into the tech field. what next
Getting into the tech field. what next Getting into the tech field. what next
Getting into the tech field. what next
 
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search IntentGoogle's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
 
How to have difficult conversations
How to have difficult conversations How to have difficult conversations
How to have difficult conversations
 
Introduction to Data Science
Introduction to Data ScienceIntroduction to Data Science
Introduction to Data Science
 
Time Management & Productivity - Best Practices
Time Management & Productivity -  Best PracticesTime Management & Productivity -  Best Practices
Time Management & Productivity - Best Practices
 
The six step guide to practical project management
The six step guide to practical project managementThe six step guide to practical project management
The six step guide to practical project management
 
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
 

Classificação automática de entidades em notícias esportivas

  • 1. Anotação e classificação automática de entidades nomeadas em notícias esportivas em Português Brasileiro Rodrigo Constantin Ctenas Zaccara 6367629
  • 2. AGENDA • Motivação • Objetivos • Conceitos • Aquisição e extração de conteúdo • WebCorpus • Córpus UOLCP2011 • Avaliação dos algoritmos de classificação automática • Trabalhos futuros
  • 3. MOTIVAÇÃO Direcionamento automático de notícias para nicho de interesse
  • 4. OBJETIVOS • Plataforma para anotação e classificação de entidades nomeadas: • Interface web rica para classificação • Córpus público baseado em notícias esportivas • Avaliação de algoritmos de anotação e classificação de entidades nomeadas
  • 6. PROCESSAMENTO DE LINGUAGEM NATURAL • Subárea no campo de extração de informação • Diminuir a distância entre computador e humanos na interpretação de comandos em linguagem natural • Desafios: • Ausência de informação • Ambiguidade semântica • Exemplo: “Pessoas fazem orações por São Paulo”
  • 7. APRENDIZADO DE MÁQUINA • Início na década de 50 com Arthur Lee Samuel • Categorias: • Aprendizado supervisionado • Aprendizado não supervisionado • Aprendizado por reforço
  • 8. CÓRPUS • Coleção de dados linguísticos • Etapas: • Projeto • Compilação • Anotação • Uso
  • 15. PREMISSAS • Mecanismo flexível e dinâmico para criação do conjunto de etiquetas • Pontos de recuperação • Sistema iterativo de classificação • Localização dos recursos de interface
  • 17. DISPONIBILIDADE • Licença MIT THE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. • Download em https://github.com/rodzac/webcorpus/
  • 19. INFORMAÇÕES • 100 notícias anotadas manualmente do Campeonato Paulista de 2011 • Formatos: texto puro e XML • Anotado e somente texto • UTF-8
  • 20. TIPOLOGIA • Modo: Escrito • Tempo: Contemporâneo • Seleção: Estático • Conteúdo: Especializado • Finalidade: Treinamento e teste
  • 21. ETIQUETAS 1a Fase 2a Fase 3a Fase Pessoa Time Torcida Lugar Estádio Organização Campeonato
  • 22. DISPONIBILIDADE • Licença MIT THE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE. • Download em https://github.com/rodzac/UOLCP2011/
  • 23. AVALIAÇÃO DOS ALGORITMOS DE CLASSIFICAÇÃO AUTOMÁTICA
  • 24. ESCOPO • Algoritmos: • Maximização de entropia • Índices invertidos • Método de mesclagem ROdIME • Treinamento particionado utilizando o UOLCP2011 • Classificação do mini córpus
  • 25. AVALIAÇÃO acertos precisão( acertos , entidades anotadas)= entidades anotadas acertos cobertura (acertos ,entidades esperadas)= entidades esperadas 2∗ precisão∗cobertura medidaF ( precisão , cobertura)= precisão +cobertura
  • 27. CONCEITOS • Integrar informações de diversas fontes heterogenias • Modelo baseado em características (restrições) • Característica é definida por uma função binária para detectar sua presença • Exemplos: inicia com letra maiúscula, contém números, palavra anterior inicia com letra maiúscula...
  • 28. TREINAMENTO • Corte: 3, 4 e 5 • Iterações: 100, 150 e 250 • Janela: 2, 3, 4 e 5 • Treinamento individual (pessoa, lugar, orgazanição, time, estádio, campeonato e torcida) e coletivo • Total de cenários: 3 x 3 x 4 x 8 x 10 = 2880
  • 30. TREINAMENTO Janela Corte Iterações Pessoa 5 5 100 Time 2 3 100 Lugar 2 3 100 Campeonato 2 4 100 Estádio 2 4 100 Organização 2 4 100 Torcida - - - Coletivo 3 5 150
  • 31. UOLCP2011 Individual Coletivo Total de entidades 2930 2930 Entidades anotadas 1950 2988 Anotadas com sucesso 1944 2748 Esquecidas 981 92 Classificadas erradas 5 90 Anotadas erradas 1 150 Precisão 0.99 0.91 Cobertura 0.66 0.93 MedidaF 0.79 0.92
  • 32. MINI CÓRPUS Individual Coletivo Total de entidades 655 655 Entidades anotadas 231 648 Anotadas com sucesso 227 528 Esquecidas 425 62 Classificadas erradas 3 55 Anotadas erradas 1 62 Precisão 0.98 0.81 Cobertura 0.34 0.80 MedidaF 0.51 0.81
  • 34. CONCEITOS Palavra Documento o 1, 3, 4 Documento Texto sao 1 1 o sao paulo joga hoje paulo 1 2 hoje esta muito quente joga 1 palmeiras esta perdendo hoje 1, 2 3 o jogo esta 2, 3, 4 4 o jogo esta quente muito 2 quente 2, 4 palmeiras 3 perdendo 3 jogo 3, 4
  • 35. IMPLEMENTAÇÃO • Algoritmo de segmentação em janelas • Heurística de seleção: • Peso • Análise simples • Análise completa
  • 36. TREINAMENTO • Janela: 1, 2, 3, 4 e 5 • Heurística de seleção: peso, análise simples e análise completa • Total de cenários: 5 x 3 x 10 =150
  • 38. UOLCP2011 Peso Simples Completa Total de entidades 2930 2930 2930 Entidades anotadas 2831 2901 2895 Anotadas com sucesso 2581 2871 2880 Esquecidas 210 42 42 Classificadas erradas 139 17 8 Anotdas erradas 111 13 7 Precisão 0.91 0.98 0.99 Cobertura 0.88 0.97 0.98 MedidaF 0.89 0.98 0.98
  • 39. MINI CÓRPUS Peso Simples Completa Total de entidades 655 655 655 Entidades anotadas 539 560 511 Anotadas com sucesso 469 472 466 Esquecidas 156 149 160 Classificadas erradas 30 34 29 Anotadas erradas 40 54 16 Precisão 0.87 0.84 0.91 Cobertura 0.71 0.72 0.71 MedidaF 0.78 0.77 0.79
  • 41. CONCEITOS • Mesclar resultados dos algoritmos: • Maximização de entropia individual • Maximização de entropia coletivo • Índices invertidos com heurística completa
  • 42. IMPLEMENTAÇÃO • Prova de conceito • Extrair mais informações da biblioteca de maximização de entropia • Definição da interface BestScore • Nota mínima para anotação
  • 44. UOLCP2011 Individual Coletivo Completa ROdIME Total de entidades 2930 2930 2930 2930 Entidades anotadas 1950 2988 2895 2907 Anotadas com sucesso 1944 2748 2880 2892 Esquecidas 981 92 42 30 Classificadas erradas 5 90 8 8 Anotadas erradas 1 150 7 7 Precisão 0.99 0.91 0.99 0.99 Cobertura 0.66 0.93 0.98 0.98 MedidaF 0.79 0.92 0.98 0.99
  • 45. MINI CÓRPUS Individual Coletivo Completa ROdIME Total de entidades 655 655 655 655 Entidades anotadas 231 648 511 559 Anotadas com sucesso 227 528 466 523 Esquecidas 425 62 160 99 Classificadas erradas 3 55 29 33 Anotadas erradas 1 62 16 3 Precisão 0.98 0.81 0.91 0.93 Cobertura 0.34 0.80 0.71 0.79 MedidaF 0.51 0.81 0.79 0.86
  • 46. CARVALHO'12: UOLCP2011 ROdIME MTodas MTodas com filtro Total de entidades 2930 2930 2930 Entidades anotadas 2907 2976 3005 Anotadas com sucesso 2892 2898 2903 Esquecidas 30 15 11 Classificadas erradas 8 17 16 Anotadas erradas 7 61 88 Precisão 0.99 0.97 0.96 Cobertura 0.98 0.98 0.99 MedidaF 0.99 0.98 0.97
  • 47. CARVALHO'12: MINI CÓRPUS ROdIME MTodas MTodas com filtro Total de entidades 655 655 655 Entidades anotadas 559 605 616 Anotadas com sucesso 523 535 545 Esquecidas 99 67 59 Classificadas erradas 33 53 51 Anotadas erradas 3 17 20 Precisão 0.93 0.88 0.88 Cobertura 0.79 0.81 0.83 MedidaF 0.86 0.84 0.85
  • 48. CONCLUSÃO • Maximização de entropia: • Treinamento individual tem bastante precisão • Treinamento coletivo tem boa cobertura • Índices invertidos fixam bem características do treinamento • Método de mesclagem ROdIME é uma boa alternativa para a classificação de entidades nomeadas
  • 50. WEBCORPUS • Tratamento de expiração e edição concorrente • Criar perfil de usuário para rastrear alterações • Adicionar suporte a múltiplos córpus
  • 51. ALGORITMOS • Aprendizado infinito com índices invertidos • Avaliar outras técnicas para o algoritmo de mesclagem • Automatizar a avaliação dos algoritmos durante a fase de treinamento
  • 52. Anotação e classificação automática de entidades nomeadas em notícias esportivas em Português Brasileiro Rodrigo Constantin Ctenas Zaccara 6367629