SlideShare une entreprise Scribd logo
1  sur  42
Making the most of a
100-year-old dictionary
Alberto Simões, Álvaro Iriarte
http://dicionario-aberto.net
Tarefa 1: Criar utilizador no Dicionário-Aberto.
1. Aceder ao sítio do dicionário;
2. Usar ligação “entrar/registar”;
3. Preencher formulário “registar”;
4. Visitar caixa do correio, e esperar pelo e-mail de registo;
5. Confirmar registo no sítio do dicionário;
6. Entrar no sítio do dicionário com o utilizador criado.
Parte I
História do Dicionário Aberto
Não existência de um “dicionário livre de língua”, da
língua Portuguesa para PLN:
Disponível para acesso local;
Disponível em formato electrónico;
Disponível em formato legível por computador;
Motivação
Inexistência de mão de obra para a criação de um
dicionário de raiz;
Inexistência de editoras interessadas em
disponibilizar versões livres dos seus dicionários;
Existência de dicionários com mais de 90 anos, no
domínio público… em formato papel!
Problemas
Desafiar equipa portuguesa dos Distributed
Proofreaders do Projecto Gutenberg para transcrever
um destes dicionários;
Dicionário escolhido: Novo Diccionário da Língua
Portuguesa de Cândido de Figueiredo (1913)
Razão: digitalizado (imagens) pela Biblioteca Nacional.
Desafio
Processo demorado, por etapas, por voluntários;
Obrigado, Manuela!
Revisto por mais voluntários;
Obrigado, Rita!
Processo com mais de quatro anos!
Transcrição
Transcrição num dialecto tipo Wiki;
Adição diária de 100/200 palavras, desde início de 2007;
Sítio on-line a partir de Junho de 2007!
Palavras adicionadas disponíveis no dia seguinte!
Incorporação terminada a 2 de Março de 2010!
Incorporação
Estatísticas
Estatísticas
Formato usado simples para ser aprendido e usado
pelos voluntários;
Formato demasiado vago e ambíguo;
Transformação num formato XML rico;
Subconjunto do TEI para dicionários;
De forma completamente automática!!
Estruturação
Dicionário com grafia de 1913!
Modernização da grafia de forma semi-automática:
1. Construção de regras de conversão;
2. Validação manual!
3. Voluntários responsáveis, precisam-se.!
Modernização
Modernização
Disponível em PDF e Base de Dados SQL;
Disponível como motor de pesquisa para Firefox;
Disponível em ePub;
Disponível em StarDict;
Disponível em API RESTless:
Aplicação para iOS disponível;
Aplicação para Android e Win8 em desenvolvimento.
Outras Funcionalidades
Parte II
Interface Geral
Pesquisa Simples
Sugestões “léxicas”
Folhear o Dicionário
Palavra aleatória
Palavras “Favoritas”
Histórico Ortográfico
Parte III
Pesquisa Avançada
Pesquisa por afixos;
Ocorrências nas definições;
Relações léxico-conceptuais entre termos
introduzidos;
Resultados ordenados por relevância.
Pesquisa Avançada
Pesquisa por “prefixo”
Pesquisa por “sufixo”
Pesquisa de “infixos”
base de dados conceptuais / dicionário onomasiológico / dicionário de
produção ou codificador
(mais do que um thesaurus, que ordena palavras por sinónimos,
hiperónimos ou outras relações léxico-conceptuais)
Pesquisa Reversa
dicionário codificador:
endurecer + metal ⇒ temperar
Pesquisa Reversa
Criação de uma ontologia de forma automática
usando padrões (Hearst 1992)
Pesquisa Ontológica
Pesquisa Ontológica
Completação da Ontologia por regras matemáticas
Permite que se use informação incompleta:
Verbete A indica sinonímia com B.
Verbete B não faz qualquer referência a A…
Estrutura Ontológica
Pesquisa Ontológica
Parte IV
Exercícios
Palavras Cruzadas:
_ _ _ _ _ _ _ F E U (Vértebra; 10 letras)
E P I _ _ _ _ _ _ _ (Vértebra; 10 letras)
Procura por Afixos
Dicionário de Rimas (gráficas)
Que palavras rimam com “camafeu”?
Pesquisa por Afixos
Estudo de Morfologia (produtividade de afixos):
Todos os adjectivos em -vel (como amável) podem
formar advérbios em -velmente (amavelmente)?
Pesquisa por Afixos
Estudo de Morfologia (produtividade de afixos):
Um professor de Língua Portuguesa disse aos alunos que o
sufíxo "-ería" em Espanhol, é sempre "-aria" em Português.
cafeteríaES = cafetariaPT
É verdade?
Pesquisa por Afixos
Dicionários Ideológicos/Onomasiológicos:
O que acontece à “água” com o “frio”?
Quem é o “médico” dos “olhos”?
Que palavras derivam do prefixo grego “orthos”?
Pesquisa Reversa
Procurar “sargaço”.
O que difere da pesquisa reversa?
Pesquisa Ontológica
Procurar “pirilampo” na pesquisa reversa, e na
pesquisa ontológica.
Quais são as diferenças?
Pesquisa Ontológica
Que variedades de oliveiras (ou “espécie de
oliveiras”) há?
Uso da pesquisa reversa
Uso da pesquisa ontológica
Pesquisa Ontológica
Making the most of a
100-year-old dictionary
Alberto Simões, Álvaro Iriarte

Contenu connexe

Similaire à Making the most of a 100-year-old dictionary (8)

DicionáRio
DicionáRioDicionáRio
DicionáRio
 
Apresentação Dicionário 22
Apresentação  Dicionário 22Apresentação  Dicionário 22
Apresentação Dicionário 22
 
Crop10 abdu
Crop10 abduCrop10 abdu
Crop10 abdu
 
Webofscience2011
Webofscience2011Webofscience2011
Webofscience2011
 
Glossário APDSI para a Sociedade da Informação v2007
Glossário APDSI para a Sociedade da Informação v2007Glossário APDSI para a Sociedade da Informação v2007
Glossário APDSI para a Sociedade da Informação v2007
 
Obras de referência
Obras de referênciaObras de referência
Obras de referência
 
Referências bibliográficas outubro 2021
Referências bibliográficas   outubro 2021Referências bibliográficas   outubro 2021
Referências bibliográficas outubro 2021
 
Linguística de Corpus, Terminologia e Tradução
Linguística de Corpus, Terminologia e TraduçãoLinguística de Corpus, Terminologia e Tradução
Linguística de Corpus, Terminologia e Tradução
 

Plus de Alberto Simões

Plus de Alberto Simões (20)

Source Code Quality
Source Code QualitySource Code Quality
Source Code Quality
 
Language Identification: A neural network approach
Language Identification: A neural network approachLanguage Identification: A neural network approach
Language Identification: A neural network approach
 
Google Maps JS API
Google Maps JS APIGoogle Maps JS API
Google Maps JS API
 
Dictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry TranslationDictionary Alignment by Rewrite-based Entry Translation
Dictionary Alignment by Rewrite-based Entry Translation
 
EMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized DictionariesEMLex-A5: Specialized Dictionaries
EMLex-A5: Specialized Dictionaries
 
Modelação de Dados
Modelação de DadosModelação de Dados
Modelação de Dados
 
Aula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de SequênciaAula 04 - Introdução aos Diagramas de Sequência
Aula 04 - Introdução aos Diagramas de Sequência
 
Aula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de AtividadeAula 03 - Introdução aos Diagramas de Atividade
Aula 03 - Introdução aos Diagramas de Atividade
 
Aula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de RequisitosAula 02 - Engenharia de Requisitos
Aula 02 - Engenharia de Requisitos
 
Aula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de InformaçãoAula 01 - Planeamento de Sistemas de Informação
Aula 01 - Planeamento de Sistemas de Informação
 
Building C and C++ libraries with Perl
Building C and C++ libraries with PerlBuilding C and C++ libraries with Perl
Building C and C++ libraries with Perl
 
PLN em Perl
PLN em PerlPLN em Perl
PLN em Perl
 
Classification Systems
Classification SystemsClassification Systems
Classification Systems
 
Redes de Pert
Redes de PertRedes de Pert
Redes de Pert
 
Dancing Tutorial
Dancing TutorialDancing Tutorial
Dancing Tutorial
 
Processing XML: a rewriting system approach
Processing XML: a rewriting system approachProcessing XML: a rewriting system approach
Processing XML: a rewriting system approach
 
Sistemas de Numeração
Sistemas de NumeraçãoSistemas de Numeração
Sistemas de Numeração
 
Álgebra de Boole
Álgebra de BooleÁlgebra de Boole
Álgebra de Boole
 
Arquitecturas de Tradução Automática
Arquitecturas de Tradução AutomáticaArquitecturas de Tradução Automática
Arquitecturas de Tradução Automática
 
Extracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução AutomáticaExtracção de Recursos para Tradução Automática
Extracção de Recursos para Tradução Automática
 

Dernier

matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecni
CleidianeCarvalhoPer
 
apostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médioapostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médio
rosenilrucks
 
Apresentação em Powerpoint do Bioma Catinga.pptx
Apresentação em Powerpoint do Bioma Catinga.pptxApresentação em Powerpoint do Bioma Catinga.pptx
Apresentação em Powerpoint do Bioma Catinga.pptx
LusGlissonGud
 
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdfReta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
WagnerCamposCEA
 
Slide - EBD ADEB 2024 Licao 02 2Trim.pptx
Slide - EBD ADEB 2024 Licao 02 2Trim.pptxSlide - EBD ADEB 2024 Licao 02 2Trim.pptx
Slide - EBD ADEB 2024 Licao 02 2Trim.pptx
edelon1
 

Dernier (20)

PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdfPROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
PROJETO DE EXTENSÃO I - SERVIÇOS JURÍDICOS, CARTORÁRIOS E NOTARIAIS.pdf
 
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdfPROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
PROJETO DE EXTENSÃO - EDUCAÇÃO FÍSICA BACHARELADO.pdf
 
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIAPROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
PROJETO DE EXTENSÃO I - AGRONOMIA.pdf AGRONOMIAAGRONOMIA
 
matematica aula didatica prática e tecni
matematica aula didatica prática e tecnimatematica aula didatica prática e tecni
matematica aula didatica prática e tecni
 
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdfPROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
PROJETO DE EXTENÇÃO - GESTÃO DE RECURSOS HUMANOS.pdf
 
Construção (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! SertãConstrução (C)erta - Nós Propomos! Sertã
Construção (C)erta - Nós Propomos! Sertã
 
apostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médioapostila projeto de vida 2 ano ensino médio
apostila projeto de vida 2 ano ensino médio
 
Nós Propomos! " Pinhais limpos, mundo saudável"
Nós Propomos! " Pinhais limpos, mundo saudável"Nós Propomos! " Pinhais limpos, mundo saudável"
Nós Propomos! " Pinhais limpos, mundo saudável"
 
Currículo - Ícaro Kleisson - Tutor acadêmico.pdf
Currículo - Ícaro Kleisson - Tutor acadêmico.pdfCurrículo - Ícaro Kleisson - Tutor acadêmico.pdf
Currículo - Ícaro Kleisson - Tutor acadêmico.pdf
 
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptxSlides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
Slides Lição 6, CPAD, As Nossas Armas Espirituais, 2Tr24.pptx
 
Atividade - Letra da música Esperando na Janela.
Atividade -  Letra da música Esperando na Janela.Atividade -  Letra da música Esperando na Janela.
Atividade - Letra da música Esperando na Janela.
 
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdfApresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
Apresentação ISBET Jovem Aprendiz e Estágio 2023.pdf
 
Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!Rota das Ribeiras Camp, Projeto Nós Propomos!
Rota das Ribeiras Camp, Projeto Nós Propomos!
 
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
DeClara n.º 75 Abril 2024 - O Jornal digital do Agrupamento de Escolas Clara ...
 
atividades_reforço_4°ano_231206_132728.pdf
atividades_reforço_4°ano_231206_132728.pdfatividades_reforço_4°ano_231206_132728.pdf
atividades_reforço_4°ano_231206_132728.pdf
 
About Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de HotéisAbout Vila Galé- Cadeia Empresarial de Hotéis
About Vila Galé- Cadeia Empresarial de Hotéis
 
Apresentação em Powerpoint do Bioma Catinga.pptx
Apresentação em Powerpoint do Bioma Catinga.pptxApresentação em Powerpoint do Bioma Catinga.pptx
Apresentação em Powerpoint do Bioma Catinga.pptx
 
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdfReta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
Reta Final - CNU - Gestão Governamental - Prof. Stefan Fantini.pdf
 
Historia da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdfHistoria da Arte europeia e não só. .pdf
Historia da Arte europeia e não só. .pdf
 
Slide - EBD ADEB 2024 Licao 02 2Trim.pptx
Slide - EBD ADEB 2024 Licao 02 2Trim.pptxSlide - EBD ADEB 2024 Licao 02 2Trim.pptx
Slide - EBD ADEB 2024 Licao 02 2Trim.pptx
 

Making the most of a 100-year-old dictionary

Notes de l'éditeur

  1. transformaosdicionárioseletrónicosemqualquercoisacomo bases de dados conceptuaisoudicionáriosonomasiológicosoudicionários de produçãomais do que um thesaurus, queordenapalavrasporsinónimos, hiperónimosououtrasrelaçõesléxico-conceptuaisque se pretendeéque, utilizando as funcionalidades de pesquisareversa do DicionárioAberto, o utilizadorpossaprocurarunidadeslexicaisrelacionadas (sinónimos, quase-sinónimos, hiperónimos, hipónimos, merónimos, holónimos, co-ocorrentes, etc.) a partir de um conjunto de palavras.
  2. Umexemplo das potencialidadescomodicionáriocodificadoroudic. de produção:Porexemplo, que com base naspalavras “rijo” e “metal” se consigaencontrartermoscomo “temperar”.
  3. Algunsexemplos de regrasqueutilizamospara a elaboraçãoautomática da ontologiaTambémcomrelações calculadas:por ex. calculada com a transitividade da relação de hiperonímia.Somosconscientes de quealgumasregraspodemserproblemáticas (por ex. sinónimosvsquase-sinónimos, etc) mas nestecasopreferimosarriscar, e errar.Para além de que, nestemomento, duasalunas de mestradoestão a trabalharnadeteção de errosparatentarafinarestasregras.
  4. Maisexemplos de resultados:Aquitemos um exemplo de umarelaçãocalculada: “maisabrangente que”por ex. umarelação artificial calculada com a transitividade da relação de hiperonímia.Hiperónimo:    HIPER   que tem por tipo [ao]s? ([^;:.,]+)   HIPER  a que pertencem? [oa]s? ([^;:.,]+)   HIPER  a que servem? de tipo [oa]s? ([^;:.,]+)(basicamente é o dito fecho transitivo de Kleene...)
  5. Na pesquisaOntológica O Utilizadorprocuraporconjunto de palavras;São retornadas as entradasque se relacionam com essaspalavras;Resultadosordenadosporquantidade de relacionamentos;
  6. Exemplo típico de pesquisa reversa com iniciado por (prefixo) ou terminado por (sufixo)Problema terminológico (não necessariamente prefixos, sufixo, infixos)
  7. Exemplo de pesquisa reversa com terminado por (sufixo)
  8. Caso real ! (um pouco adaptado, para não dar nas vistas)
  9. Uso da pesquisa reversa (por exemplo, com o termo “oliveira”) cf. Na pesquisa ontológica, resultados como “viró” (na pesquisa ontológica com “oliveira”, ou “lourela” ou “azambuja” (na pesquisa ontológica com “árvore” + “oleáceo”)Uso da pesquisa ontológica (com o termo “oliveira”, ou, por ex. Com “árvore” + “oleáceo”)Há diferença nos resultados!! (nos resultados da 2ª não aparece “azeitoneira”) (pq não há relações com “árvore” ou “oleáceo” : deveria haver!)