SlideShare une entreprise Scribd logo
1  sur  18
Télécharger pour lire hors ligne
Raúl Garreta
@raulgarreta
PyDayUruguay 2011
 Subárea de InteligenciaArtificial,
Ciencias de la Computación.
 Estudia métodos que permitan a las
máquinasinteractuar con las
personas mediante lenguaje natural.
 Poder extraer significado,
información,manipular texto.
 Área interdisciplinaria: Lingüística +
CienciasComputación+ Estadística
 Traducciónautomática
 Systran, Google Translate
 Clasificaciónde texto:
 Spam filtering (spam/ham)
 Topic classification (política, negocios, tecnología, deportes, ...)
 Sentiment analysis (pos/neg/neutral)
 Recuperación de Información
 Search engines: Google Search, Lucene
 Textdatabases: MongoDB, CouchDB
 Extracciónde Información
 Resúmenes automáticos, palabras clave, categoría, entidades, fechas,
direcciones, emails. Scraping
 Entendimineto / Generación de lenguaje natural:
 Question & Answering, Chatbots
 CorrecciónAutomática
 Compiladores / Intérpretes
 Muchomás…
 50’s -AlanTuring “Computing
Machinery and Intelligence” “Turing
Test”
 60’ – NoamChomsky “Syntactic
Structures”Sistemas basados en
reglas.Traducción automática
 70’s– Ontologías, Chatbots
 80’s– Sistemas basados en
Aprendizaje Automático.
 90’s– Mayor poder de cómputo.
Teorías Lingüísticas de Chomsky
pierden fuerza. Modelos estadísticos.
 Subárea dentro de Inteligencia
Artificial.
 Estudia algoritmos que tienen la
capacidadde aprender a realizar una
tarea automáticamente.
 Mejoran su performance con la
experiencia.
 Permiten resolver tareas complejas,
cuya solución es muy difícil o
imposible de realizar manualmente.
 Segmentación deOraciones
 Un “.” puede ser decimal, suspensivos, abreviación, etc.
 Segmentación de Palabras (Tokenización)
 Enalgunos lenguajes no es simple
 Análisis Lexicográfico (segmentación de morfemas)
 Stemming / Lemmatizing: Obtener forma canónica, lexema, raíz
 Ej: run, runs, ran, running -> run
 Afijos: prefijos, infijos, sufijos (modifican significado de la palabra)
 EtiquetadoGramatical (POSTagging)
 Asignar una etiqueta gramatical a una palabra, ej: sustantivo, adjetivo, verbo, etc.
 Ej: “La (art) pelota(sust) es(verbo) redonda(adj)”
 Reconocimiento de Entidades (NER)
 Identificar entidades: personas, organizaciones, lugares, etc.
 Análisis Sintáctico (Parsing)
 Identificar estructuras gramaticales en una oración.
 Obtener árbol de parsing a partir de una gramática formal.
 Análisis Semántico
 Ambiguedades lexicas ej:
 “banco” (financiero, plaza)
 “planta” (industrial, natural).
 Ambiguedades sintácticas ej:
“Vi un hombre con un telescopio”
 Múltiples idiomas, traducción
 Semántica,lógica, metáforas,
ironías, anáforas, etc.
 Baterías incluidas para
procesamientode texto:
 Soporte nativo de Unicode
 Muchas funciones para procesamiento
de texto
 Baja barrera de entrada,
prototipadorápido
 Open source (éxito en el mundo
académicoy por lo tanto en PLN)
▪ startswith/endswith
▪ strip
▪ split
▪ upper, lower
▪ find, replace, count
▪ join
▪ Slicing
s[0] s[2:7] s[6:] s[:5] s[-1]
▪ String = list, set
contar vocabulario:
len(set(text))
ordenarvocabulario:
sorted(set(text))
▪ módulo re para
expresiones regulares
▪ parsersde fechas
(dateutil)
▪ y mucho mas…
 Para realizar cosas mas
complejas, necesitamos
más librerías.
 Simple, extensible,
modularizado,
infraestructura:
 ExpresionesRegulares
 Gramáticas
 Parsers
 Modelosestadísticos
 Clasificadores
 Comunidadgrande, académica, tanto de
desarrolladores y usuarios.
 Recomiendotutoriales y demos de Jacob
Perkins:
 streamhacker.com
 text-processing.com
 Tokenizador de palabras
 Tokenizador de oraciones
 Etiquetadorgramatical
 Chunkers
 Reconocedor de entidades
 Expresiones regulares
 Gramáticas
 Parsers
 Stemmers/Lemmatizers
 Wordnet
 Algoritmos de AprendizajeAutomático
 Corpus, grandes colecciones de texto
 Más…
ImportoNLTK
Abro un archivode texto
Tokenizaren oraciones
Tokenizaren palabras
Etiquetado gramatical
Chunking,extracciónde entidades
Importowordnet
Obtengosynset
Obtengolemasde sinónimos
Obtengohipérnimos
Obtengohipónimos
Definoset de atributos
Obtengoejemplos
Generoconjuntos de entrenamientoy testeo
Entrenoun clasificador
Utilizoel clasificador
 ¿Qué más se puede hacer?
 Mucho…
 Dificultades
 Requiere cierto conocimiento de la “teoría”
 Recursos para otros idiomas, ej: Español
 Ventajas
 Simple, rápido, poderoso, extensible
Procesamiento de Lenguaje Natural, Python y NLTK

Contenu connexe

En vedette

La investigación en al didáctica de la lengua
La   investigación  en al didáctica de la lenguaLa   investigación  en al didáctica de la lengua
La investigación en al didáctica de la lenguaAlexander Santaçruz
 
Complex and Social Network Analysis in Python
Complex and Social Network Analysis in PythonComplex and Social Network Analysis in Python
Complex and Social Network Analysis in Pythonrik0
 
Machine Learning: Artificial Intelligence isn't just a Science Fiction topic
Machine Learning: Artificial Intelligence isn't just a Science Fiction topicMachine Learning: Artificial Intelligence isn't just a Science Fiction topic
Machine Learning: Artificial Intelligence isn't just a Science Fiction topicRaúl Garreta
 
Inteligencia Artificial
Inteligencia ArtificialInteligencia Artificial
Inteligencia Artificialmenamigue
 
Graph Analyses with Python and NetworkX
Graph Analyses with Python and NetworkXGraph Analyses with Python and NetworkX
Graph Analyses with Python and NetworkXBenjamin Bengfort
 
Actividad 2 Analizador léxico, sintáctico y semántico
Actividad 2 Analizador léxico, sintáctico y semántico Actividad 2 Analizador léxico, sintáctico y semántico
Actividad 2 Analizador léxico, sintáctico y semántico maryr_
 
Sentiment analysis-by-nltk
Sentiment analysis-by-nltkSentiment analysis-by-nltk
Sentiment analysis-by-nltkWei-Ting Kuo
 
Presentación de power point lengua
Presentación de power point lenguaPresentación de power point lengua
Presentación de power point lenguapaulaycelia
 
El uso de la EDT en la Administración de Proyectos
El uso de la EDT en la Administración de ProyectosEl uso de la EDT en la Administración de Proyectos
El uso de la EDT en la Administración de Proyectosfadminproyectos
 
Las habilidades lingüísticas
Las habilidades lingüísticasLas habilidades lingüísticas
Las habilidades lingüísticasDaniel Gómez
 
Artificial Intelligence
Artificial IntelligenceArtificial Intelligence
Artificial IntelligenceMegha Jain
 
Habilidades lingüísticas
Habilidades lingüísticasHabilidades lingüísticas
Habilidades lingüísticasCarlos Zepeda
 
Blandings Turtle by Anthony
Blandings Turtle by AnthonyBlandings Turtle by Anthony
Blandings Turtle by Anthonyvebrya
 
Version spaces
Version spacesVersion spaces
Version spacesGekkietje
 
Teorías del lenguaje
Teorías del lenguajeTeorías del lenguaje
Teorías del lenguajemartinsilvero
 

En vedette (20)

La investigación en al didáctica de la lengua
La   investigación  en al didáctica de la lenguaLa   investigación  en al didáctica de la lengua
La investigación en al didáctica de la lengua
 
Complex and Social Network Analysis in Python
Complex and Social Network Analysis in PythonComplex and Social Network Analysis in Python
Complex and Social Network Analysis in Python
 
Machine Learning: Artificial Intelligence isn't just a Science Fiction topic
Machine Learning: Artificial Intelligence isn't just a Science Fiction topicMachine Learning: Artificial Intelligence isn't just a Science Fiction topic
Machine Learning: Artificial Intelligence isn't just a Science Fiction topic
 
Que Es El Lenguaje
Que Es El LenguajeQue Es El Lenguaje
Que Es El Lenguaje
 
Inteligencia Artificial
Inteligencia ArtificialInteligencia Artificial
Inteligencia Artificial
 
Graph Analyses with Python and NetworkX
Graph Analyses with Python and NetworkXGraph Analyses with Python and NetworkX
Graph Analyses with Python and NetworkX
 
Arbol analisis sintactico
Arbol analisis sintacticoArbol analisis sintactico
Arbol analisis sintactico
 
Actividad 2 Analizador léxico, sintáctico y semántico
Actividad 2 Analizador léxico, sintáctico y semántico Actividad 2 Analizador léxico, sintáctico y semántico
Actividad 2 Analizador léxico, sintáctico y semántico
 
Sentiment analysis-by-nltk
Sentiment analysis-by-nltkSentiment analysis-by-nltk
Sentiment analysis-by-nltk
 
Tema 8 (1) Contexto, Contexto LingüíStico Y Contexto Extra LinguìStico
Tema 8 (1) Contexto, Contexto LingüíStico Y Contexto Extra LinguìSticoTema 8 (1) Contexto, Contexto LingüíStico Y Contexto Extra LinguìStico
Tema 8 (1) Contexto, Contexto LingüíStico Y Contexto Extra LinguìStico
 
Didactica De La Lengua Y La Literatura
Didactica De La Lengua Y La LiteraturaDidactica De La Lengua Y La Literatura
Didactica De La Lengua Y La Literatura
 
Presentación de power point lengua
Presentación de power point lenguaPresentación de power point lengua
Presentación de power point lengua
 
El uso de la EDT en la Administración de Proyectos
El uso de la EDT en la Administración de ProyectosEl uso de la EDT en la Administración de Proyectos
El uso de la EDT en la Administración de Proyectos
 
Las habilidades lingüísticas
Las habilidades lingüísticasLas habilidades lingüísticas
Las habilidades lingüísticas
 
Artificial Intelligence
Artificial IntelligenceArtificial Intelligence
Artificial Intelligence
 
Habilidades lingüísticas
Habilidades lingüísticasHabilidades lingüísticas
Habilidades lingüísticas
 
Blandings Turtle by Anthony
Blandings Turtle by AnthonyBlandings Turtle by Anthony
Blandings Turtle by Anthony
 
Version spaces
Version spacesVersion spaces
Version spaces
 
Teorías del lenguaje
Teorías del lenguajeTeorías del lenguaje
Teorías del lenguaje
 
NLTK in 20 minutes
NLTK in 20 minutesNLTK in 20 minutes
NLTK in 20 minutes
 

Similaire à Procesamiento de Lenguaje Natural, Python y NLTK

Complement del verb
Complement del verbComplement del verb
Complement del verbguest9f5196
 
Minería y visualización de texto
Minería y visualización de textoMinería y visualización de texto
Minería y visualización de textoEwing Ma
 
Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...
Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...
Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...RootedCON
 
La inteligencia artificial
La inteligencia artificialLa inteligencia artificial
La inteligencia artificialByron Vera
 
Programación en Prolog para Inteligencia Artificial
Programación en Prolog para Inteligencia ArtificialProgramación en Prolog para Inteligencia Artificial
Programación en Prolog para Inteligencia ArtificialEgdares Futch H.
 
Recursos digitales en el aprendizaje de la lengua escrita
Recursos digitales en el aprendizaje de la lengua escritaRecursos digitales en el aprendizaje de la lengua escrita
Recursos digitales en el aprendizaje de la lengua escritaJoaquin Fonoll
 
Poggi analytics - tm - 1b
Poggi   analytics - tm - 1bPoggi   analytics - tm - 1b
Poggi analytics - tm - 1bGaston Liberman
 
Intro. Inteligencia Artificial
Intro. Inteligencia ArtificialIntro. Inteligencia Artificial
Intro. Inteligencia ArtificialHuascar Génere
 
2. inteligencia artificial - Tareas
2. inteligencia artificial - Tareas2. inteligencia artificial - Tareas
2. inteligencia artificial - TareasJose Antonio Vacas
 
Actividad no 4
Actividad no 4Actividad no 4
Actividad no 4OZKAR06
 
Actividad no 4
Actividad no 4Actividad no 4
Actividad no 4OZKAR06
 

Similaire à Procesamiento de Lenguaje Natural, Python y NLTK (20)

Complement del verb
Complement del verbComplement del verb
Complement del verb
 
Minería y visualización de texto
Minería y visualización de textoMinería y visualización de texto
Minería y visualización de texto
 
Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...
Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...
Alfonso Muñoz – Ocultación de comunicaciones en lenguaje natural [Rooted CON ...
 
Inter tecno ai y taxonomia
Inter tecno   ai y taxonomiaInter tecno   ai y taxonomia
Inter tecno ai y taxonomia
 
La inteligencia artificial
La inteligencia artificialLa inteligencia artificial
La inteligencia artificial
 
Inteligencia
InteligenciaInteligencia
Inteligencia
 
Wq1
Wq1Wq1
Wq1
 
Programación en Prolog para Inteligencia Artificial
Programación en Prolog para Inteligencia ArtificialProgramación en Prolog para Inteligencia Artificial
Programación en Prolog para Inteligencia Artificial
 
Inter tecno clase 04
Inter tecno   clase 04Inter tecno   clase 04
Inter tecno clase 04
 
Recursos digitales en el aprendizaje de la lengua escrita
Recursos digitales en el aprendizaje de la lengua escritaRecursos digitales en el aprendizaje de la lengua escrita
Recursos digitales en el aprendizaje de la lengua escrita
 
Int art
Int artInt art
Int art
 
Int art
Int artInt art
Int art
 
Int art
Int artInt art
Int art
 
Int art
Int artInt art
Int art
 
Poggi analytics - tm - 1b
Poggi   analytics - tm - 1bPoggi   analytics - tm - 1b
Poggi analytics - tm - 1b
 
Intro. Inteligencia Artificial
Intro. Inteligencia ArtificialIntro. Inteligencia Artificial
Intro. Inteligencia Artificial
 
2. inteligencia artificial - Tareas
2. inteligencia artificial - Tareas2. inteligencia artificial - Tareas
2. inteligencia artificial - Tareas
 
Inteligencia artificial
Inteligencia artificialInteligencia artificial
Inteligencia artificial
 
Actividad no 4
Actividad no 4Actividad no 4
Actividad no 4
 
Actividad no 4
Actividad no 4Actividad no 4
Actividad no 4
 

Dernier

#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptxHugoGutierrez99
 
Viguetas Pretensadas en concreto armado
Viguetas Pretensadas  en concreto armadoViguetas Pretensadas  en concreto armado
Viguetas Pretensadas en concreto armadob7fwtwtfxf
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointValerioIvanDePazLoja
 
Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)JuanStevenTrujilloCh
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfKarinaCambero3
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024u20211198540
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdfBetianaJuarez1
 
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptxLINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptxkimontey
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfFernandoOblitasVivan
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxhasbleidit
 
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...Marketing BRANDING
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
David_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDavid_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDAVIDROBERTOGALLEGOS
 
Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerenciacubillannoly
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docxobandopaula444
 
Actividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolarActividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolar24roberto21
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersIván López Martín
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfcristianrb0324
 

Dernier (20)

#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
#Tare10ProgramacionWeb2024aaaaaaaaaaaa.pptx
 
Viguetas Pretensadas en concreto armado
Viguetas Pretensadas  en concreto armadoViguetas Pretensadas  en concreto armado
Viguetas Pretensadas en concreto armado
 
Trabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power PointTrabajando con Formasy Smart art en power Point
Trabajando con Formasy Smart art en power Point
 
Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)Análisis de los artefactos (nintendo NES)
Análisis de los artefactos (nintendo NES)
 
Herramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdfHerramientas que posibilitan la información y la investigación.pdf
Herramientas que posibilitan la información y la investigación.pdf
 
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
Inteligencia Artificial. Matheo Hernandez Serrano USCO 2024
 
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
_Planificacion Anual NTICX 2024.SEC.21.4.1.docx.pdf
 
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptxLINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
LINEA DE TIEMPO LITERATURA DIFERENCIADO LITERATURA.pptx
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
certificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdfcertificado de oracle academy cetrificado.pdf
certificado de oracle academy cetrificado.pdf
 
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docxPLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
PLANEACION DE CLASES TEMA TIPOS DE FAMILIA.docx
 
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
Agencia Marketing Branding Google Workspace Deployment Services Credential Fe...
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
David_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptxDavid_Gallegos - tarea de la sesión 11.pptx
David_Gallegos - tarea de la sesión 11.pptx
 
Slideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan GerenciaSlideshare y Scribd - Noli Cubillan Gerencia
Slideshare y Scribd - Noli Cubillan Gerencia
 
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docxTALLER DE ANALISIS SOLUCION  PART 2 (1)-1.docx
TALLER DE ANALISIS SOLUCION PART 2 (1)-1.docx
 
Actividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolarActividades de computación para alumnos de preescolar
Actividades de computación para alumnos de preescolar
 
CommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 TestcontainersCommitConf 2024 - Spring Boot <3 Testcontainers
CommitConf 2024 - Spring Boot <3 Testcontainers
 
La electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdfLa electricidad y la electronica.10-7.pdf
La electricidad y la electronica.10-7.pdf
 

Procesamiento de Lenguaje Natural, Python y NLTK

  • 2.  Subárea de InteligenciaArtificial, Ciencias de la Computación.  Estudia métodos que permitan a las máquinasinteractuar con las personas mediante lenguaje natural.  Poder extraer significado, información,manipular texto.  Área interdisciplinaria: Lingüística + CienciasComputación+ Estadística
  • 3.  Traducciónautomática  Systran, Google Translate  Clasificaciónde texto:  Spam filtering (spam/ham)  Topic classification (política, negocios, tecnología, deportes, ...)  Sentiment analysis (pos/neg/neutral)  Recuperación de Información  Search engines: Google Search, Lucene  Textdatabases: MongoDB, CouchDB  Extracciónde Información  Resúmenes automáticos, palabras clave, categoría, entidades, fechas, direcciones, emails. Scraping  Entendimineto / Generación de lenguaje natural:  Question & Answering, Chatbots  CorrecciónAutomática  Compiladores / Intérpretes  Muchomás…
  • 4.  50’s -AlanTuring “Computing Machinery and Intelligence” “Turing Test”  60’ – NoamChomsky “Syntactic Structures”Sistemas basados en reglas.Traducción automática  70’s– Ontologías, Chatbots  80’s– Sistemas basados en Aprendizaje Automático.  90’s– Mayor poder de cómputo. Teorías Lingüísticas de Chomsky pierden fuerza. Modelos estadísticos.
  • 5.  Subárea dentro de Inteligencia Artificial.  Estudia algoritmos que tienen la capacidadde aprender a realizar una tarea automáticamente.  Mejoran su performance con la experiencia.  Permiten resolver tareas complejas, cuya solución es muy difícil o imposible de realizar manualmente.
  • 6.  Segmentación deOraciones  Un “.” puede ser decimal, suspensivos, abreviación, etc.  Segmentación de Palabras (Tokenización)  Enalgunos lenguajes no es simple  Análisis Lexicográfico (segmentación de morfemas)  Stemming / Lemmatizing: Obtener forma canónica, lexema, raíz  Ej: run, runs, ran, running -> run  Afijos: prefijos, infijos, sufijos (modifican significado de la palabra)  EtiquetadoGramatical (POSTagging)  Asignar una etiqueta gramatical a una palabra, ej: sustantivo, adjetivo, verbo, etc.  Ej: “La (art) pelota(sust) es(verbo) redonda(adj)”  Reconocimiento de Entidades (NER)  Identificar entidades: personas, organizaciones, lugares, etc.  Análisis Sintáctico (Parsing)  Identificar estructuras gramaticales en una oración.  Obtener árbol de parsing a partir de una gramática formal.  Análisis Semántico
  • 7.  Ambiguedades lexicas ej:  “banco” (financiero, plaza)  “planta” (industrial, natural).  Ambiguedades sintácticas ej: “Vi un hombre con un telescopio”  Múltiples idiomas, traducción  Semántica,lógica, metáforas, ironías, anáforas, etc.
  • 8.  Baterías incluidas para procesamientode texto:  Soporte nativo de Unicode  Muchas funciones para procesamiento de texto  Baja barrera de entrada, prototipadorápido  Open source (éxito en el mundo académicoy por lo tanto en PLN)
  • 9. ▪ startswith/endswith ▪ strip ▪ split ▪ upper, lower ▪ find, replace, count ▪ join ▪ Slicing s[0] s[2:7] s[6:] s[:5] s[-1] ▪ String = list, set contar vocabulario: len(set(text)) ordenarvocabulario: sorted(set(text)) ▪ módulo re para expresiones regulares ▪ parsersde fechas (dateutil) ▪ y mucho mas…
  • 10.  Para realizar cosas mas complejas, necesitamos más librerías.  Simple, extensible, modularizado, infraestructura:  ExpresionesRegulares  Gramáticas  Parsers  Modelosestadísticos  Clasificadores
  • 11.  Comunidadgrande, académica, tanto de desarrolladores y usuarios.  Recomiendotutoriales y demos de Jacob Perkins:  streamhacker.com  text-processing.com
  • 12.  Tokenizador de palabras  Tokenizador de oraciones  Etiquetadorgramatical  Chunkers  Reconocedor de entidades  Expresiones regulares  Gramáticas  Parsers  Stemmers/Lemmatizers  Wordnet  Algoritmos de AprendizajeAutomático  Corpus, grandes colecciones de texto  Más…
  • 13. ImportoNLTK Abro un archivode texto Tokenizaren oraciones Tokenizaren palabras
  • 16. Definoset de atributos Obtengoejemplos Generoconjuntos de entrenamientoy testeo Entrenoun clasificador Utilizoel clasificador
  • 17.  ¿Qué más se puede hacer?  Mucho…  Dificultades  Requiere cierto conocimiento de la “teoría”  Recursos para otros idiomas, ej: Español  Ventajas  Simple, rápido, poderoso, extensible