SlideShare une entreprise Scribd logo
1  sur  17
¿Como trabaja un
buscador de internet en
mandarín?
BÚSQUEDA EN INTERNET POR EL MÉTODO JERÁRQUICO
DE SEGMENTACIÓN AUTOMÁTICA DE PALABRAS CHINAS
(ÁRBOL BINARIO COMO UN DICCIONARIO)
Universidad de Cartagena
Jorge R. Cortés - Luis A. Lenes
Programa de Ingeniería de Sistemas
Estructura de Datos
Con el desarrollo continuo y creciente popularidad de
Internet, la cantidad de información en línea está
crecimiento en forma explosiva. ¿Cómo encontrar la
información que se necesita correcta y rápidamente?
El motor de búsqueda de Internet crece rápidamente, así
como el libre desarrollo y la distribución de la
información.
A partir de 1991 el motor de búsqueda chino, el principio
general y la tecnología de búsqueda de información en
internet se basan, en un conjunto de análisis de la tecnología
de segmentación automática de palabras chinas.
El motor de búsqueda de información utiliza el índice de
las palabras, a través del conjunto algoritmos de alta
velocidad, y recuperar la información de
los usuarios requieren. Previamente realiza un proceso de
prueba de lectura en donde se implementa algoritmos
básicos, se trata de eliminar ambigüedades, se identifica los
caracteres, y se arrojan lo resultados preliminares.
Para darse este proceso se necesita colectar de manera
automática la información referente a los sitios web,
para disponerla en la búsqueda, para lo cual se crean
programas, denominados «spider», con una estrategia
que simulan la búsqueda de información para obtener su
referencia en internet y con estas referencias se crea un
diccionario.
La clave tecnológica de la segmentación de
palabras chinas
En la segmentación de palabras chinas, hay dos cuestiones
cruciales: la identificación y eliminación de frases ambiguas y el
reconocimiento palabras desconocidas.
Para la identificación y omisión de frases ambiguas se realiza un
proceso de avance y retroceso a lo largo de la frase para la
verificación de las ambigüedades. Y así poder hacer la búsqueda
más eficaz. En cuanto al reconocimiento de palabras
desconocidas, el sistema al encontrarla trata de omitirlas y
reemplazarlas para lleva acabo el proceso.
La realización de la segmentación automática de
palabras chinas
El algoritmo de segmentación es la base de la segmentación
automática de palabras chinas. Actualmente, la maquinaria
extensamente usada método sub-léxico tiene las ventajas del
algoritmo simple y fácil para poner en práctica. Entre ellos, el más
representativo es el método de separación máxima, este método
consistes en dividir una palabra en el máximo posible de caracteres,
para así poderla comparar en el máximo de referencia y obtener un
mayor numero de resultados precisos.
El método de separación máxima es extensamente
usado en la ingeniería práctica con el principio de 'la
Palabra más larga primero”. El diccionario de
segmentación creado a partir de las referencia
obtenidas por el método “spider” es la llave de la
maquinaria método sub-léxico basado en la
separación.
El Diseño del diccionario de segmentación
Cuando la sociedad se desarrolla, las nuevas palabras
aumentan constantemente. Es imposible construir un
diccionario de segmentación completo. Entonces
principalmente hablamos sobre la estructura de
organización del diccionario de segmentación, que
comienza con el mejoramiento de la eficacia de la
búsqueda en el diccionario, luego mejorar la
interpretación del sistema de segmentación de palabra,
en donde el diseño del diccionario y la frase entrada
(caracteres a buscar) sean lo más adecuados.
Esto incluye dos contenido: uno es el contenido de diccionario,
es decir que es una colección de las palabras, que sea lo
suficientemente grande para tener una alta cobertura, y ser de
gran exactitud en la segmentación. El otro es la estructura del
diccionario, que tiene gran precisión, para manejar una buena
velocidad en el sistema de segmentación de palabra. Cuando
procesamiento es muy largo y difuso, el sistema tiene que
preguntar el diccionario de segmentación con frecuencia.
¿Como usar con eficacia el diccionario de segmentación para una
búsqueda rápida? tendrá un impacto directo en la interpretación
total del sistema. Por lo tanto, propone el diccionario ‘Modelo
Jerárquico basado en Árbol de Binario ‘
Hay tres partes del diseño de estructura organizativo del diccionario
(árbol de binario) basado en lo siguiente de modelo jerárquico:
1) La primera palabra separa los temas en la mesa.
En primer lugar, establezca una mesa de separación del léxico, a partir
de la primera palabra de la frase, es decir se identifica un tema en
concreto a partir de la primera palabra. Si es solo una palabra se toma
primer carácter en palabra, y se analiza marca a marca.
La búsqueda en el diccionario binario se toma raíz a puntas en el árbol
(diccionario binario) con la primera palabra.
2) Diccionario de árbol binario.
La información de nodo del árbol de binario de diccionario incluye:
Los caracteres corrientes son nodos: palabras.
Se toma una frase hacia el siguiente nodo correspondiente.
Esfera de Hijo: la dirección de la búsqueda es hacia la izquierda, si el
segmento aun hace parte de la palabra.
Esfera de Hermano: la dirección de la búsqueda es hacia la derecha, si
el segmento corresponde a otra palabra.
Se va evaluando carácter correspondiente la palabra desde la raíz del
árbol hacia las puntas (hojas)
3) Palabras Información
La cuerda de palabras: una secuencia de caracteres.
El peso de palabras: el número de caracteres que
componen una secuencia.
Este tiene una exactitud de 80% en cuanto ala
segmentación, y por tal razón tiene un margen de error
bastante amplio, la segmentación soporta un máximo
de 50.000 caracteres a partir de una frase con sentido
completo.
Conclusión:
1) La investigación del Algoritmo “de algoritmo de segmentación
chino de la exploración máxima positiva basada en la segmentación
llena' puede tratar con la mayor parte de los campos de
ambigüedad, y alcanzar a la demanda de exactitud de tratar la
lengua natural.
2) La medida que usó el tesauro de texto lleno para generar el tesauro
geográfico, y depende del tesauro geográfico para corregir el texto
lleno puede completar el trabajo de mantenimiento bien, que también
hasta cierto punto mejora la interpretación del sistema.
3) Establecer un modelo de datos eficaz y el trabajo en
el algoritmo de pregunta excelente. Estas acciones
hacen el algoritmo de búsqueda del sistema muy y
mucho tiempo de la búsqueda es relativamente bajo.
Dependiendo el usuario de debe desplegar una serie de
contenidos, a lo largo de un periodo se determina un
perfil de búsqueda, para hacer esta más eficiente y
menos iterativa.
Baidu
Gracias por su atención.

Contenu connexe

En vedette

Retención en la fuente
Retención en la fuente Retención en la fuente
Retención en la fuente Juan David
 
Programa del espectáculo en el aula hospitalaria de Torrecárdenas
Programa del espectáculo en el aula hospitalaria de TorrecárdenasPrograma del espectáculo en el aula hospitalaria de Torrecárdenas
Programa del espectáculo en el aula hospitalaria de Torrecárdenasblogceipeuropa2c
 
Yaren daniel rivera herrera
Yaren daniel rivera herreraYaren daniel rivera herrera
Yaren daniel rivera herreracamiloyaren
 
Webinar votes
Webinar votesWebinar votes
Webinar votesWisembly
 
Taller practico creacion y herramientas de gestión rrss sesión 2
Taller practico creacion y herramientas de gestión rrss sesión 2Taller practico creacion y herramientas de gestión rrss sesión 2
Taller practico creacion y herramientas de gestión rrss sesión 2Gonzalo Garre Rodas
 
Le grand ensemble
Le grand ensembleLe grand ensemble
Le grand ensemblefglowacki
 
Sesión de clase usando NTICS
Sesión de clase usando NTICSSesión de clase usando NTICS
Sesión de clase usando NTICSNadia HCh
 
100 ejemplos de amor y odio
100 ejemplos de amor y odio100 ejemplos de amor y odio
100 ejemplos de amor y odioLuis Suarez
 
Douleur douleur et methodologie d'essais cliniques
Douleur douleur et methodologie d'essais cliniquesDouleur douleur et methodologie d'essais cliniques
Douleur douleur et methodologie d'essais cliniquesdrmouheb
 

En vedette (20)

Webquest
WebquestWebquest
Webquest
 
Retención en la fuente
Retención en la fuente Retención en la fuente
Retención en la fuente
 
Programa del espectáculo en el aula hospitalaria de Torrecárdenas
Programa del espectáculo en el aula hospitalaria de TorrecárdenasPrograma del espectáculo en el aula hospitalaria de Torrecárdenas
Programa del espectáculo en el aula hospitalaria de Torrecárdenas
 
Yaren daniel rivera herrera
Yaren daniel rivera herreraYaren daniel rivera herrera
Yaren daniel rivera herrera
 
Webinar votes
Webinar votesWebinar votes
Webinar votes
 
El ensayo
El ensayoEl ensayo
El ensayo
 
Taller practico creacion y herramientas de gestión rrss sesión 2
Taller practico creacion y herramientas de gestión rrss sesión 2Taller practico creacion y herramientas de gestión rrss sesión 2
Taller practico creacion y herramientas de gestión rrss sesión 2
 
1. plan assemblage s6
1. plan assemblage s61. plan assemblage s6
1. plan assemblage s6
 
Compact CNG - Présentation du produit
Compact CNG - Présentation du produitCompact CNG - Présentation du produit
Compact CNG - Présentation du produit
 
Le grand ensemble
Le grand ensembleLe grand ensemble
Le grand ensemble
 
Slide
SlideSlide
Slide
 
prueba
pruebaprueba
prueba
 
Trabaajo perf.
Trabaajo perf.Trabaajo perf.
Trabaajo perf.
 
Test
TestTest
Test
 
Tra met tec2
Tra met tec2Tra met tec2
Tra met tec2
 
Sesión de clase usando NTICS
Sesión de clase usando NTICSSesión de clase usando NTICS
Sesión de clase usando NTICS
 
100 ejemplos de amor y odio
100 ejemplos de amor y odio100 ejemplos de amor y odio
100 ejemplos de amor y odio
 
Bosquejo Antillas
Bosquejo AntillasBosquejo Antillas
Bosquejo Antillas
 
Douleur douleur et methodologie d'essais cliniques
Douleur douleur et methodologie d'essais cliniquesDouleur douleur et methodologie d'essais cliniques
Douleur douleur et methodologie d'essais cliniques
 
Cervantes
CervantesCervantes
Cervantes
 

Similaire à ¿Cómo trabaja un buscador de internet en Mandarín?

Similaire à ¿Cómo trabaja un buscador de internet en Mandarín? (20)

Sistemas Basados en el Conocimiento
Sistemas Basados en el ConocimientoSistemas Basados en el Conocimiento
Sistemas Basados en el Conocimiento
 
Buscador
BuscadorBuscador
Buscador
 
Buscadores semanticos
Buscadores semanticosBuscadores semanticos
Buscadores semanticos
 
Presentación1
Presentación1Presentación1
Presentación1
 
Presentación1
Presentación1Presentación1
Presentación1
 
Presentación1
Presentación1Presentación1
Presentación1
 
Presentación1
Presentación1Presentación1
Presentación1
 
Buscadores semanticos Parte 1
Buscadores semanticos Parte 1Buscadores semanticos Parte 1
Buscadores semanticos Parte 1
 
Presentacion de gbi metodos de busqueda (1)
Presentacion de gbi metodos de busqueda (1)Presentacion de gbi metodos de busqueda (1)
Presentacion de gbi metodos de busqueda (1)
 
Metodos de busquedad
Metodos de busquedadMetodos de busquedad
Metodos de busquedad
 
Metodos de busquedad
Metodos de busquedadMetodos de busquedad
Metodos de busquedad
 
Diapositivas dhtic Juve GH
Diapositivas dhtic Juve GHDiapositivas dhtic Juve GH
Diapositivas dhtic Juve GH
 
CLASE 2-1.pptx
CLASE 2-1.pptxCLASE 2-1.pptx
CLASE 2-1.pptx
 
Uapa
UapaUapa
Uapa
 
La ficha7
La ficha7La ficha7
La ficha7
 
Presentacion de gbi metodos de busqueda (1)
Presentacion de gbi metodos de busqueda (1)Presentacion de gbi metodos de busqueda (1)
Presentacion de gbi metodos de busqueda (1)
 
Presentacion de gbi metodos de busqueda (1)
Presentacion de gbi metodos de busqueda (1)Presentacion de gbi metodos de busqueda (1)
Presentacion de gbi metodos de busqueda (1)
 
Aplicación de buscador semántico
Aplicación de buscador semánticoAplicación de buscador semántico
Aplicación de buscador semántico
 
Buscadores
BuscadoresBuscadores
Buscadores
 
Herramientas de búsqueda
Herramientas de búsquedaHerramientas de búsqueda
Herramientas de búsqueda
 

Plus de Jorge Cortés Alvarez (12)

MPLS: Multiprotocol Label Switching
MPLS: Multiprotocol Label SwitchingMPLS: Multiprotocol Label Switching
MPLS: Multiprotocol Label Switching
 
Cable Coaxial
Cable CoaxialCable Coaxial
Cable Coaxial
 
FET (Transistores de Efecto de Campo)
FET (Transistores de Efecto de Campo)FET (Transistores de Efecto de Campo)
FET (Transistores de Efecto de Campo)
 
Diagrama de Actividades
Diagrama de ActividadesDiagrama de Actividades
Diagrama de Actividades
 
Modelo Conceptual UML
Modelo Conceptual UMLModelo Conceptual UML
Modelo Conceptual UML
 
Sociedad Comandita
Sociedad ComanditaSociedad Comandita
Sociedad Comandita
 
Metodología RUP
Metodología RUPMetodología RUP
Metodología RUP
 
Energía Eólica
Energía EólicaEnergía Eólica
Energía Eólica
 
Interrupciones: Sistemas Operativos
Interrupciones: Sistemas OperativosInterrupciones: Sistemas Operativos
Interrupciones: Sistemas Operativos
 
Presentación1
Presentación1Presentación1
Presentación1
 
Articulo Científico IEEE (Interpretacion)
Articulo Científico IEEE (Interpretacion)Articulo Científico IEEE (Interpretacion)
Articulo Científico IEEE (Interpretacion)
 
Articulo Científico IEEE (Analisis)
Articulo Científico IEEE (Analisis)Articulo Científico IEEE (Analisis)
Articulo Científico IEEE (Analisis)
 

Dernier

PPT_Formación integral y educación CRESE (1).pdf
PPT_Formación integral y educación CRESE (1).pdfPPT_Formación integral y educación CRESE (1).pdf
PPT_Formación integral y educación CRESE (1).pdfEDILIAGAMBOA
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfsamyarrocha1
 
LA OVEJITA QUE VINO A CENAR CUENTO INFANTIL.pdf
LA OVEJITA QUE VINO A CENAR CUENTO INFANTIL.pdfLA OVEJITA QUE VINO A CENAR CUENTO INFANTIL.pdf
LA OVEJITA QUE VINO A CENAR CUENTO INFANTIL.pdfNataliaMalky1
 
Los Nueve Principios del Desempeño de la Sostenibilidad
Los Nueve Principios del Desempeño de la SostenibilidadLos Nueve Principios del Desempeño de la Sostenibilidad
Los Nueve Principios del Desempeño de la SostenibilidadJonathanCovena1
 
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdfBIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdfCESARMALAGA4
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...fcastellanos3
 
TEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfTEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfDannyTola1
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxlclcarmen
 
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfEstrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfAlfredoRamirez953210
 
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxPPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxOscarEduardoSanchezC
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOweislaco
 
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdfTarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdfCarol Andrea Eraso Guerrero
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfromanmillans
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxdanalikcruz2000
 
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdfÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdfluisantoniocruzcorte1
 
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfTema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfDaniel Ángel Corral de la Mata, Ph.D.
 

Dernier (20)

VISITA À PROTEÇÃO CIVIL _
VISITA À PROTEÇÃO CIVIL                  _VISITA À PROTEÇÃO CIVIL                  _
VISITA À PROTEÇÃO CIVIL _
 
Unidad 3 | Teorías de la Comunicación | MCDI
Unidad 3 | Teorías de la Comunicación | MCDIUnidad 3 | Teorías de la Comunicación | MCDI
Unidad 3 | Teorías de la Comunicación | MCDI
 
PPT_Formación integral y educación CRESE (1).pdf
PPT_Formación integral y educación CRESE (1).pdfPPT_Formación integral y educación CRESE (1).pdf
PPT_Formación integral y educación CRESE (1).pdf
 
Fundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdfFundamentos y Principios de Psicopedagogía..pdf
Fundamentos y Principios de Psicopedagogía..pdf
 
LA OVEJITA QUE VINO A CENAR CUENTO INFANTIL.pdf
LA OVEJITA QUE VINO A CENAR CUENTO INFANTIL.pdfLA OVEJITA QUE VINO A CENAR CUENTO INFANTIL.pdf
LA OVEJITA QUE VINO A CENAR CUENTO INFANTIL.pdf
 
DIA INTERNACIONAL DAS FLORESTAS .
DIA INTERNACIONAL DAS FLORESTAS         .DIA INTERNACIONAL DAS FLORESTAS         .
DIA INTERNACIONAL DAS FLORESTAS .
 
Los Nueve Principios del Desempeño de la Sostenibilidad
Los Nueve Principios del Desempeño de la SostenibilidadLos Nueve Principios del Desempeño de la Sostenibilidad
Los Nueve Principios del Desempeño de la Sostenibilidad
 
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdfBIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
BIOLOGIA_banco de preguntas_editorial icfes examen de estado .pdf
 
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
Estas son las escuelas y colegios que tendrán modalidad no presencial este lu...
 
Earth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversaryEarth Day Everyday 2024 54th anniversary
Earth Day Everyday 2024 54th anniversary
 
TEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdfTEST DE RAVEN es un test conocido para la personalidad.pdf
TEST DE RAVEN es un test conocido para la personalidad.pdf
 
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptxSINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
SINTAXIS DE LA ORACIÓN SIMPLE 2023-2024.pptx
 
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdfEstrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
Estrategias de enseñanza - aprendizaje. Seminario de Tecnologia..pptx.pdf
 
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptxPPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
PPT GESTIÓN ESCOLAR 2024 Comités y Compromisos.pptx
 
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJOTUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
TUTORIA II - CIRCULO DORADO UNIVERSIDAD CESAR VALLEJO
 
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdfTarea 5-Selección de herramientas digitales-Carol Eraso.pdf
Tarea 5-Selección de herramientas digitales-Carol Eraso.pdf
 
Estrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdfEstrategia de Enseñanza y Aprendizaje.pdf
Estrategia de Enseñanza y Aprendizaje.pdf
 
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptxLINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
LINEAMIENTOS INICIO DEL AÑO LECTIVO 2024-2025.pptx
 
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdfÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
ÉTICA, NATURALEZA Y SOCIEDADES_3RO_3ER TRIMESTRE.pdf
 
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdfTema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
Tema 8.- Gestion de la imagen a traves de la comunicacion de crisis.pdf
 

¿Cómo trabaja un buscador de internet en Mandarín?

  • 1. ¿Como trabaja un buscador de internet en mandarín? BÚSQUEDA EN INTERNET POR EL MÉTODO JERÁRQUICO DE SEGMENTACIÓN AUTOMÁTICA DE PALABRAS CHINAS (ÁRBOL BINARIO COMO UN DICCIONARIO) Universidad de Cartagena Jorge R. Cortés - Luis A. Lenes Programa de Ingeniería de Sistemas Estructura de Datos
  • 2. Con el desarrollo continuo y creciente popularidad de Internet, la cantidad de información en línea está crecimiento en forma explosiva. ¿Cómo encontrar la información que se necesita correcta y rápidamente? El motor de búsqueda de Internet crece rápidamente, así como el libre desarrollo y la distribución de la información.
  • 3. A partir de 1991 el motor de búsqueda chino, el principio general y la tecnología de búsqueda de información en internet se basan, en un conjunto de análisis de la tecnología de segmentación automática de palabras chinas. El motor de búsqueda de información utiliza el índice de las palabras, a través del conjunto algoritmos de alta velocidad, y recuperar la información de los usuarios requieren. Previamente realiza un proceso de prueba de lectura en donde se implementa algoritmos básicos, se trata de eliminar ambigüedades, se identifica los caracteres, y se arrojan lo resultados preliminares.
  • 4. Para darse este proceso se necesita colectar de manera automática la información referente a los sitios web, para disponerla en la búsqueda, para lo cual se crean programas, denominados «spider», con una estrategia que simulan la búsqueda de información para obtener su referencia en internet y con estas referencias se crea un diccionario.
  • 5. La clave tecnológica de la segmentación de palabras chinas En la segmentación de palabras chinas, hay dos cuestiones cruciales: la identificación y eliminación de frases ambiguas y el reconocimiento palabras desconocidas. Para la identificación y omisión de frases ambiguas se realiza un proceso de avance y retroceso a lo largo de la frase para la verificación de las ambigüedades. Y así poder hacer la búsqueda más eficaz. En cuanto al reconocimiento de palabras desconocidas, el sistema al encontrarla trata de omitirlas y reemplazarlas para lleva acabo el proceso.
  • 6. La realización de la segmentación automática de palabras chinas El algoritmo de segmentación es la base de la segmentación automática de palabras chinas. Actualmente, la maquinaria extensamente usada método sub-léxico tiene las ventajas del algoritmo simple y fácil para poner en práctica. Entre ellos, el más representativo es el método de separación máxima, este método consistes en dividir una palabra en el máximo posible de caracteres, para así poderla comparar en el máximo de referencia y obtener un mayor numero de resultados precisos.
  • 7. El método de separación máxima es extensamente usado en la ingeniería práctica con el principio de 'la Palabra más larga primero”. El diccionario de segmentación creado a partir de las referencia obtenidas por el método “spider” es la llave de la maquinaria método sub-léxico basado en la separación.
  • 8. El Diseño del diccionario de segmentación Cuando la sociedad se desarrolla, las nuevas palabras aumentan constantemente. Es imposible construir un diccionario de segmentación completo. Entonces principalmente hablamos sobre la estructura de organización del diccionario de segmentación, que comienza con el mejoramiento de la eficacia de la búsqueda en el diccionario, luego mejorar la interpretación del sistema de segmentación de palabra, en donde el diseño del diccionario y la frase entrada (caracteres a buscar) sean lo más adecuados.
  • 9. Esto incluye dos contenido: uno es el contenido de diccionario, es decir que es una colección de las palabras, que sea lo suficientemente grande para tener una alta cobertura, y ser de gran exactitud en la segmentación. El otro es la estructura del diccionario, que tiene gran precisión, para manejar una buena velocidad en el sistema de segmentación de palabra. Cuando procesamiento es muy largo y difuso, el sistema tiene que preguntar el diccionario de segmentación con frecuencia. ¿Como usar con eficacia el diccionario de segmentación para una búsqueda rápida? tendrá un impacto directo en la interpretación total del sistema. Por lo tanto, propone el diccionario ‘Modelo Jerárquico basado en Árbol de Binario ‘
  • 10. Hay tres partes del diseño de estructura organizativo del diccionario (árbol de binario) basado en lo siguiente de modelo jerárquico: 1) La primera palabra separa los temas en la mesa. En primer lugar, establezca una mesa de separación del léxico, a partir de la primera palabra de la frase, es decir se identifica un tema en concreto a partir de la primera palabra. Si es solo una palabra se toma primer carácter en palabra, y se analiza marca a marca. La búsqueda en el diccionario binario se toma raíz a puntas en el árbol (diccionario binario) con la primera palabra.
  • 11. 2) Diccionario de árbol binario. La información de nodo del árbol de binario de diccionario incluye: Los caracteres corrientes son nodos: palabras. Se toma una frase hacia el siguiente nodo correspondiente. Esfera de Hijo: la dirección de la búsqueda es hacia la izquierda, si el segmento aun hace parte de la palabra. Esfera de Hermano: la dirección de la búsqueda es hacia la derecha, si el segmento corresponde a otra palabra. Se va evaluando carácter correspondiente la palabra desde la raíz del árbol hacia las puntas (hojas)
  • 12.
  • 13. 3) Palabras Información La cuerda de palabras: una secuencia de caracteres. El peso de palabras: el número de caracteres que componen una secuencia. Este tiene una exactitud de 80% en cuanto ala segmentación, y por tal razón tiene un margen de error bastante amplio, la segmentación soporta un máximo de 50.000 caracteres a partir de una frase con sentido completo.
  • 14. Conclusión: 1) La investigación del Algoritmo “de algoritmo de segmentación chino de la exploración máxima positiva basada en la segmentación llena' puede tratar con la mayor parte de los campos de ambigüedad, y alcanzar a la demanda de exactitud de tratar la lengua natural. 2) La medida que usó el tesauro de texto lleno para generar el tesauro geográfico, y depende del tesauro geográfico para corregir el texto lleno puede completar el trabajo de mantenimiento bien, que también hasta cierto punto mejora la interpretación del sistema.
  • 15. 3) Establecer un modelo de datos eficaz y el trabajo en el algoritmo de pregunta excelente. Estas acciones hacen el algoritmo de búsqueda del sistema muy y mucho tiempo de la búsqueda es relativamente bajo. Dependiendo el usuario de debe desplegar una serie de contenidos, a lo largo de un periodo se determina un perfil de búsqueda, para hacer esta más eficiente y menos iterativa.
  • 16. Baidu
  • 17. Gracias por su atención.