¿Cómo trabaja un buscador de internet en Mandarín?
¿Como trabaja un
buscador de internet en
mandarín?
BÚSQUEDA EN INTERNET POR EL MÉTODO JERÁRQUICO
DE SEGMENTACIÓN AUTOMÁTICA DE PALABRAS CHINAS
(ÁRBOL BINARIO COMO UN DICCIONARIO)
Universidad de Cartagena
Jorge R. Cortés - Luis A. Lenes
Programa de Ingeniería de Sistemas
Estructura de Datos
Con el desarrollo continuo y creciente popularidad de
Internet, la cantidad de información en línea está
crecimiento en forma explosiva. ¿Cómo encontrar la
información que se necesita correcta y rápidamente?
El motor de búsqueda de Internet crece rápidamente, así
como el libre desarrollo y la distribución de la
información.
A partir de 1991 el motor de búsqueda chino, el principio
general y la tecnología de búsqueda de información en
internet se basan, en un conjunto de análisis de la tecnología
de segmentación automática de palabras chinas.
El motor de búsqueda de información utiliza el índice de
las palabras, a través del conjunto algoritmos de alta
velocidad, y recuperar la información de
los usuarios requieren. Previamente realiza un proceso de
prueba de lectura en donde se implementa algoritmos
básicos, se trata de eliminar ambigüedades, se identifica los
caracteres, y se arrojan lo resultados preliminares.
Para darse este proceso se necesita colectar de manera
automática la información referente a los sitios web,
para disponerla en la búsqueda, para lo cual se crean
programas, denominados «spider», con una estrategia
que simulan la búsqueda de información para obtener su
referencia en internet y con estas referencias se crea un
diccionario.
La clave tecnológica de la segmentación de
palabras chinas
En la segmentación de palabras chinas, hay dos cuestiones
cruciales: la identificación y eliminación de frases ambiguas y el
reconocimiento palabras desconocidas.
Para la identificación y omisión de frases ambiguas se realiza un
proceso de avance y retroceso a lo largo de la frase para la
verificación de las ambigüedades. Y así poder hacer la búsqueda
más eficaz. En cuanto al reconocimiento de palabras
desconocidas, el sistema al encontrarla trata de omitirlas y
reemplazarlas para lleva acabo el proceso.
La realización de la segmentación automática de
palabras chinas
El algoritmo de segmentación es la base de la segmentación
automática de palabras chinas. Actualmente, la maquinaria
extensamente usada método sub-léxico tiene las ventajas del
algoritmo simple y fácil para poner en práctica. Entre ellos, el más
representativo es el método de separación máxima, este método
consistes en dividir una palabra en el máximo posible de caracteres,
para así poderla comparar en el máximo de referencia y obtener un
mayor numero de resultados precisos.
El método de separación máxima es extensamente
usado en la ingeniería práctica con el principio de 'la
Palabra más larga primero”. El diccionario de
segmentación creado a partir de las referencia
obtenidas por el método “spider” es la llave de la
maquinaria método sub-léxico basado en la
separación.
El Diseño del diccionario de segmentación
Cuando la sociedad se desarrolla, las nuevas palabras
aumentan constantemente. Es imposible construir un
diccionario de segmentación completo. Entonces
principalmente hablamos sobre la estructura de
organización del diccionario de segmentación, que
comienza con el mejoramiento de la eficacia de la
búsqueda en el diccionario, luego mejorar la
interpretación del sistema de segmentación de palabra,
en donde el diseño del diccionario y la frase entrada
(caracteres a buscar) sean lo más adecuados.
Esto incluye dos contenido: uno es el contenido de diccionario,
es decir que es una colección de las palabras, que sea lo
suficientemente grande para tener una alta cobertura, y ser de
gran exactitud en la segmentación. El otro es la estructura del
diccionario, que tiene gran precisión, para manejar una buena
velocidad en el sistema de segmentación de palabra. Cuando
procesamiento es muy largo y difuso, el sistema tiene que
preguntar el diccionario de segmentación con frecuencia.
¿Como usar con eficacia el diccionario de segmentación para una
búsqueda rápida? tendrá un impacto directo en la interpretación
total del sistema. Por lo tanto, propone el diccionario ‘Modelo
Jerárquico basado en Árbol de Binario ‘
Hay tres partes del diseño de estructura organizativo del diccionario
(árbol de binario) basado en lo siguiente de modelo jerárquico:
1) La primera palabra separa los temas en la mesa.
En primer lugar, establezca una mesa de separación del léxico, a partir
de la primera palabra de la frase, es decir se identifica un tema en
concreto a partir de la primera palabra. Si es solo una palabra se toma
primer carácter en palabra, y se analiza marca a marca.
La búsqueda en el diccionario binario se toma raíz a puntas en el árbol
(diccionario binario) con la primera palabra.
2) Diccionario de árbol binario.
La información de nodo del árbol de binario de diccionario incluye:
Los caracteres corrientes son nodos: palabras.
Se toma una frase hacia el siguiente nodo correspondiente.
Esfera de Hijo: la dirección de la búsqueda es hacia la izquierda, si el
segmento aun hace parte de la palabra.
Esfera de Hermano: la dirección de la búsqueda es hacia la derecha, si
el segmento corresponde a otra palabra.
Se va evaluando carácter correspondiente la palabra desde la raíz del
árbol hacia las puntas (hojas)
3) Palabras Información
La cuerda de palabras: una secuencia de caracteres.
El peso de palabras: el número de caracteres que
componen una secuencia.
Este tiene una exactitud de 80% en cuanto ala
segmentación, y por tal razón tiene un margen de error
bastante amplio, la segmentación soporta un máximo
de 50.000 caracteres a partir de una frase con sentido
completo.
Conclusión:
1) La investigación del Algoritmo “de algoritmo de segmentación
chino de la exploración máxima positiva basada en la segmentación
llena' puede tratar con la mayor parte de los campos de
ambigüedad, y alcanzar a la demanda de exactitud de tratar la
lengua natural.
2) La medida que usó el tesauro de texto lleno para generar el tesauro
geográfico, y depende del tesauro geográfico para corregir el texto
lleno puede completar el trabajo de mantenimiento bien, que también
hasta cierto punto mejora la interpretación del sistema.
3) Establecer un modelo de datos eficaz y el trabajo en
el algoritmo de pregunta excelente. Estas acciones
hacen el algoritmo de búsqueda del sistema muy y
mucho tiempo de la búsqueda es relativamente bajo.
Dependiendo el usuario de debe desplegar una serie de
contenidos, a lo largo de un periodo se determina un
perfil de búsqueda, para hacer esta más eficiente y
menos iterativa.