Publicité

¿Cómo trabaja un buscador de internet en Mandarín?

Estudiante à Universidad de Cartagena
13 Apr 2012
Publicité

Contenu connexe

Publicité

¿Cómo trabaja un buscador de internet en Mandarín?

  1. ¿Como trabaja un buscador de internet en mandarín? BÚSQUEDA EN INTERNET POR EL MÉTODO JERÁRQUICO DE SEGMENTACIÓN AUTOMÁTICA DE PALABRAS CHINAS (ÁRBOL BINARIO COMO UN DICCIONARIO) Universidad de Cartagena Jorge R. Cortés - Luis A. Lenes Programa de Ingeniería de Sistemas Estructura de Datos
  2. Con el desarrollo continuo y creciente popularidad de Internet, la cantidad de información en línea está crecimiento en forma explosiva. ¿Cómo encontrar la información que se necesita correcta y rápidamente? El motor de búsqueda de Internet crece rápidamente, así como el libre desarrollo y la distribución de la información.
  3. A partir de 1991 el motor de búsqueda chino, el principio general y la tecnología de búsqueda de información en internet se basan, en un conjunto de análisis de la tecnología de segmentación automática de palabras chinas. El motor de búsqueda de información utiliza el índice de las palabras, a través del conjunto algoritmos de alta velocidad, y recuperar la información de los usuarios requieren. Previamente realiza un proceso de prueba de lectura en donde se implementa algoritmos básicos, se trata de eliminar ambigüedades, se identifica los caracteres, y se arrojan lo resultados preliminares.
  4. Para darse este proceso se necesita colectar de manera automática la información referente a los sitios web, para disponerla en la búsqueda, para lo cual se crean programas, denominados «spider», con una estrategia que simulan la búsqueda de información para obtener su referencia en internet y con estas referencias se crea un diccionario.
  5. La clave tecnológica de la segmentación de palabras chinas En la segmentación de palabras chinas, hay dos cuestiones cruciales: la identificación y eliminación de frases ambiguas y el reconocimiento palabras desconocidas. Para la identificación y omisión de frases ambiguas se realiza un proceso de avance y retroceso a lo largo de la frase para la verificación de las ambigüedades. Y así poder hacer la búsqueda más eficaz. En cuanto al reconocimiento de palabras desconocidas, el sistema al encontrarla trata de omitirlas y reemplazarlas para lleva acabo el proceso.
  6. La realización de la segmentación automática de palabras chinas El algoritmo de segmentación es la base de la segmentación automática de palabras chinas. Actualmente, la maquinaria extensamente usada método sub-léxico tiene las ventajas del algoritmo simple y fácil para poner en práctica. Entre ellos, el más representativo es el método de separación máxima, este método consistes en dividir una palabra en el máximo posible de caracteres, para así poderla comparar en el máximo de referencia y obtener un mayor numero de resultados precisos.
  7. El método de separación máxima es extensamente usado en la ingeniería práctica con el principio de 'la Palabra más larga primero”. El diccionario de segmentación creado a partir de las referencia obtenidas por el método “spider” es la llave de la maquinaria método sub-léxico basado en la separación.
  8. El Diseño del diccionario de segmentación Cuando la sociedad se desarrolla, las nuevas palabras aumentan constantemente. Es imposible construir un diccionario de segmentación completo. Entonces principalmente hablamos sobre la estructura de organización del diccionario de segmentación, que comienza con el mejoramiento de la eficacia de la búsqueda en el diccionario, luego mejorar la interpretación del sistema de segmentación de palabra, en donde el diseño del diccionario y la frase entrada (caracteres a buscar) sean lo más adecuados.
  9. Esto incluye dos contenido: uno es el contenido de diccionario, es decir que es una colección de las palabras, que sea lo suficientemente grande para tener una alta cobertura, y ser de gran exactitud en la segmentación. El otro es la estructura del diccionario, que tiene gran precisión, para manejar una buena velocidad en el sistema de segmentación de palabra. Cuando procesamiento es muy largo y difuso, el sistema tiene que preguntar el diccionario de segmentación con frecuencia. ¿Como usar con eficacia el diccionario de segmentación para una búsqueda rápida? tendrá un impacto directo en la interpretación total del sistema. Por lo tanto, propone el diccionario ‘Modelo Jerárquico basado en Árbol de Binario ‘
  10. Hay tres partes del diseño de estructura organizativo del diccionario (árbol de binario) basado en lo siguiente de modelo jerárquico: 1) La primera palabra separa los temas en la mesa. En primer lugar, establezca una mesa de separación del léxico, a partir de la primera palabra de la frase, es decir se identifica un tema en concreto a partir de la primera palabra. Si es solo una palabra se toma primer carácter en palabra, y se analiza marca a marca. La búsqueda en el diccionario binario se toma raíz a puntas en el árbol (diccionario binario) con la primera palabra.
  11. 2) Diccionario de árbol binario. La información de nodo del árbol de binario de diccionario incluye: Los caracteres corrientes son nodos: palabras. Se toma una frase hacia el siguiente nodo correspondiente. Esfera de Hijo: la dirección de la búsqueda es hacia la izquierda, si el segmento aun hace parte de la palabra. Esfera de Hermano: la dirección de la búsqueda es hacia la derecha, si el segmento corresponde a otra palabra. Se va evaluando carácter correspondiente la palabra desde la raíz del árbol hacia las puntas (hojas)
  12. 3) Palabras Información La cuerda de palabras: una secuencia de caracteres. El peso de palabras: el número de caracteres que componen una secuencia. Este tiene una exactitud de 80% en cuanto ala segmentación, y por tal razón tiene un margen de error bastante amplio, la segmentación soporta un máximo de 50.000 caracteres a partir de una frase con sentido completo.
  13. Conclusión: 1) La investigación del Algoritmo “de algoritmo de segmentación chino de la exploración máxima positiva basada en la segmentación llena' puede tratar con la mayor parte de los campos de ambigüedad, y alcanzar a la demanda de exactitud de tratar la lengua natural. 2) La medida que usó el tesauro de texto lleno para generar el tesauro geográfico, y depende del tesauro geográfico para corregir el texto lleno puede completar el trabajo de mantenimiento bien, que también hasta cierto punto mejora la interpretación del sistema.
  14. 3) Establecer un modelo de datos eficaz y el trabajo en el algoritmo de pregunta excelente. Estas acciones hacen el algoritmo de búsqueda del sistema muy y mucho tiempo de la búsqueda es relativamente bajo. Dependiendo el usuario de debe desplegar una serie de contenidos, a lo largo de un periodo se determina un perfil de búsqueda, para hacer esta más eficiente y menos iterativa.
  15. Baidu
  16. Gracias por su atención.
Publicité