Inicio Acerca de ScienSe Documentación Capturas de Pantalla Licencia Descargas Soporte Desarrollo

Lenguajes
Español
Ingles
Página del Proyecto
AnteriorArribaSiguiente

El proceso de indexado

Uno de los pasos importantes para poder mantener el sistema funcionando en buen estado es comprender cada uno de los pasos que ejecuta el programa para realizar su trabajo, de entre estos el indexado es uno de los más importantes. El proceso de indexado funciona de la manera siguiente:

En el demonio cron se encuentra registrado el guíon rundig, el cual se ejecuta cada semana por las noches para realizar este proceso. rundig ejecuta varios procesos que se encargan de crear el indice de los sitios y analizar las publicaciones que se encuentren, de estos procesos htsciense es el más importante. htsciense entra a los sitios dados por el usuario en el archivo htsciense.conf y comienza el proceso de indexado. Este consiste en crear un indice con las palabras encontradas en el documento, seguir recursivamente los enlaces que encuentre, analizar la información del documento para obtener datos de publicaciones y llenar con esta información un archivo de texto que será utilizado para llenar posteriormente la base de datos.
Cuando htsciense se encuentra con un documento en formato HTML, PDF, PS, DOC, etc, manda a llamar a un proceso externo que ejecuta un filtro para transformar el documento en texto plano y coloca los datos en un archivo temporal del que luego se leen los datos para analizarlos y extraer de ellos la información relevante.

El algoritmo empleado para analizar estos archivos esta hecho con heurísticas basadas en probabilidades.

Mientras htsciense se encuentra realizando el indexado, el archivo de datos donde coloca la información de las publicaciones científicas identificadas se bloquea, con un bloqueo cooperativo para evitar condiciones de competencia con otros procesos de ScienSe.

La información de estas publicaciones se almacena en un formato de etiquetas que puede ser leído luego por una aplicación web.

Noticias

Recursos

Buscar en Google