miércoles, 13 de abril de 2016

TEMA 5: Recuperación de la información


¿Cómo funciona la recuperación de la información en los sistemas de los buscadores?

La recuperación de Ia información es el área de la ciencia y la tecnología que trata la adquisición, representación, almacenamiento, organización y acceso a elementos de información.
 La recuperación de información se centra en la representación, almacenamiento, organización y acceso a elementos de información. Esta puede realizarse a través de diferentes herramientas: bases de datos, Internet, tesauros, ontologías, mapas… Conocer y manejar estas herramientas contribuye a una recuperación de calidad.


Es necesario tener en cuenta los elementos clave que permiten hacer la búsqueda, determinando un mayor grado de pertinencia y precisión, estos son: Índices, palabras claves, y tesauros.

-Índices: Listado de términos normalizados que representan el contenido de un recurso. Algunos tipos son:

·         Índice de materias: términos ordenados según las materias que trata la base de datos, el buscador, etc.

·         Índice alfabético: listado de términos alfabéticamente

·         Índice KWIC: Tipo de índice permutado en el que el contenido temático de una obra se representa mediante palabras clave de su título o de otra fuente de información del documento.

·         Índice KWOC: Tipo de índice permutado que varía en su presentación respecto al índice KWIC, en que las palabras clave aparecen como un encabezamiento en línea separada. Bajo cada encabezamiento aparece la totalidad de los títulos, completos o truncados, que contienen la palabra clave de que se trata.

-Tesauros: listado terminológico controlado sobre un área o ámbito de conocimiento que mantiene entre sí relaciones semánticas y genéricas.

Su principal característica es que los términos están ordenados jerárquicamente, permitiendo la precisión terminológica en la búsqueda de información.
 
-Palabras clave: permite acotar y precisar información. El problema recae en definir la palabra exacta que representa el contenido, por ello es conveniente utilizar especificadores.

 Uno de los problemas que surgen en este tema es si lo que recuperamos es “mucho o poco” es decir, dependiendo del tipo de búsqueda se pueden recuperar multitud de documentos o simplemente un número muy reducido. A este fenómeno se denomina Silencio o Ruido documental:


-Silencio documental  Los documentos almacenados en la base de datos no han sido recuperados debido a que la estrategia de búsqueda ha sido demasiado específica o que las palabras clave utilizadas no son las adecuadas para definir la búsqueda.

-Ruido documental: la mayoría de los documentos almacenados en la base de datos no son pertinentes o relevantes de acuerdo a la necesidad de información.
 
Principales características y funciones de los sistemas de recuperación de la información.
 1º En una base de datos relacional descomponemos la información en diferentes tablas que se relacionan entre si y se reúnen mediante la interrogación que se hace mediante SQL.

2ºLos sistemas de recuperación de información son concebidos para representar documentos o conjuntos de informaciones que no tienen ningún tipo de estructura o que tienen algún tipo de estructura formal en la que el valor de cada elemento carácter puede ser variable, tanto en el número de ocurrencias, como en su longitud y ya no tanto en la información que contiene.

3ºLos sistemas de recuperación de información son concebidos para representar documentos o conjuntos de informaciones que no tienen ningún tipo de estructura o que tienen algún tipo de estructura formal en la que el valor de cada elemento carácter puede ser variable, tanto en el número de ocurrencias, como en su longitud y ya no tanto en la información que contiene.

4ºTodo sistema de recuperación de información realiza dos tareas básicas:

-Representación: proceso mediante el cual el sistema transforma un documento previamente almacenado a la ecuación, enunciado de búsqueda del usuario en entradas de índice, en puntos de acceso que pretenden representar por un lado la información que contiene el documento, y por otro la necesidad de información del usuario
-Búsqueda: proceso mediante el cual el sistema examina las representaciones de los documentos y las compara o equipara con las representación de las consulta.




Técnicas de recuperación de la información:

Existen varias técnicas de recuperación de la información, las más destacables son:

Técnica de clustering : Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking, en esta técnica es necesaria ciertos algoritmos como EM o COBWEB.

Técnica de stemming: Pretenden acotar de una manera eficaz los documentos relevantes. Por esta razón, esta técnica lo consigue mediante una correcta indización en el proceso de tratamiento de los documentos con ayuda de índices, tesauros, etc.; evitando las ambigüedades léxicas y semánticas a la hora de establecer las consultas. Los principales algoritmos que usa son Paice/HuskS-stemmer / n-gramas.

 
Técnica de ponderación de términos: pretende darle un valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El valor depende de los términos pertinentes que contenga el documento y la frecuencia con que se repita.

Sistema de recuperación de lógica difusa: permite establecer consultas con frases normales, de forma que la máquina al realizar la búsqueda elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes (que suelen aparecer en todos los documentos), dejando sólo aquellas palabras que el sistema considera relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento.
 



 
 
 


Bibliografía y links:
https://es.wikipedia.org/wiki/Búsqueda_y_recuperación_de_información
www3.uah.es/.../BUSQUEDADEINFORMACION
 



No hay comentarios:

Publicar un comentario