¿Cómo funciona la recuperación de la información en los sistemas de los
buscadores?
La recuperación de Ia
información es el área de la
ciencia y la tecnología que trata la adquisición, representación,
almacenamiento, organización y acceso a elementos de información.
La recuperación de información se centra en la
representación, almacenamiento, organización y acceso a elementos de
información. Esta puede realizarse a través de diferentes
herramientas: bases de datos, Internet, tesauros, ontologías, mapas… Conocer y
manejar estas herramientas contribuye a una recuperación de calidad.
Es necesario tener en cuenta los
elementos clave que permiten hacer la búsqueda, determinando un mayor grado de
pertinencia y precisión, estos son: Índices, palabras claves, y tesauros.
-Índices: Listado de
términos normalizados que representan el contenido de un recurso. Algunos tipos
son:
·
Índice de
materias: términos ordenados según las materias que trata la base de datos, el
buscador, etc.
·
Índice
alfabético: listado de términos alfabéticamente
·
Índice KWIC:
Tipo de índice permutado en el que el contenido temático de una obra se
representa mediante palabras clave de su título o de otra fuente de información
del documento.
·
Índice KWOC:
Tipo de índice permutado que varía en su presentación respecto al índice KWIC,
en que las palabras clave aparecen como un encabezamiento en línea separada.
Bajo cada encabezamiento aparece la totalidad de los títulos, completos o
truncados, que contienen la palabra clave de que se trata.
-Tesauros: listado terminológico controlado sobre un
área o ámbito de conocimiento que mantiene entre sí relaciones semánticas y
genéricas.
Su principal característica es
que los términos están ordenados jerárquicamente, permitiendo la precisión
terminológica en la búsqueda de información.
Uno de los problemas que surgen en este tema
es si lo que recuperamos es “mucho o poco” es decir, dependiendo del tipo de
búsqueda se pueden recuperar multitud de documentos o simplemente un número muy
reducido. A este fenómeno se denomina Silencio o Ruido documental:
-Silencio documental Los documentos almacenados en la
base de datos no han sido recuperados debido a que la estrategia de
búsqueda ha sido demasiado específica o que las palabras clave utilizadas no
son las adecuadas para definir la búsqueda.
-Ruido
documental: la mayoría de los documentos almacenados en la base de datos
no son pertinentes o relevantes de acuerdo a la necesidad de información.
Principales
características y funciones de los sistemas de recuperación de la información.
1º En una base de datos relacional descomponemos la
información en diferentes tablas que se relacionan entre si y se reúnen
mediante la interrogación que se hace mediante SQL.
2ºLos sistemas de recuperación de información son concebidos para representar documentos o conjuntos de informaciones que no tienen ningún tipo de estructura o que tienen algún tipo de estructura formal en la que el valor de cada elemento carácter puede ser variable, tanto en el número de ocurrencias, como en su longitud y ya no tanto en la información que contiene.
3ºLos sistemas de recuperación de información son concebidos para representar documentos o conjuntos de informaciones que no tienen ningún tipo de estructura o que tienen algún tipo de estructura formal en la que el valor de cada elemento carácter puede ser variable, tanto en el número de ocurrencias, como en su longitud y ya no tanto en la información que contiene.
4ºTodo sistema de recuperación de información realiza dos tareas básicas:
Técnica de stemming: Pretenden acotar de una manera eficaz los documentos
relevantes. Por esta razón, esta técnica lo consigue mediante una correcta
indización en el proceso de tratamiento de los documentos con ayuda de índices,
tesauros, etc.; evitando las ambigüedades léxicas y semánticas a la hora de
establecer las consultas. Los principales algoritmos que usa son Paice/HuskS-stemmer
/ n-gramas.
Técnica de ponderación de términos: pretende darle un
valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los
documentos recuperados se encuentran en función del valor obtenido en la
ponderación. El valor depende de los términos pertinentes que contenga el
documento y la frecuencia con que se repita.
2ºLos sistemas de recuperación de información son concebidos para representar documentos o conjuntos de informaciones que no tienen ningún tipo de estructura o que tienen algún tipo de estructura formal en la que el valor de cada elemento carácter puede ser variable, tanto en el número de ocurrencias, como en su longitud y ya no tanto en la información que contiene.
3ºLos sistemas de recuperación de información son concebidos para representar documentos o conjuntos de informaciones que no tienen ningún tipo de estructura o que tienen algún tipo de estructura formal en la que el valor de cada elemento carácter puede ser variable, tanto en el número de ocurrencias, como en su longitud y ya no tanto en la información que contiene.
4ºTodo sistema de recuperación de información realiza dos tareas básicas:
-Representación: proceso mediante el cual el sistema transforma
un documento previamente almacenado a la ecuación, enunciado de búsqueda del
usuario en entradas de índice, en puntos de acceso que pretenden representar
por un lado la información que contiene el documento, y por otro la necesidad
de información del usuario
-Búsqueda: proceso mediante el cual el sistema examina las
representaciones de los documentos y las compara o equipara con las
representación de las consulta.
Técnicas de recuperación de la información:
Existen varias técnicas de recuperación de la información, las más
destacables son:
Técnica de clustering : Es
un modelo probabilístico que permite las frecuencias de los términos de
búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que
actúan como agentes para agrupar los documentos por orden de importancia,
mediante algoritmos ranking, en esta técnica es necesaria ciertos algoritmos
como EM o COBWEB.

Sistema de recuperación de
lógica difusa: permite establecer consultas con frases normales, de forma
que la máquina al realizar la búsqueda elimina signos de puntuación, artículos,
conjunciones, plurales, tiempos verbales, palabras comunes (que suelen aparecer
en todos los documentos), dejando sólo aquellas palabras que el sistema
considera relevantes. La recuperación se basa en proposiciones lógicas con
valores de verdadero y falso, teniendo en cuenta la localización de la palabra
en el documento.
Bibliografía y links:
https://es.wikipedia.org/wiki/Búsqueda_y_recuperación_de_información
www3.uah.es/.../BUSQUEDADEINFORMACION