miércoles, 13 de abril de 2016

TEMA 5: Recuperación de la información


¿Cómo funciona la recuperación de la información en los sistemas de los buscadores?

La recuperación de Ia información es el área de la ciencia y la tecnología que trata la adquisición, representación, almacenamiento, organización y acceso a elementos de información.
 La recuperación de información se centra en la representación, almacenamiento, organización y acceso a elementos de información. Esta puede realizarse a través de diferentes herramientas: bases de datos, Internet, tesauros, ontologías, mapas… Conocer y manejar estas herramientas contribuye a una recuperación de calidad.


Es necesario tener en cuenta los elementos clave que permiten hacer la búsqueda, determinando un mayor grado de pertinencia y precisión, estos son: Índices, palabras claves, y tesauros.

-Índices: Listado de términos normalizados que representan el contenido de un recurso. Algunos tipos son:

·         Índice de materias: términos ordenados según las materias que trata la base de datos, el buscador, etc.

·         Índice alfabético: listado de términos alfabéticamente

·         Índice KWIC: Tipo de índice permutado en el que el contenido temático de una obra se representa mediante palabras clave de su título o de otra fuente de información del documento.

·         Índice KWOC: Tipo de índice permutado que varía en su presentación respecto al índice KWIC, en que las palabras clave aparecen como un encabezamiento en línea separada. Bajo cada encabezamiento aparece la totalidad de los títulos, completos o truncados, que contienen la palabra clave de que se trata.

-Tesauros: listado terminológico controlado sobre un área o ámbito de conocimiento que mantiene entre sí relaciones semánticas y genéricas.

Su principal característica es que los términos están ordenados jerárquicamente, permitiendo la precisión terminológica en la búsqueda de información.
 
-Palabras clave: permite acotar y precisar información. El problema recae en definir la palabra exacta que representa el contenido, por ello es conveniente utilizar especificadores.

 Uno de los problemas que surgen en este tema es si lo que recuperamos es “mucho o poco” es decir, dependiendo del tipo de búsqueda se pueden recuperar multitud de documentos o simplemente un número muy reducido. A este fenómeno se denomina Silencio o Ruido documental:


-Silencio documental  Los documentos almacenados en la base de datos no han sido recuperados debido a que la estrategia de búsqueda ha sido demasiado específica o que las palabras clave utilizadas no son las adecuadas para definir la búsqueda.

-Ruido documental: la mayoría de los documentos almacenados en la base de datos no son pertinentes o relevantes de acuerdo a la necesidad de información.
 
Principales características y funciones de los sistemas de recuperación de la información.
 1º En una base de datos relacional descomponemos la información en diferentes tablas que se relacionan entre si y se reúnen mediante la interrogación que se hace mediante SQL.

2ºLos sistemas de recuperación de información son concebidos para representar documentos o conjuntos de informaciones que no tienen ningún tipo de estructura o que tienen algún tipo de estructura formal en la que el valor de cada elemento carácter puede ser variable, tanto en el número de ocurrencias, como en su longitud y ya no tanto en la información que contiene.

3ºLos sistemas de recuperación de información son concebidos para representar documentos o conjuntos de informaciones que no tienen ningún tipo de estructura o que tienen algún tipo de estructura formal en la que el valor de cada elemento carácter puede ser variable, tanto en el número de ocurrencias, como en su longitud y ya no tanto en la información que contiene.

4ºTodo sistema de recuperación de información realiza dos tareas básicas:

-Representación: proceso mediante el cual el sistema transforma un documento previamente almacenado a la ecuación, enunciado de búsqueda del usuario en entradas de índice, en puntos de acceso que pretenden representar por un lado la información que contiene el documento, y por otro la necesidad de información del usuario
-Búsqueda: proceso mediante el cual el sistema examina las representaciones de los documentos y las compara o equipara con las representación de las consulta.




Técnicas de recuperación de la información:

Existen varias técnicas de recuperación de la información, las más destacables son:

Técnica de clustering : Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking, en esta técnica es necesaria ciertos algoritmos como EM o COBWEB.

Técnica de stemming: Pretenden acotar de una manera eficaz los documentos relevantes. Por esta razón, esta técnica lo consigue mediante una correcta indización en el proceso de tratamiento de los documentos con ayuda de índices, tesauros, etc.; evitando las ambigüedades léxicas y semánticas a la hora de establecer las consultas. Los principales algoritmos que usa son Paice/HuskS-stemmer / n-gramas.

 
Técnica de ponderación de términos: pretende darle un valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El valor depende de los términos pertinentes que contenga el documento y la frecuencia con que se repita.

Sistema de recuperación de lógica difusa: permite establecer consultas con frases normales, de forma que la máquina al realizar la búsqueda elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes (que suelen aparecer en todos los documentos), dejando sólo aquellas palabras que el sistema considera relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento.
 



 
 
 


Bibliografía y links:
https://es.wikipedia.org/wiki/Búsqueda_y_recuperación_de_información
www3.uah.es/.../BUSQUEDADEINFORMACION
 



sábado, 2 de abril de 2016

TEMA 4: El sistema de búsqueda de Google.


1.       ¿Qué es Google?

Google es una compañía, principal subsidiaria de la multinacional estadounidense Alphabet Inc., especializada en productos y servicios relacionados con Internet, software, dispositivos electrónicos y otras tecnologías. El principal producto de Google es el motor de búsqueda de contenido en Internet del mismo nombre aunque ofrece también otros productos y servicios como el correo electrónico llamado Gmail, sus servicios de mapas Google Maps y Google Earth, el sitio web de vídeos YouTube y otras utilidades web como Google Libros o Google Noticias, Google Chrome y la red social Google+.

Google tiene más de 1 millón de servidores y es capaz de procesar más de 1000 millones de peticiones de búsqueda diarias y su motor de búsqueda es el sitio web más visitado a nivel mundial tal como muestra el ranking web internacional.

2.       La velocidad de Google. ¿Cómo funciona Google para ser tan rápido?

El resultado de una búsqueda empieza mucho antes de que el usuario escriba su consulta, incluso de que la piense. El primer pasó es el de buscar contenidos en Internet. Google tiene lo que se suelen llamar “arañas” o “robots” que no son más que ordenadores navegando continuamente por Internet buscando y almacenado contenidos, para a continuación, almacenar e indexar este contenido en los servidores de Google.En 1999, Google almacenaba alrededor de 50 millones de páginas, en la actualidad, Google almacena más de 100.000 millones de páginas. Es decir, un crecimiento de un 1 a 2000. Google, analiza más de 200 indicadores para saber cuáles son las páginas más relevantes para una búsqueda determinada. Así cuando el usuario empieza a escribir la consulta, ¿Qué sucede? Google empieza a proponer auto terminaciones, que no son más que predicciones de lo que el usuario desea escribir.

En ese mismo momento, Google Instant comienza a dar resultados en la página. Es decir, Google permite ver los resultados de la consulta mientras la estamos escribiendo.

Google analiza la consulta para entender lo que realmente se está buscando, lo busca en los índices y genera los resultados de la consulta.

A continuación Google crea la presentación de estos resultados, los títulos y los fragmentos de las páginas a mostrar bajo los títulos. Los fragmentos deben de ser la parte más relevantes de cada página para la consulta realizada. Esto también requiere una gran cantidad de cálculo, pues debe de recorrer cada página para encontrar cual es la parte más relevante para la consulta realizada.

 

3.       La calidad de la información de Google.

 

Cada día que pasa, aparece nueva información en Google, y esto es debido a que la red constituye un excelente medio de difusión y a la vez es muy fácil publicar en él: cualquier persona, organismo o empresa que disponga de un ordenador y de un módem para conectarse a la red, puede subir información Pero esto tiene un gran problema y es que en la red no existe ningún proceso de selección o filtrado de la información, salvo en aquellos casos que corresponden a bases de datos ofrecidas de forma gratuita por sus productores (Eric, Medline, etc.) y los recursos relativos a revistas electrónicas que ofrecen el texto completo de todos o parte de sus artículos publicados (JAMA, Database).

 

Estos dos factores comentados anteriormente, la facilidad para publicar y la falta de control, ha ocasionado que la Google se haya convertido en uno de los almacenes más importantes de información del mundo y, no cabe ninguna duda, que en el más utilizado sobre todo por su carácter “gratuito”. Así, es evidente que cada vez hay más publicaciones, pero también que los motores de búsqueda recuperan más basura que otra cosa, debido sobre todo a la gran diversidad de información existente. Por lo tanto, debe ser el  propio usuario o el documentalista quien evalúe la fuente de información de forma más profunda y crítica. Todo tipo de información necesita ser evaluada según criterios de autoridad, conveniencia y otros criterios personales; no utilizar nunca información que no se pueda verificar. El establecer y aprender a utilizar criterios que filtren la información encontrada en Internet es un buen comienzo para llegar a convertirse en un consumidor crítico de la información en todas sus formas. Debido a la naturaleza dinámica y cambiante de Internet, los recursos deberán ser re-evaluados periódicamente para determinar si aún satisfacen los criterios.

Muchas veces, las mejores fuentes de información no están disponibles de forma gratuita en la Web, ya que los productores de información cobran por esa información (bases de datos, revistas, etc.), y hay que pagar si se quieren usar estos recursos de información. Tener siempre presente que la información que

Conseguimos a través de Internet no es gratuita: el tiempo de conexión tiene un coste, y el tiempo que nosotros invertimos también tiene un precio, y por tanto, representa un coste, aunque sea intangible y muchas veces no se tenga en cuenta.
 
 
 
 
 
 
1.       Bibliografía y referencias:
 
deteresa.com/cambios-algoritmo-google