sábado, 7 de mayo de 2016

TEMA 6: Organización de la información. Sistemas de información.


TEMA 6: Organización de la información: Sistemas de información.

¿Para qué usan fundamentalmente las organizaciones (tanto empresas públicas como privadas) la información?
1. La teoría de la decisión: es un área interdisciplinaria de estudio, relacionada con casi todos los participantes en ramas de la ciencia, la Administración, Economía, la psicología (basados en perspectivas cognitivo-conductuales). Concierne a la forma y al estudio del comportamiento y fenómenos psíquicos de aquellos que toman las decisiones (reales o ficticios), así como las condiciones por las que deben ser tomadas las decisiones. La mayor parte de la teoría de la decisión es normativa o prescriptiva, es decir, hace alusión a la identificación de la mejor decisión que pueda ser tomada, asumiendo que una persona que tenga que tomar decisiones sea capaz de estar en un entorno de completa información, capaz de calcular con precisión. La aplicación práctica de esta aproximación prescriptiva (como la gente debería hacer y tomar decisiones) se llama análisis de la decisión y proporciona una búsqueda de herramientas, metodologías y software para ayudar a las personas a tomar mejores decisiones.

La toma de decisiones está constituida por una serie de etapas, estas son:
                1º Definir el problema.
                2º Analizar el problema.
                3º Evaluar las alternativas.
               4º Elegir las alternativas.
               5º Tomar la decisión más adecuada.
2.       Sistemas para la toma de decisiones: Desde el punto de vista de las organizaciones, la toma de decisiones debe ser rápida, oportuna, fundamentada en información concreta, que permita tomar decisiones eficientes, efectivas y con un bajo costo para la empresa; pues de ello dependerá el éxito o fracaso de una organización. De esta forma, es necesario soporte de sistemas como una herramienta para la toma de decisiones acorde a los objetivos estratégicos planteados por la organización, y así surgen lo sistemas de apoyo a la toma de decisiones de organizaciones, estos son:
 
 
-Sistema de soporte a la toma de decisiones (DSS): sistema de información basado en un  computador interactivo, flexible y adaptable, especialmente desarrollado para apoyar la solución de un problema de gestión no estructurado para mejorar la toma de decisiones. Utiliza datos, proporciona una interfaz amigable y permite la toma de decisiones en el propio análisis de la situación.
 
-Sistema para la toma de decisiones en grupo (GDSS): sistema informático utilizado para servir de apoyo, más que automatizar, el proceso de toma de decisiones. La decisión es una elección entre alternativas basadas en estimaciones de los valores de esas alternativas.
 
-Sistema de información para ejecutivos (EIS): es que el responsable de un departamento o compañía tenga acceso, de manera instantánea, al estado de los indicadores de negocio que le afectan, con la posibilidad de estudiar con detalle aquellos aspectos que no estén cumpliendo con los objetivos establecidos en su plan estratégico u operativo, y así determinar las medidas de contingencia más adecuadas.
 
-Sistemas expertos de soporte a la toma de decisiones (EDSS): Permiten cargar bases de conocimiento que se integran por una serie de reglas de sentido común para que diferentes usuarios las consulten.
 
 
 
 
    
3    .Business Intelligence (BI):  Conjunto de estrategias y aspectos relevantes enfocados a la administración creación de conocimiento sobre el medio, a través del análisis de los datos existentes en una organización o empresa. El objetivo básico de la Business Intelligence es apoyar de forma sostenible y continuada a las organizaciones para mejorar su competitividad, facilitando la información necesaria para la toma de decisiones

       ¿Cuáles son los beneficios que aporta el Business Intelligence?
       Uno de los objetivos básicos de los sistemas de información es que nos ayuden a la toma de decisiones.
      Cuando un responsable tiene que tomar una decisión pide o busca información, que le servirá para reducir la incertidumbre. Sin embargo, aunque todos la utilicen, no todos los responsables recogen la misma información: depende de muchos factores, como pueden ser su experiencia, formación, disponibilidad, etc. Del mismo modo, los responsables pueden necesitar recoger más o menos información dependiendo que su mayor o menor aversión al riesgo.

 
 
 
Este conjunto de estrategias y aspectos tienen en común una serie de características:

       -Accesibilidad a la información. Los datos son la fuente principal de este concepto. Lo primero que deben garantizar este tipo de herramientas y técnicas será el acceso de los usuarios a los datos con independencia de la procedencia de éstos.

     -Apoyo en la toma de decisiones. Se busca ir más allá en la presentación de la información, de manera que los usuarios tengan acceso a herramientas de análisis que les permitan seleccionar y manipular sólo aquellos datos que les interesen.
 
                      -Orientación al usuario final. Se busca independencia entre los conocimientos técnicos de los usuarios y su capacidad para utilizar estas herramientas.

 
 
La inteligencia de negocios es posible gracias a las llamadas herramientas de inteligencia de negocios, estas son un tipo de de software de aplicaciones diseñado para colaboraren los procesos de las organizaciones. Específicamente se trata de herramientas que asisten el análisis y la presentación de los datos. Existen diversos tipos:

·         Paneles de Control Digital: También conocidos como Business Intelligence Dashboards, son resúmenes visuales de información del negocio, que muestran de una mirada la comprensión  global de las condiciones del negocio mediante métricas e Indicadores Clave de Desempeño.

·         Procesamiento Analítico en línea: Es la capacidad de algunos sistemas de soporte de decisiones gerenciales que permiten examinar de manera interactiva grandes volúmenes de información desde varias perspectivas.

·         Minería de datos:. La tarea de minería de datos real es el análisis automático o semi-automático de grandes cantidades de datos para extraer patrones interesantes hasta ahora desconocidos, como los grupos de registros de datos (análisis clúster), registros poco usuales (la detección de anomalías) y dependencias (minería por reglas de asociación). Esto generalmente implica el uso de técnicas de bases de datos como los índices espaciales. Estos patrones pueden entonces ser vistos como una especie de resumen de los datos de entrada, y pueden ser utilizados en el análisis adicional o, por ejemplo, en la máquina de aprendizaje y análisis predictivo.
 
 
 
Por otra parte, los principales componentes de orígenes de datos en el Business  Intelligence que existen en la actualidad son:
ü  Datamart: Base de datos departamental, especializada en el almacenamiento de los datos de un área de negocio específica. Se caracteriza por disponer la estructura óptima de datos para analizar la información al detalle desde todas las perspectivas que afecten a los procesos de dicho departamento. Un datamart puede ser alimentado desde los datos de un datawarehouse, o integrar por si mismo un compendio de distintas fuentes de información.
 Por tanto, para crear el datamart de un área funcional de la empresa es preciso encontrar la estructura óptima para el análisis de su información, estructura que puede estar montada sobre una base de datos OLTP, como el propio datawarehouse, o sobre una base de datos OLAP. La designación de una u otra dependerá de los datos, los requisitos y las características específicas de cada departamento.
ü  Datawarehouse: base de datos corporativa que se caracteriza por integrar y depurar información de una o más fuentes distintas, para luego procesarla permitiendo su análisis desde infinidad de perspectivas y con grandes velocidades de respuesta. La creación de un datawarehouse representa en la mayoría de las ocasiones el primer paso, desde el punto de vista técnico, para implantar una solución completa y fiable de Business Intelligence.
La ventaja principal de este tipo de bases de datos radica en las estructuras en las que se almacena la información (modelos de tablas en estrella, en copo de nieve, cubos relacionales... etc.). Este tipo de persistencia de la información es homogénea y fiable, y permite la consulta y el tratamiento jerarquizado de la misma (siempre en un entorno diferente a los sistemas operacionales). Las principales aportaciones de un datawarehouse son:
 
·         Proporciona una herramienta para la toma de decisiones en cualquier área funcional, basándose en información integrada y global del negocio.
·        Facilita la aplicación de técnicas estadísticas de análisis y modelización para encontrar relaciones ocultas entre los datos del almacén; obteniendo un valor añadido para el negocio de dicha información.
·        Proporciona la capacidad de aprender de los datos del pasado y de predecir situaciones futuras en diversos escenarios.
·        Simplifica dentro de la empresa la implantación de sistemas de gestión integral de la relación con el cliente.
·        Supone una optimización tecnológica y económica en entornos de Centro de Información, estadística o de generación de informes con retornos de la inversión espectaculares.
Bibliografía y links:
itemsweb.esade.edu/.../Business_Intelligence
es.workmeter.com
 
 
 
 
 

 

miércoles, 13 de abril de 2016

TEMA 5: Recuperación de la información


¿Cómo funciona la recuperación de la información en los sistemas de los buscadores?

La recuperación de Ia información es el área de la ciencia y la tecnología que trata la adquisición, representación, almacenamiento, organización y acceso a elementos de información.
 La recuperación de información se centra en la representación, almacenamiento, organización y acceso a elementos de información. Esta puede realizarse a través de diferentes herramientas: bases de datos, Internet, tesauros, ontologías, mapas… Conocer y manejar estas herramientas contribuye a una recuperación de calidad.


Es necesario tener en cuenta los elementos clave que permiten hacer la búsqueda, determinando un mayor grado de pertinencia y precisión, estos son: Índices, palabras claves, y tesauros.

-Índices: Listado de términos normalizados que representan el contenido de un recurso. Algunos tipos son:

·         Índice de materias: términos ordenados según las materias que trata la base de datos, el buscador, etc.

·         Índice alfabético: listado de términos alfabéticamente

·         Índice KWIC: Tipo de índice permutado en el que el contenido temático de una obra se representa mediante palabras clave de su título o de otra fuente de información del documento.

·         Índice KWOC: Tipo de índice permutado que varía en su presentación respecto al índice KWIC, en que las palabras clave aparecen como un encabezamiento en línea separada. Bajo cada encabezamiento aparece la totalidad de los títulos, completos o truncados, que contienen la palabra clave de que se trata.

-Tesauros: listado terminológico controlado sobre un área o ámbito de conocimiento que mantiene entre sí relaciones semánticas y genéricas.

Su principal característica es que los términos están ordenados jerárquicamente, permitiendo la precisión terminológica en la búsqueda de información.
 
-Palabras clave: permite acotar y precisar información. El problema recae en definir la palabra exacta que representa el contenido, por ello es conveniente utilizar especificadores.

 Uno de los problemas que surgen en este tema es si lo que recuperamos es “mucho o poco” es decir, dependiendo del tipo de búsqueda se pueden recuperar multitud de documentos o simplemente un número muy reducido. A este fenómeno se denomina Silencio o Ruido documental:


-Silencio documental  Los documentos almacenados en la base de datos no han sido recuperados debido a que la estrategia de búsqueda ha sido demasiado específica o que las palabras clave utilizadas no son las adecuadas para definir la búsqueda.

-Ruido documental: la mayoría de los documentos almacenados en la base de datos no son pertinentes o relevantes de acuerdo a la necesidad de información.
 
Principales características y funciones de los sistemas de recuperación de la información.
 1º En una base de datos relacional descomponemos la información en diferentes tablas que se relacionan entre si y se reúnen mediante la interrogación que se hace mediante SQL.

2ºLos sistemas de recuperación de información son concebidos para representar documentos o conjuntos de informaciones que no tienen ningún tipo de estructura o que tienen algún tipo de estructura formal en la que el valor de cada elemento carácter puede ser variable, tanto en el número de ocurrencias, como en su longitud y ya no tanto en la información que contiene.

3ºLos sistemas de recuperación de información son concebidos para representar documentos o conjuntos de informaciones que no tienen ningún tipo de estructura o que tienen algún tipo de estructura formal en la que el valor de cada elemento carácter puede ser variable, tanto en el número de ocurrencias, como en su longitud y ya no tanto en la información que contiene.

4ºTodo sistema de recuperación de información realiza dos tareas básicas:

-Representación: proceso mediante el cual el sistema transforma un documento previamente almacenado a la ecuación, enunciado de búsqueda del usuario en entradas de índice, en puntos de acceso que pretenden representar por un lado la información que contiene el documento, y por otro la necesidad de información del usuario
-Búsqueda: proceso mediante el cual el sistema examina las representaciones de los documentos y las compara o equipara con las representación de las consulta.




Técnicas de recuperación de la información:

Existen varias técnicas de recuperación de la información, las más destacables son:

Técnica de clustering : Es un modelo probabilístico que permite las frecuencias de los términos de búsqueda en los documentos recuperados. Se atribuyen unos valores (pesos) que actúan como agentes para agrupar los documentos por orden de importancia, mediante algoritmos ranking, en esta técnica es necesaria ciertos algoritmos como EM o COBWEB.

Técnica de stemming: Pretenden acotar de una manera eficaz los documentos relevantes. Por esta razón, esta técnica lo consigue mediante una correcta indización en el proceso de tratamiento de los documentos con ayuda de índices, tesauros, etc.; evitando las ambigüedades léxicas y semánticas a la hora de establecer las consultas. Los principales algoritmos que usa son Paice/HuskS-stemmer / n-gramas.

 
Técnica de ponderación de términos: pretende darle un valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El valor depende de los términos pertinentes que contenga el documento y la frecuencia con que se repita.

Sistema de recuperación de lógica difusa: permite establecer consultas con frases normales, de forma que la máquina al realizar la búsqueda elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes (que suelen aparecer en todos los documentos), dejando sólo aquellas palabras que el sistema considera relevantes. La recuperación se basa en proposiciones lógicas con valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento.
 



 
 
 


Bibliografía y links:
https://es.wikipedia.org/wiki/Búsqueda_y_recuperación_de_información
www3.uah.es/.../BUSQUEDADEINFORMACION
 



sábado, 2 de abril de 2016

TEMA 4: El sistema de búsqueda de Google.


1.       ¿Qué es Google?

Google es una compañía, principal subsidiaria de la multinacional estadounidense Alphabet Inc., especializada en productos y servicios relacionados con Internet, software, dispositivos electrónicos y otras tecnologías. El principal producto de Google es el motor de búsqueda de contenido en Internet del mismo nombre aunque ofrece también otros productos y servicios como el correo electrónico llamado Gmail, sus servicios de mapas Google Maps y Google Earth, el sitio web de vídeos YouTube y otras utilidades web como Google Libros o Google Noticias, Google Chrome y la red social Google+.

Google tiene más de 1 millón de servidores y es capaz de procesar más de 1000 millones de peticiones de búsqueda diarias y su motor de búsqueda es el sitio web más visitado a nivel mundial tal como muestra el ranking web internacional.

2.       La velocidad de Google. ¿Cómo funciona Google para ser tan rápido?

El resultado de una búsqueda empieza mucho antes de que el usuario escriba su consulta, incluso de que la piense. El primer pasó es el de buscar contenidos en Internet. Google tiene lo que se suelen llamar “arañas” o “robots” que no son más que ordenadores navegando continuamente por Internet buscando y almacenado contenidos, para a continuación, almacenar e indexar este contenido en los servidores de Google.En 1999, Google almacenaba alrededor de 50 millones de páginas, en la actualidad, Google almacena más de 100.000 millones de páginas. Es decir, un crecimiento de un 1 a 2000. Google, analiza más de 200 indicadores para saber cuáles son las páginas más relevantes para una búsqueda determinada. Así cuando el usuario empieza a escribir la consulta, ¿Qué sucede? Google empieza a proponer auto terminaciones, que no son más que predicciones de lo que el usuario desea escribir.

En ese mismo momento, Google Instant comienza a dar resultados en la página. Es decir, Google permite ver los resultados de la consulta mientras la estamos escribiendo.

Google analiza la consulta para entender lo que realmente se está buscando, lo busca en los índices y genera los resultados de la consulta.

A continuación Google crea la presentación de estos resultados, los títulos y los fragmentos de las páginas a mostrar bajo los títulos. Los fragmentos deben de ser la parte más relevantes de cada página para la consulta realizada. Esto también requiere una gran cantidad de cálculo, pues debe de recorrer cada página para encontrar cual es la parte más relevante para la consulta realizada.

 

3.       La calidad de la información de Google.

 

Cada día que pasa, aparece nueva información en Google, y esto es debido a que la red constituye un excelente medio de difusión y a la vez es muy fácil publicar en él: cualquier persona, organismo o empresa que disponga de un ordenador y de un módem para conectarse a la red, puede subir información Pero esto tiene un gran problema y es que en la red no existe ningún proceso de selección o filtrado de la información, salvo en aquellos casos que corresponden a bases de datos ofrecidas de forma gratuita por sus productores (Eric, Medline, etc.) y los recursos relativos a revistas electrónicas que ofrecen el texto completo de todos o parte de sus artículos publicados (JAMA, Database).

 

Estos dos factores comentados anteriormente, la facilidad para publicar y la falta de control, ha ocasionado que la Google se haya convertido en uno de los almacenes más importantes de información del mundo y, no cabe ninguna duda, que en el más utilizado sobre todo por su carácter “gratuito”. Así, es evidente que cada vez hay más publicaciones, pero también que los motores de búsqueda recuperan más basura que otra cosa, debido sobre todo a la gran diversidad de información existente. Por lo tanto, debe ser el  propio usuario o el documentalista quien evalúe la fuente de información de forma más profunda y crítica. Todo tipo de información necesita ser evaluada según criterios de autoridad, conveniencia y otros criterios personales; no utilizar nunca información que no se pueda verificar. El establecer y aprender a utilizar criterios que filtren la información encontrada en Internet es un buen comienzo para llegar a convertirse en un consumidor crítico de la información en todas sus formas. Debido a la naturaleza dinámica y cambiante de Internet, los recursos deberán ser re-evaluados periódicamente para determinar si aún satisfacen los criterios.

Muchas veces, las mejores fuentes de información no están disponibles de forma gratuita en la Web, ya que los productores de información cobran por esa información (bases de datos, revistas, etc.), y hay que pagar si se quieren usar estos recursos de información. Tener siempre presente que la información que

Conseguimos a través de Internet no es gratuita: el tiempo de conexión tiene un coste, y el tiempo que nosotros invertimos también tiene un precio, y por tanto, representa un coste, aunque sea intangible y muchas veces no se tenga en cuenta.
 
 
 
 
 
 
1.       Bibliografía y referencias:
 
deteresa.com/cambios-algoritmo-google