domingo, 17 de abril de 2016

Recuperación de la Información




El tema sobre el que vamos a hablar está muy relacionado con el tema anterior, es por eso que no lo explicare desde cero, sino que continuare a partir de lo dicho anteriormente. Esta relación se debe a que cuando buscamos algo en Google, el buscador se dispone a realizar una recuperación de datos, que es el resultado de nuestra búsqueda. Esta recuperación de datos se realiza dentro de la base de datos del buscador con el objetivo de recuperar textos, imágenes, etc.

Para acceder a esta base de datos, se utilizan:

  • Buscadores: con el fin de recuperar información almacenada en internet.
  • Directorios: son listas que están ordenadas y permiten acceder a la información de manera clara.
  • Metabuscadores: estos buscan la información en diferentes bases de datos.
  • Buscadores selectivos: buscan información en una base de datos que solo contiene información de un área especifica.

Para facilitar la búsqueda de información, es recomendable introducir las palabras claves. Estas palabras clave sirven para encontrar de manera sencilla la información, pero para que esto ocurra, las páginas web deben estar bien etiquetadas.

Para recuperar la información, nos podemos encontrar con dos enfoques diferentes:

  • El procesamiento estadístico: en este procesamiento, se asigna un peso a cada término en función de su relevancia con el resto del texto, sin importar el orden ni la estructura
  • El procesamiento lingüístico: los documentos son analizados en diferentes niveles lingüístico que se han establecido anteriormente.

También, para recuperar la información, se usan muchos tipos de ecuaciones como el truncamiento, los operadores booleanos... o incluso programas como Webspirs.


Para finalizar, quiero añadir que el resto de información necesaria para completar el tema, se encuentra el la entrada anterior del Blog, es decir, El buscador de Google.






domingo, 3 de abril de 2016

El Sistema de Búsqueda de Google

Cuando entras en internet y te dispones a hacer una búsqueda en Google, en un instante obtienes los resultados, los cuales coinciden en gran parte con lo que buscas. Dichos resultados se obtienen a través de tres procesos principales:
  • El Rastreo: es la técnica que utiliza Google para encontrar nueva páginas. Para realizar esta tarea se utilizan miles de equipos informáticos los cuales están las 24 horas en funcionamiento. El programa que se encarga de esto se le conoce como Robot o Araña, el cual utiliza un proceso de rastreo algorítmico. Este proceso se realiza a través de otros programas informáticos que determinan los sitios que hay que rastrear, con que frecuencia hay que rastrearlos y el número de páginas que hay que explorar en cada uno de ellos. Es decir, cada vez que Google registra una página a través del rastreo, los enlaces que se encuentran en dicha página son añadidos a la lista de rastreo.

  • Indexación: se procesan todas las páginas que son rastreadas para compilar un índice masivo de todas las palabras que ve junto con su ubicación en cada página. En este proceso, el robot puede procesar muchos datos de cada página, pero no todos. Cada búsqueda que realizamos sobre cualquier tema, hace que la indexación de Google crezca. 



  • Publicación de resultados: cuando realizamos una búsqueda en Google, este nos muestra los resultados que considera más relevantes para el usuario. Uno de los factores que determina el nivel de relevancia es la clasificación PageRank. Esto lo hace a través de la asignación de Google hacia una página en función de los enlaces que procedan de otras páginas. Las mejores páginas para Google son las que tienen mayor calidad de contenido.

Por otro lado, encontramos la lucha contra el spam: Una parte del spam se elimina automáticamente y otra parte susceptible a ser spam, se elimina de forma manual. Para esta última se avisa a los propietarios para que tengan la oportunidad de corregirlo.




Referencias:
https://support.google.com/webmasters/answer/70897?hl=es
https://www.nbweb.es/blog/como-funciona-el-buscador-google/