miércoles, 6 de octubre de 2010

¿Que significado tiene los spider o robots?

Los robots, crawlers o spiders son pequeños programas mandados  por Google que investigan, analizan y escanean millones de páginas en la red, y van generalmente de una a la otra, vinculándose mediante los enlaces que las páginas les ofrecen.¿Esto que significa?
Mas que nada, que van por la red buscando documentos, una vez encontrado uno, continúan su búsqueda e indexación con los documentos a los que hace referencia el primero que encontraron..
¿Para qué se usan?

  • Se utilizan para Indexar.
  • Para la validación HTML.
  • La validación de links.
  • El monitoreo de novedades o “que agregaron nuevo?”.
  • Y para el mirroring.
¿Son malos estos pequeños bichos?
En realidad no, pero hay que tener en cuenta que estos robots son programados  por humanos, y los humanos por lo general cometemos muchos errores. Por eso al realizar la programación la gente a cargo de los robots debe ser muy cuidadoso y los autores de los robots tienen que programarlos de modo que sea difícil que la gente cometa errores con consecuencias graves. De todas formas, en general,  la mayoría de robots esta diseñado bastante responsable e inteligentemente, no causan grandes problemas y proveen de un servicio bastante valioso que de otra forma sería demasiado tosco. Por lo que decimos, que los robots no son malos ni buenos, solo hay que prestarles la debida atención que requieren.
¿Por dónde empiezan?
Suelen comenzar por una base de datos fija de direcciones y de ahí parten expandiéndose basándose en las referencias. Algunos buscadores te ofrecen una sección en la que puedes mandarles tu página para que ellos manden un pequeño robot a indexarla y agregarla a su base de datos.
¿Cómo dirigir a los robots y ordenarles que indexen o no?
Mediante ciertos archivos uno puede restringir o no, la actividad de los robots, ya que uno como administrador de un sitio puede a veces querer que un robot haga que aparezcamos en los buscadores, o tal vez no, o a veces preferimos que cierto contenido no sea indexado o que por ejemplo sólo ciertos buscadores nos indexen, las variantes van de acuerdo a lo que nosotros queramos y son posibilidades bastante grandes. Es entonces cuando entra en juego el famoso archivo robots.exe. Este archivo deberá ser colocado en la raíz de nuestro servidor ya que al momento que un robot llega a nuestro servidor, por lo general busca este archivo para saber que restricciones le hemos dado y como debe actuar. Digamos que nosotros tenemos a nuestra disposición las ordenes pertinentes para dejarlo actuar libremente o no, dependerá de lo que nosotros le dejemos agendado para que cuando el robot entre sepa exactamente que hacer.

No hay comentarios:

Publicar un comentario