viernes, 19 de noviembre de 2010

Diccionario de buscadores?

Cada vez que nosotros,accede a una página web determinada,este acceso es registrado en un log.
Pero como siempre,quien hace la ley hace la trampa,y muchos robots maliciosos pululando por la red.
Mediapartners-Google:
WordPress
Googlebot
msnbot
 Microsoft-WebDAV-MiniRedir/5.1.2600
Evidentemente faltan muchos, pero me he preocupado de poner los más  comunes

Anatomía de los buscadores!

Los buscadores cuentan con aplicaciones de software para realizar tareas específicas llamados spiders.
Generalmente, el "crawler" tiene una lista de URLs para visitar y almacenar los datos. 
Tienen la habilidad de seguir los enlaces,en las páginas web.
Lo primero que solicitan es el archivo robots.txt.
Los spiders funcionan con versiones de los navegadores muy básicas.
La funcionalidad de los spiders como Googlebot es que éstos visitan las mismas páginas,repetidamente.
Están en constante evolución y siempre adaptándose a los nuevos cambios

Mi mejor consejo: si tú o tu equipo está diseñando un nuevo sitio web o desarrollando uno existente, siempre ten en mente a los robots de los buscadores
 

¿ Como es un Crawles?

Un crawler es un robot de una entidad (generalmente buscadores) que acceden a las páginas web de un sitio para buscar información en ella, añadirla en los buscadores, etc. También son llamados spiders, arañas, bots o indexadores.

¿ Como buscar en buscadores ?

Lo primero, identificar el tipo de buscador
Saber, si es un  directorio o un buscador spider. 
Guía para búsquedas en los buscadores 
Busco una referencia: escriba la referencia en un spider.
Los directorios, no suelen servir para esto, salvo que sea una referencia muy popular.
Una ley o documento:  Tome las palabras clave del título, y busque por ejemplo [ ley aguas principado asturias 98/2001 ]. Si no obtiene resultados, quite el 98/2001.
Caso de que no de usted con ello, lo mas probable, es que no exista ese documento en la red, o que su acceso sea de pago. -Los spiders, por si mismos, no pueden entrar en una área segura protegida de una web.
Una información técnica: Es igual que la búsqueda de una ley, salvo que tendremos que rascarnos un poco mas la cabeza para dar rápidamente con lo que se busca.
Busca documentarse sobre un tema: o navegar por webs con páginas de sus gustos, aficiones o intereses. 
Consideraciones al buscar
Es indiferente usar mayúsculas y minúsculas.
Es indiferente emplear acentos u otros símbolos especiales.
Palabras de menos de tres caracteres, artículos y preposiciones, no suelen ser muy significativos 
Una opción que pueda ser interesante incluida por algunos engines es la de búsqueda exacta o completa, 
Qué podemos encontrar en los resultados 
No todo está en la red. 

 

martes, 26 de octubre de 2010

COMO AGREGAR UN BUSCADOR !

Agregar Robots de buscadores.

Nos dirigimos a :

TOOLS & SETTINGS -> View All General Settings -> Buscamos Search Engine Spiders

Ahi veremos unas cuantas opciones, solo tenemos que ditar una "Spider Bot User-Agent", borramos todo lo que hay ahi y agregamos esta lista tal cual esta

CÓDIGO
:robot/1.0=Neofonie.de
0.1_hseo(at)cs.rutgers.edu=Rutgers.edu
AbachoBOT (Mozilla compatible)=Crawler.de
AbachoBOT=Crawler.de
abcdatos_botlink=Abcdatos.com
About/0.1libwww-perl/5.47=About.com
abot/0.1=Abot.com
abot/0.1 (abot; http://www.abot.com; abot[arroba]abot.com)=Abot.com
accoona=Accoona.com
AcoiRobot=Acoi Picture Robot
Acoon Robot v1.50.001=Acoon.de
Acoon Robot v1.52=Acoon.de
Acoon Robot=Accon.de
ActiveWorlds/3.xx=ActiveWorlds.com
admin[arroba]crawler.de=Crawler.de
admin[arroba]maxbot.com=maxbot.com
ADSARobot=ADSARobot
AESOP_com_SpiderMan=Aesop.com
agadine/1.x.x=Agada.de
Agent-admin/=Daum.net
ah-ha.com crawler (crawler[arroba]ah-ha.com)=Ah-ha.com
ah-ha.com crawler=Ah-ha.com
Aladin/3.324=Aladin.de
Aleksika Spider/1.0=Aleksika.de
AlkalineBOT/1.3=Vestris.com
AlkalineBOT/1.4=Vestris.com
AlkalineBOT=AlkalineBOT
Allesklar/0.1 libwww-perl/5.46=Allesklar.de
AltaVista-Intranet=Altavista.co.uk
AmfibiBOT=Amfibi.com
Amiga-AWeb/3.4.167SE=AWeb.com
amzn_assoc=Amazon.com
AnswerChase PROve x.0=AnswerChase.com
AnswerChase x.0=AnwserChase.com
AnswerChase=AnswerChase.com
Antibot=AntiSeach.net
antibot-V1.1.5/i586-linux-2.2=AntiSeach.net
AnzwersCrawl/2.0=Anzwers
A-Online Search=Jet2Web.com
Aport=Aport.ru
appie 1.1=Walhello.com
appie=Walhello.com
arachnoidea[arroba]euroseek.net=Euroseek.net
Arachnoidea=Euroseek.com
Aranha=Girafa.com
ArchitectSpider=Excite.com
archive.org_bot=Archive.org
archive_org=Archive.org
ask jeeves=Ask Jeeves
ask.24x.info=Ask.24x.info
ASPSeek/1.2.5=ASPSeek.org
ASPseek/1.2.9d=ASPSeek.com
ASPSeek/1.2.x=ASPSeek.org
ASPSeek/1.2.xa=ASPSeek.org
ASPseek/1.2.xx=ASPseek.org
ASPSeek/1.2.xxpre=ASPSeek.org
ASPSeek=ASPSeek.org
asterias/2.0=SingingFish.com
Asterias=SingingFish.com
AtlocalBot=Atlocal.com
AtlocalBot/1.1 +(http://www.atlocal.com/local-web-site-owner.html)=Atlocal.com
Atomz/1.0=Atomz.com
Atomz=Atomz.com
Augurfind=Augurnet.ch
augurnfind V-1.x=Augurnet.ch
autohttp=Elsop.com
AV Fetch 1.0=Altavista.com
AVSearch=Altavista.com
AVSearch-3.0=Altavista.com
AxmoRobot=Axmo.com
Baiduspider+=Baidu.com
BaiDuSpider=Baidu.com
BanBots/1.2=Banbots.com
BarraHomeCrawler=BarraHome.com
bdcindexer_2.6.2=Business.com
BDFetch=Brandimensions.com
BDNcentral Crawler v2.3=Bdncentral.com
beautybot/1.0=Cosmoty.com
BigCliqueBOT/1.03-dev=BigClique.com
Bilbo/2.3b-UNIX=Biblo Bot
BlackWidow=BlackWidow Bot
Blaiz-Bee/1.0 (+http://www.blaiz.net)=Blaiz.net
Blaiz-Bee/1.0=Blaiz.net
BlitzBOT[arroba]tricus.net (Mozilla compatible)=Blitzsuche.rp-online.de
BlitzBOT[arroba]tricus.net=Blitzsuche.rp-online.de
BlogBot/1.x=Blogdex.net
BlogBot=Blogdex.net
blogWatcher_Spider/0.1=Blogwatcher.pi.titech.ac.jp
Bloglines Title Fetch/1.0 (http://www.bloglines.com)=Bloglines.com
boitho.com-dc/0.xx=Boitho.com
boitho.com-robot/1.x=Boitho.com
BSDSeek/1.0=Inktomi.com
BullsEye=Intelliseek.com
bumblebee[arroba]relevare.com=Relevare.com
Buscaplus Robi/1.0=Buscaplus.com
Buscaplus Robi=Buscaplus.com
CanSeek/=Cansee.ca
ChristCRAWLER 2.0=Christcrawler.com
ChristCRAWLER=Christcrawler.com
CipinetBot=Cipinet.com
citenikbot/=Cenik.co.uk
ClariaBot/1.0=Searchscout.com
Claymont.com=Claymont.com
CLIPS-index=Cips-index.imag.fr
Clushbot/3.3-BinaryFury (+http://www.clush.com/bot.html)=Clush.com
Clushbot/3.3-BinaryFury=Clush.com
Combine/x.0=Combine Bot
Computer_and_Automation_Research_Institute_Crawler=Research Bot
contact/jylee[arroba]kies.co.kr=Kies.co.kr
Convera Internet Spider V6.x=Convera.com
cosmos/0.8_(robot[arroba]xyleme.com)=Xyleme.com
cosmos/0.9_(robot[arroba]xyleme.com)=Xyleme.com
cosmos=Xyleme.com
C-PBWF-ip3000.com-crawler=IP3000.com
CrawlConvera0.1=Converna.net
Crawler (cometsearch[arroba]cometsystems.com)=Findwhat.com
Crawler admin[arroba]crawler.de=Crawler.de
Crawler V 0.2.x admin[arroba]crawler.de=Crawler.de
crawler[arroba]alexa.com=Alexa.com
crawler[arroba]brainbot.com=Brainbot.com
crawler[arroba]fast.no=Alltheweb.com
Crawler=Crawler.de
CrawlerBoy Pinpoint.com=Pinpoint.com
CrawlerBoy=Pinpoint.com
CrocCrawler= CrocCrawler.com
Custom Spider www.bisnisseek.com /1.0=Bisnisseek.com
DaAdLe.com ROBOT/=Daadle.com
DataparkSearch/4.xx=DataparkSearch.com
DaviesBot/1.7=Wholeweb.net
DaviesBot=Wholeweb.net
dbDig=Prairielandconsulting.com
DBrowse 1.4b=DBrowse Bot
DBrowse 1.4d=DBrowse Bot
dCSbot/1.1=Openmarket.com
DeepIndex=DeepIndex.com
DeepIndexer.ca=DeepIndex.com
deepweb=Deepweb.com
Demo Bot DOT 16b= Btopenworld.com
DiaGem/=Skyrocket.gr.jp
DiaGem/1.1 (http://www.skyrocket.gr.jp/diagem.html)=Skyrocket.gr.jp
DiaGem/1.1=Skyrocket.gr.jp
Diamond/1.0=Searchscout.com
Digger/1.0 JDK/1.3.0rc3=Diggit.com
Digimarc WebReader=Digimarc.com
DigOut4U=Arisem.com
DIIbot/1.2=Digital-Integrity.com
DIIbot=Digital-Integrity.com
DittoSpyder=Ditto.com
dloader(NaverRobot)/=Naver.com
dtSearchSpider=Dtsearch.com
Dumbot(version 0.1 beta - dumbfind.com)=Dumbfind.com
Dumbot(version 0.1 beta)=Dumbfind.com
dumrobo(NaverRobot)/=Naver.com
EARTHCOM.info/1.4beta=Earthcom.info
EasyDL/3.02=Keywen.com
EasyDL/3.03=Keywen.com
EasyDL/3.04=Keywen.com
EasyDL/3.xx http://keywen.com/Encyclopedia/Bot=Keywen.com
EasyDL/3.xx=Keywen.com
EchO!/2.0=Voila.com
egothor/3.0a (+http://www.xdefine.org/robot.html)=Xdefine.com
egothor/3.0a=Xdefine.com
EgotoBot/4.8=Egoto.com
Enterprise_Search/1.0.xxx=Innerprise.net
Enterprise_Search/1.0=Innerprise.net
erik[arroba]malfunction.org=Malfunction.org
EroCrawler=Erocrawler.com
ES.NET_Crawler/2.0=Innerprise.net
eseek-larbin_2.6.2=Exactseek.com
ESISmartSpider=Travel-Finder.com
ExactSeek Crawler/0.1=Exactseek.com
exactseek-crawler-2.63=Exactseek.com
Exalead NG/MimeLive Client=Exabot.com
Excalibur Internet Spider V6.5.4=Excalib.com
ExperimentalHenrytheMiragoRobot=Mirago.co.uk
EyeCatcher (Download-tipp.de)/1.0=Download-tipp.de
EyeCatcher=Download-tipp.de
EZResult=Ezresults.com
Fast Crawler Gold Edition=Alltheweb.com
FAST Data Search Crawler=Alltheweb.com
FAST Enterprise Crawler 6 (Experimental)=Alltheweb.com
FAST Enterprise Crawler 6 used by FAST (FAST)=Alltheweb.com
FAST Enterprise Crawler 6 used by FAST=Alltheweb.com
FAST Enterprise Crawler 6=Alltheweb.com
FAST Enterprise Crawler/6 (www.fastsearch.com)=Alltheweb.com
FAST Enterprise Crawler/6=Alltheweb.com
FAST FirstPage retriever (compatible; MSIE 5.5; Mozilla/4.0)=Alltheweb.com
FAST FirstPage retriever=Alltheweb.com
Fast PartnerSite Crawler=Alltheweb.com
FastCrawler 3.0.1 (crawler[arroba]1klik.dk)=Alltheweb.com
FastCrawler 3.0.1=Alltheweb.com
FAST-WebCrawler/2.2.10=Altheweb.com
FAST-WebCrawler/2.2.6=Altheweb.com
FAST-WebCrawler/2.2.7=Altheweb.com
FAST-WebCrawler/2.2.8=Altheweb.com
FAST-WebCrawler/3.2 test=Altheweb.com
FAST-WebCrawler/3.2=Altheweb.com
FAST-WebCrawler/3.3=Altheweb.com
FAST-WebCrawler/3.4/Nirvana=Altheweb.com
FAST-WebCrawler/3.4/PartnerSite=Altheweb.com
FAST-WebCrawler/3.5=Altheweb.com
FAST-WebCrawler/3.6/FirstPage=Altheweb.com
FAST-WebCrawler/3.6=Altheweb.com
FAST-WebCrawler/3.7/FirstPage=Altheweb.com
FAST-WebCrawler/3.7=Altheweb.com
FAST-WebCrawler/3.8/Fresh=Altheweb.com
FAST-WebCrawler/3.8=Altheweb.com
FAST-WebCrawler/3.x Multimedia (mm dash crawler at fast dot no)=Altheweb.com
FAST-WebCrawler/3.x Multimedia=Altheweb.com
FAST-WebCrawler=Alltheweb.com
Faxobot/1.0=FaXo.com
Felix - Mixcat Crawler=Mixcat.com

COMO FUNCIONA UN MOTOR DE BUSQUEDA?

Cómo funciona un motor de búsqueda

Todos tenemos más o menos una vaga idea de cómo funciona Google. Pero ¿qué procesos se dan dentro del buscador? ¿Podemos aprovecharlos para optimizar nuestros sitios, o posicionarnos mejor en el ranking de resultados?
La respuesta es afirmativa. Entonces, para entenderlo mejor, podríamos dividir el proceso en tres partes: el Crawling (recorrido que hacen los spider-robots por nuestro sitio), la Indexación y los resultados de búsqueda. Estas partes trabajan solas y en conjunto.
Saber cómo funcionan las tres partes de este proceso puede explicar por qué algunos sitios son indexados y otros no.
Respecto del Crawling, tiene diferentes prioridades, como recorrer e indexar cuantas páginas se encuentren en un mismo directorio web, en vez de seguir todos los links de un sitio enorme. Además puede organizar el crawling de manera que no sature el servidor.
Además, el rol en el PageRank determina la prioridad del crawling, de cómo convertirá archivos PDF y postcript a texto antes de enviarlos a otro programa que los indexe.
Esto quiere decir que sitios grandes, con un PR alto, como por ejemplo AOL, serán indexados antes y con más regularidad, porque su servidor soportará simultáneos robots que hagan la tarea.

jueves, 7 de octubre de 2010

¿como sebe un buscador si tiene un duplicado de documentos?

¿Cómo sabe un buscador qué páginas tienen contenido duplicado?

¿Cómo sabe un buscador qué páginas tienen contenido duplicado?Con tanto contenido de calidad dando vueltas por la red, es inevitable que los robots de los motores de búsqueda encuentren notas, artículos, frases y demás contenido duplicado. La pregunta del millón es: ¿Cómo sabe un buscador qué páginas tienen contenido duplicado?
O dicho de otra manera: ¿Cómo reconoce una página como la original? No te gustaría que un sitio o blog que copia tu contenido se posicione mejor ¿verdad? Tranquilo, esto no va a pasar. Entérate cómo funciona el proceso de descarte de sitios con contenido duplicado con este excelente gráfico.
¿Cómo sabe un buscador qué páginas tienen contenido duplicado?

miércoles, 6 de octubre de 2010

¿Que significado tiene los spider o robots?

Los robots, crawlers o spiders son pequeños programas mandados  por Google que investigan, analizan y escanean millones de páginas en la red, y van generalmente de una a la otra, vinculándose mediante los enlaces que las páginas les ofrecen.¿Esto que significa?
Mas que nada, que van por la red buscando documentos, una vez encontrado uno, continúan su búsqueda e indexación con los documentos a los que hace referencia el primero que encontraron..
¿Para qué se usan?

  • Se utilizan para Indexar.
  • Para la validación HTML.
  • La validación de links.
  • El monitoreo de novedades o “que agregaron nuevo?”.
  • Y para el mirroring.
¿Son malos estos pequeños bichos?
En realidad no, pero hay que tener en cuenta que estos robots son programados  por humanos, y los humanos por lo general cometemos muchos errores. Por eso al realizar la programación la gente a cargo de los robots debe ser muy cuidadoso y los autores de los robots tienen que programarlos de modo que sea difícil que la gente cometa errores con consecuencias graves. De todas formas, en general,  la mayoría de robots esta diseñado bastante responsable e inteligentemente, no causan grandes problemas y proveen de un servicio bastante valioso que de otra forma sería demasiado tosco. Por lo que decimos, que los robots no son malos ni buenos, solo hay que prestarles la debida atención que requieren.
¿Por dónde empiezan?
Suelen comenzar por una base de datos fija de direcciones y de ahí parten expandiéndose basándose en las referencias. Algunos buscadores te ofrecen una sección en la que puedes mandarles tu página para que ellos manden un pequeño robot a indexarla y agregarla a su base de datos.
¿Cómo dirigir a los robots y ordenarles que indexen o no?
Mediante ciertos archivos uno puede restringir o no, la actividad de los robots, ya que uno como administrador de un sitio puede a veces querer que un robot haga que aparezcamos en los buscadores, o tal vez no, o a veces preferimos que cierto contenido no sea indexado o que por ejemplo sólo ciertos buscadores nos indexen, las variantes van de acuerdo a lo que nosotros queramos y son posibilidades bastante grandes. Es entonces cuando entra en juego el famoso archivo robots.exe. Este archivo deberá ser colocado en la raíz de nuestro servidor ya que al momento que un robot llega a nuestro servidor, por lo general busca este archivo para saber que restricciones le hemos dado y como debe actuar. Digamos que nosotros tenemos a nuestra disposición las ordenes pertinentes para dejarlo actuar libremente o no, dependerá de lo que nosotros le dejemos agendado para que cuando el robot entre sepa exactamente que hacer.

martes, 5 de octubre de 2010

como se ve un robot spider

Creo que todos sabemos lo que es un robot spider de un buscador. Es el programa que usan los buscadores para explorar todos los enlaces de cada website, siguiendo sus referencias y generando o actualizando un mapa de hiper-relaciones entre websites vinculadas. Una especie de telaraña digital, de ahí el apodo de spiders. Cada buscador tiene el suyo: Google tiene el GoogleBot, Yahoo! el Slurp, Microsoft desarrollo el MSNBot, etc.
Los spiders recorren cada página recabando información, a veces pueden hacerlo sin problemas y a veces no son capaces. ¿Cuando un spider no registra parte de tu web? Cuando utilizas contenidos generados mediante flash, mediante javascript o cualquier tecnología que impide al spider leerlo. Incluso elementos tan arcaicos como los combobox de los formularios pueden ser un problema para los spiders. Inciso: Google nunca descansa y ya está manos a la obra para intentar solventar estos problemas.
Se habla mucho de que hay que intentar escribir las páginas para facilitarles la lectura a los bots, aparte de evitar los elementos ya citados, hay otros consejos como por ejemplo utilizar <div>’s en lugar de <table>’s. Pero ¿Te has preguntado como visualiza un spider tu web? Webconfs ha desarrollado una herramienta que simula como se verían tus páginas a los ojos de un bot.

Spidered Text: el texto visualizado

Todo el texto de tu página que es capaz de ver. Los buscadores han avanzado tanto que son capaces de tomar todo ese téxto como parte del índice.