Serie: Conociendo a los Bots
- Conociendo a los Bots: Buscadores genéricos
- Bots: Buscadores y lectores de blogs
- Bots: Programas y publicitarios / corporativos
- Bots: servicios de internet y desconocidos
Los "bots", "robots", "spiders" (arañas) o "crawlers" son los programas que van por la internet de página en página, analizando su contenido para diferentes propósitos.
Los hay "buenos", como los de los buscadores que luego nos redirigirán visitas, y "malos", como los que buscan direcciones de correo para luego enviar correo basura. Por lo general son beneficiosos, y al menos a mí me parece interesante saber de dónde vienen y qué hacen, así que recopilé la lista de los robots que han visitado este sitio y busqué algo de información sobre cada uno.
No pretendo hacer aquí una lista exhaustiva de todos los robots que andan por internet, pero creo que mencionaré los más comunes.
Para estructurar mejor la lista, la he dividido en categorías: Buscadores genéricos, buscadores de blogs, Lectores de RSS y Programas.
Buscadores genéricos y portales
Los buscadores son los que hoy en día ponen las reglas en Internet. Liderados por Google, parece que todo el mundo busca obtener su bendición y aparecer en los primeros puestos.
Al contrario de lo que pueda parecer hay muchísimos buscadores y portales diferentes, muchos de ellos dirigidos a la gente de un solo país (WebAlta, o Baidu).
- Ask Jeeves/Teoma
- Se identifica como: Mozilla/2.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en/docs/about/webmasters.shtml)
Ask es una "empresa de internet" con muchos servicios, bastante grande y conocida. Ask Jeeves es el nombre de su buscador. No es tan conocida en los países hispanos, pero es uno de los grandes en Estados Unidos. - Baiduspider
- Se identifica como: Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
Baidu es el buscador más importante de China. No es muy útil para los que no podemos leer idiogramas, así como probablemente un sitio en español no sea muy útil para el buscador. - Daumoa
- Se identifica como: Mozilla/5.0 (compatible; Firefox or MSIE mutant; not on Windows server; +http://ws.daum.net/aboutkr.html) Daumoa/2.0 Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent
Daumoa es el nombre del robot del portal Daum, un portal del estilo de Yahoo! muy conocido en Corea del Sur. No pude encontrar mucha más información sobre él, dado que el sitio está completamente en coreano. - discobot
- Se identifica como: Mozilla/5.0 (compatible; discobot/1.0; +http://discoveryengine.com/discobot.html)
DiscoveryEngine es un motor de búsqueda "de próxima generación", aún en desarrollo. Aunque aún no funciona, su robot anda por ahí analizando páginas. - Geonabot
- Se identifica como: GeonaBot/1.2; http://www.geona.com/
Geona no tiene una gran base de datos (una búsqueda por "alvlin" solamente devuelve este sitio, no devuelve ForosDelWeb por ejemplo) y extrañamente incluye publicidad de Google. - Gigabot
- Se identifica como: Gigabot/1.0 Gigabot/3.0 (http://www.gigablast.com/spider.html)
Gigablast es un buscador "nuevo", que da resultados bastante decentes. - Googlebot
- Se identifica como: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
El robot de Google. No hay mucho que comentar, dado que es el programa responsable de que un sitio esté indexado en el que en la actualidad es el mayor buscador del mundo - Googlebot-Image
- Se identifica como: Googlebot-Image/1.0
Se trata del buscador de imágenes de Google. - MLBot
- Se identifica como: MLBot (www.metadatalabs.com/mlbot)
metadatalabs es el nombre de un buscador de contenido multimedia, aún en desarrollo. - msnbot
- Se identifica como: msnbot/1.1 (+http://search.msn.com/msnbot.htm)
Este es el robot "genérico" de Live Search (anteriormente MSN). Nada más ni nada menos que el 3º buscador más usado del mundo. - msnbot-media
- Se identifica como: msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)
Este es el buscador de contenido multimedia de Live Search. - ScoutJet
- Se identifica como: Mozilla/5.0 (compatible; ScoutJet; +http://www.scoutjet.com/)
Como se puede leer en su sitio, ScoutJet es el motor de un nuevo buscador creado por la misma gente que creó DMOZ. El buscador aún no está operativo. - WebAlta Crawler
- Se identifica como: WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)
El robot de WebAlta, el buscador más grande y popular de Rusia. Sin embargo, es un robot bastante molesto porque la dirección de información que provee no lleva a ningún lado, y por lo que he leído ni siquiera respeta lo que se especifica en el archivo robots.txt. El único de esta lista del que realmente tengo motivos para desconfiar. - Yahoo! Slurp
- Se identifica como: Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) o
Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)
el "chupador" (traducción literal de "slurp") es el robot que Yahoo! usa para indexar las páginas.











20/11/2008, a las 23:34
Añado otro: Trovator
21/11/2008, a las 12:40
No me ha visitado, ¿podrías dejar el agente de usuario que utiliza?