El Codiguero
Programando para la wé

Avatar de alvlin Publicado por alvlin, el 23/05/2008
Categorías: Artículos varios

Conociendo a los Bots: Buscadores genéricos

Los "bots", "robots", "spiders" (arañas) o "crawlers" son los programas que van por la internet de página en página, analizando su contenido para diferentes propósitos.

Los hay "buenos", como los de los buscadores que luego nos redirigirán visitas, y "malos", como los que buscan direcciones de correo para luego enviar correo basura. Por lo general son beneficiosos, y al menos a mí me parece interesante saber de dónde vienen y qué hacen, así que recopilé la lista de los robots que han visitado este sitio y busqué algo de información sobre cada uno.
No pretendo hacer aquí una lista exhaustiva de todos los robots que andan por internet, pero creo que mencionaré los más comunes.

Para estructurar mejor la lista, la he dividido en categorías: Buscadores genéricos, buscadores de blogs, Lectores de RSS y Programas.

Buscadores genéricos y portales

Los buscadores son los que hoy en día ponen las reglas en Internet. Liderados por Google, parece que todo el mundo busca obtener su bendición y aparecer en los primeros puestos.
Al contrario de lo que pueda parecer hay muchísimos buscadores y portales diferentes, muchos de ellos dirigidos a la gente de un solo país (WebAlta, o Baidu).

Ask Jeeves/Teoma
Se identifica como: Mozilla/2.0 (compatible; Ask Jeeves/Teoma; +http://about.ask.com/en/docs/about/webmasters.shtml)
Ask es una "empresa de internet" con muchos servicios, bastante grande y conocida. Ask Jeeves es el nombre de su buscador. No es tan conocida en los países hispanos, pero es uno de los grandes en Estados Unidos.
Baiduspider
Se identifica como: Baiduspider+(+http://www.baidu.com/search/spider_jp.html)
Baidu es el buscador más importante de China. No es muy útil para los que no podemos leer idiogramas, así como probablemente un sitio en español no sea muy útil para el buscador.
Daumoa
Se identifica como: Mozilla/5.0 (compatible; Firefox or MSIE mutant; not on Windows server; +http://ws.daum.net/aboutkr.html) Daumoa/2.0 Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt; DTS Agent
Daumoa es el nombre del robot del portal Daum, un portal del estilo de Yahoo! muy conocido en Corea del Sur. No pude encontrar mucha más información sobre él, dado que el sitio está completamente en coreano.
discobot
Se identifica como: Mozilla/5.0 (compatible; discobot/1.0; +http://discoveryengine.com/discobot.html)
DiscoveryEngine es un motor de búsqueda "de próxima generación", aún en desarrollo. Aunque aún no funciona, su robot anda por ahí analizando páginas.
Geonabot
Se identifica como: GeonaBot/1.2; http://www.geona.com/
Geona no tiene una gran base de datos (una búsqueda por "alvlin" solamente devuelve este sitio, no devuelve ForosDelWeb por ejemplo) y extrañamente incluye publicidad de Google.
Gigabot
Se identifica como: Gigabot/1.0 Gigabot/3.0 (http://www.gigablast.com/spider.html)
Gigablast es un buscador "nuevo", que da resultados bastante decentes.
Googlebot
Se identifica como: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
El robot de Google. No hay mucho que comentar, dado que es el programa responsable de que un sitio esté indexado en el que en la actualidad es el mayor buscador del mundo
Googlebot-Image
Se identifica como: Googlebot-Image/1.0
Se trata del buscador de imágenes de Google.
MLBot
Se identifica como: MLBot (www.metadatalabs.com/mlbot)
metadatalabs es el nombre de un buscador de contenido multimedia, aún en desarrollo.
msnbot
Se identifica como: msnbot/1.1 (+http://search.msn.com/msnbot.htm)
Este es el robot "genérico" de Live Search (anteriormente MSN). Nada más ni nada menos que el 3º buscador más usado del mundo.
msnbot-media
Se identifica como: msnbot-media/1.0 (+http://search.msn.com/msnbot.htm)
Este es el buscador de contenido multimedia de Live Search.
ScoutJet
Se identifica como: Mozilla/5.0 (compatible; ScoutJet; +http://www.scoutjet.com/)
Como se puede leer en su sitio, ScoutJet es el motor de un nuevo buscador creado por la misma gente que creó DMOZ. El buscador aún no está operativo.
WebAlta Crawler
Se identifica como: WebAlta Crawler/2.0 (http://www.webalta.net/ru/about_webmaster.html) (Windows; U; Windows NT 5.1; ru-RU)
El robot de WebAlta, el buscador más grande y popular de Rusia. Sin embargo, es un robot bastante molesto porque la dirección de información que provee no lleva a ningún lado, y por lo que he leído ni siquiera respeta lo que se especifica en el archivo robots.txt. El único de esta lista del que realmente tengo motivos para desconfiar.
Yahoo! Slurp
Se identifica como: Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) o
Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)
el "chupador" (traducción literal de "slurp") es el robot que Yahoo! usa para indexar las páginas.

Enlaces relacionados

  • Digg
  • del.icio.us
  • Meneame
  • Reddit
  • Technorati
  • StumbleUpon
  • Facebook
  • LinkedIn
  • MySpace
  • Yahoo! Buzz
  • YahooMyWeb

» 2 Comentarios para “Conociendo a los Bots: Buscadores genéricos”

  1. Riccardo escribió:

    Añado otro: Trovator

  2. alvlin escribió:

    No me ha visitado, ¿podrías dejar el agente de usuario que utiliza?

» Si te pareció interesante, dejá un comentario...



Todo el contenido de este sitio está bajo una licencia de Creative Commons.

Campaña AnyBrowser | XHTML 1.0 Válido | CSS 2 Válido | WAI A

Diseño creado por alvlin. Sitio basado en WordPress