El Codiguero
Programando para la wé

Avatar de alvlin Publicado por alvlin, el 03/07/2008
Categorías: Artículos varios

Bots: Programas y publicitarios / corporativos

Parte 3 de 4 de la serie Conociendo a los Bots

Es incontable la cantidad de programas que por un motivo u otro se conectan a alguna página de internet. La mayoría de ellos son inofensivos, aunque algunos son sospechosos y bien podrían ser robots de los "malos"…
El problema es que no todos los programas que se conectan a páginas de internet se identifican con su verdadero nombre, muchos se identifican simplemente con el nombre de la biblioteca o módulo que usan para establecer la conexión a internet.

BSalsa
Se identifica como: Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1) ; TuneUp HTML Client Embedded Web Browser from: http://bsalsa.com/; Alexa Toolbar; MEGAUPLOAD 2.0; .NET CLR 1.1.4322; .NET CLR 2.0.50727) (aunque creo que esto puede cambiar)
bsalsa es un componente Delphi para crear aplicaciones con capacidades de navegación en Internet. Se puede ver que el agente de usuario tiene mucha basura, así que no apostaría a que siempre es igual…
CFNetwork
Se identifica como: CFNetwork/330
Por lo que pude encontrar, este es el agente de usuario que envía un programa que hace uso de la función NSURL, parte de CFNetwork, que a su vez es parte de las bibliotecas Cocoa de Mac OS.
Google Desktop
Se identifica como: Mozilla/5.0 (compatible; Google Desktop)
Cuando Google Desktop se comunica con algún sitio, se identifica de esta forma. Por lo que sé a veces lo hace para indexar los contenidos RSS
Heritrix
Se identifica como: Mozilla/5.0 (compatible; heritrix/2.0.0 +(alguna url) )
Heritrix es el robot desarrollado para el Internet Archive. Pero no quiere decir que todas las veces que visite un sitio lo haga por su "creador": el motor se encuentra disponible para su descarga y uso libre.
HTMLParser
Se identifica como: HTMLParser/1.6
HTMLParser es una biblioteca Java cuyo propósito es el procesamiento de HTML. En la página oficial puede leerse que sus desarrolladores dicen que es una biblioteca "robusta, rápida y bien probada". Esto implica que muchos programas Java que analicen páginas web harán uso de ella.
Java/1.6.0_04
Cuando no hay ningún cambio en la cabecera correspondiente, los programas Java se identificarán con la versión de la JRE que están usando. En este caso, se trata de programa corriendo sobre la JRE (o JDK) 1.6.0_04
Larbin
Se identifica como: larbin_2.6.3 larbin2.6.3@unspecified.mail (el correo varía)
De acuerdo a su propia página web, Larbin es un robot de propósito general, pensado para ser rápido y eficiente mientras recorre las páginas web. No hay mucho que decir sobre él.
libwww-perl
Se identifica como: libwww-perl/5.805 (donde 5.805 es la versión de Perl)
libwww-perl es un conjunto de módulos de Perl que permite crear clientes WWW con relativa facilidad. Basicamente cualquier programa en Perl que se conecte a algún sitio usará esta biblioteca.
Python-urllib
Se identifica como: Python-urllib/1.16
urllib es el nombre del módulo de Python que provee las funciones de cliente HTTP. Basicamente esto quiere decir que el sitio fue visitado por un programa hecho en Python.

Publicitarios / Corporativos

Si bien en internet parece que todo es gratuidad y libertad, también existen los servicios especializados en publicidad y los servicios para empresas. A todos estos robots y servicios los desconocía completamente.

Panscient
Se identifica como: panscient.com
Panscient es una empresa dedicada a vender servicios de búsqueda vertical. No conocía esta clase de servicios hasta que tuve que buscar para saber qué hace este robot, pero la página de Wikipedia está bastante clara.
Proximic
Se identifica como: Mozilla/5.0 (compatible; proximic; +http://www.proximic.com)
Proximic es una empresa de publicidad que provee anuncios relevantes al contenido de la página.
Snapbot
Se identifica como: Snapbot/1.0 (Snap Shots, +http://www.snap.com)
Snap.com es un sitio que provee un servicio interesante: para cada enlace de un sitio, provee una captura de pantalla de la página destino, que aparece en un globo por encima del contenido. En el mismo globo añade una caja de búsqueda, porque además se trata de un buscador.
Sphere Scout
Se identifica como: Sphere Scout v4.0 - scout at sphere dot com
Sphere es una empresa que provee servicios de publicidad contextual, brinda enlaces a artículos y contenido multimedia relevante (según su criterio) al artículo en el que la publicidad se añade.

Enlaces relacionados

  • Digg
  • del.icio.us
  • Meneame
  • Reddit
  • Technorati
  • StumbleUpon
  • Facebook
  • LinkedIn

» Dejá una respuesta



Todo el contenido de este sitio está bajo una licencia de Creative Commons.

Campaña AnyBrowser | XHTML 1.0 Válido | CSS 2 Válido | WAI A

Diseño creado por alvlin. Sitio basado en WordPress