Mientras lleves poco tiempo con tu sitio, y el número de visitas que recibas no sea muy elevado, todo será paz y tranquilidad en tu casa. Pero espera unos meses, y comienza a alegrarte cuando los visitantes suban a 100 o 200 diarios, y las páginas servidas a 500, 1.000 o 2.000. Échale una mirada entonces a los registros (“logs”) del servidor, en concreto al de errores. De repente descubrirás que, donde antes sólo había el registro de los ocasionales errores causados por ti mismo al escribir mal un enlace o al configurar un script deficientemente, aparecen montones de mensajes que te cuentan que alguien ha intentado acceder a determinado archivo sin conseguirlo. El mensaje que verás más repetido refiere que no se ha encontrado un archivo llamado “robots.txt”. Un buen momento, pues, para crearlo.

Se trata simplemente de un archivo de texto plano cuyo objetivo es orientar a los indexadores automáticos (robots, spiders) sobre qué carpetas pueden indexar y cuáles no. El trabajo de estos robots, en principio, es positivo: nos evitan tener que andar por ahí dando manualmente de alta nuestros sitios en todos los buscadores. Google es uno de los ejemplos más conocidos. Pero no sólo indexan las páginas principales (“index”), sino todas las del sitio y, si nos descuidamos, hasta los listados de usuarios de los foros o de las listas de correo y las bases de datos vinculadas a nuestros scripts.

Para evitar que estos indexadores metan las narices en lo que no les importa es necesario incluir en el directorio raíz el documento robots.txt. Créalo con cualquier editor de texto simple, pero que permita guardar el archivo con los saltos de línea en formato Unix. O asegúrate, en todo caso, de que el programa FTP con que vayas a subir ese archivo al servidor hace automáticamente la correspondiente conversión. Escribe en él algo como esto:

User-agent: *
Disallow: /cgi-bin/
Disallow: /foro/
Disallow: /anuncios/

De esta manera estás diciendo a todos los robots (el * que sigue a “user-agent” indica “todos”) que no indexe tu directorio cgi-bin, ni el llamado “foro”, ni “anuncios”. Para evitar que indexe una página en concreto situada en el primer nivel del directorio público, escribe:

Disallow: paginatal.htm

Si quieres evitar el acceso de un robot en concreto, por ejemplo el de Google, escribe:

User-agent: googlebot

Y para impedir el acceso a todo tu sitio, pon simplemente:

Disallow: /

En el sitio SearchEngineWorld encontrarás un tutorial más detallado y otra información relacionada en inglés, y también un validador de archivos que te dirá si tu robots.txt está configurado correctamente. También te explicará la sintaxis de las etiquetas META destinadas a impedir que los robots indexen determinadas páginas, útiles cuando no se puede acceder al servidor para configurar un archivo robots.txt.

Pero también hay robots “malos”

Sin embargo, debemos ser conscientes de que no todos los robots van a hacer caso de esas instrucciones. En concreto, hay unas malditas “arañas” recolectoras de direcciones de email que están programadas para hacer caso omiso del contenido de robots.txt. Ellas van recogiendo todo lo que lleve en medio una @, y luego sus amos elaboran unas enormes listas de emails que venden a los spameros.

Quizás no podremos evitar que sigan buceando en nuestros servidores, pero cuando menos tenemos a nuestro alcance una pequeña venganza: regalarles con miles de direcciones falsas. Si sus bases de datos se contaminan, perderán valor ante los eventuales compradores y, al ocasionar aludes de rebotes en los servidores de emails anónimos (los que mayoritariamente utilizan los spameros), contribuiremos a combatir estas prácticas. Hay algunos cgis gratuitos que realizan esto, como Killspam, que hemos traducido y ofrecemos en la sección “Scripts”. Allí encontrarás información completa al respecto.

Leave a Reply

Your email address will not be published. Required fields are marked *