Los robots de búsqueda, (también llamados crawlers, spiders o indexadores), sirven para leer una página web, recuperar su contenido y seguir los enlaces que el sitio tenga a otras páginas web. Existen tantos robots como buscadores. Con el tiempo se ha desarrollado un protocolo mediante el cual se pueden dar instrucciones a los robots creando así los ficheros “robots.txt”. Este fichero es el que se utiliza para indicar a los robots de rastreo lo que pueden y lo que no pueden hacer en tu sitio web. En este artículo veremos algunos útiles trucos para manejar a estos robots.
Beneficios de un archivo robots.txt
- Impedir acceso a robots determinados: algunos robots solo nos nos darán problemas. De hecho ciertos robots no son ni de buscadores ni amigos.
- Reducir la sobrecarga del servidor: podrás controlar el flujo de rastreo de algunos robots. Muchos de ellos son un descontrol de peticiones que pueden llegar a saturar tu servidor.
- Prohibir el rastreo de algunas zonas de tu web
- Eliminar contenido duplicado o temporal: si eliminamos la duplicidad de contenido, los buscadores nos puntuaran muy alto, aumentando el flujo de visitas.
- Fijar mapas del sitio: También es posible acoplar un sitemap para indicar el buen camino a los robots.
Algunas puntualizaciones
- El robot.txt es un documento de texto normal y corriente
- Solo puede haber un archivo robots.txt en cada sitio web y se tendrá que colocar en la raiz.
- Las urls son sensibles a mayúsculas y minúsculas
- El archivo estará compuesto de diversas directivas agrupadas en relación con el robot al que se aplican.
- Dentro de cada uno de estos grupos de directivas NO puede haber lineas en blanco.
- El archivo robots.txt solo es necesario si su sitio incluye contenido que no desea que los motores de búsqueda indexen. Si va a permitir la indexación de su sitio por completo, el robots.txt no es necesario (ni siquiera uno vacío).
Establecer el buscador de referencia: User-Agent
La propiedad User Agent se establece el buscador al que quieres hacer referencia, Si quieres establecer que todos los buscadores sigan esas instrucciones, basta con poner el signo * en User-Agent (aunque dado que cada buscador premia unas u otras cosas aveces puede interesar permitir que unos indexen lo que otros no quieres que vean).
Existen tantos robots como buscadores, esta es una lista de algunos de ellos, pero te dejo los spiders mas conocidos:
- Google: Googlebot
- Yahoo: yahoo_slurp
- MSN: msnbot
Bloquear o eliminar páginas: Disallow
La línea Disallow indica las páginas que desea bloquear. Puede insertar una URL específica o un patrón. La entrada debe comenzar con una barra inclinada (/).
Recuerda que si el valor de User-agent es *, las directivas que le sigan se aplicarán a cualquier robot que no tenga directivas específicas.
Siempre tiene que haber un campo Disallow>, pero si lo dejamos vacío indicamos que no contiene restricción ninguna. Añadiendo el carácter # al principio de una linea podemos escribir comentarios que no interpretará el robot.
- Para bloquear todo el sitio, utilice una barra inclinada.
User-agent: * # aplicable a todos los robots
Disallow: / # impide la indexacion de todas las paginas
- Para bloquear un directorio y todo lo que contiene, inserta una barra inclinada después del nombre del mismo.
Disallow: /directorio-sintitulo/
- Para bloquear una página, insértala después de la línea Disallow.
Disallow: /archivo_privado.html
- Para eliminar una imagen de Google Imágenes, añade lo siguiente:
User-agent: Googlebot-Image
Disallow: /imagenes/perros.jpg
- Para eliminar todas las imágenes de su sitio de Google Imágenes, añada lo siguiente:
User-agent: Googlebot-Image
Disallow: /
- Para bloquear archivos de un tipo determinado (por ejemplo, .gif), añada lo siguiente:
User-agent: Googlebot
Disallow: /*.gif$
- Para impedir el rastreo de todo nuestro sitio, permitiendo que se muestren anuncios de AdSense, inhabilite el acceso de todos los robots que no sean de Mediapartners-Google. Este robot no comparte páginas con el resto de user-agents de Google. Por ejemplo:
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
- La directiva Disallow: / *? bloqueará cualquier URL que incluya el símbolo ?.
- La directiva Allow: /*?$ permitirá cualquier URL que finalice con el símbolo ?.
Concordancia mediante patrones
Googlebot respeta algunas concordancias mediante patrones, aunque no todos los motores de búsqueda lo hacen.
- Puede utilizar un asterisco (*) para que la concordancia se establezca con una secuencia de caracteres. Por ejemplo, para bloquear el acceso a todos los subdirectorios que comiencen por “privado”:
User-agent: Googlebot
Disallow: /privado*/
- Para bloquear el acceso a todas las URL que incluyan un signo de interrogación (concretamente, cualquier URL que comience por el nombre de su dominio, seguido de cualquier cadena, signo de interrogación y cualquier cadena):
User-agent: Googlebot
Disallow: /*?
- Para especificar la concordancia con el final de la URL, utilice $. Por ejemplo, para bloquear una URL que termine en .xls:
User-agent: Googlebot
Disallow: /*.xls$
Por último, si quieres profundizar, en RobotsTXT.org encontrarás la documentación oficial, ejemplos, e incluso un validador de robots.txt.