El archivo robots.txt
El archivo robots.txt se hizo muy conocido en España cuando la Casa Real, tras el escándalo surgido por las investigaciones al duque de Palma, Iñaki Urdangarín, esposo de la Infanta Cristina, decidió imponerle un ‘disallow’. En un acto que muchos analistas interpretaron como una forma de nueva censura ‘on line’, la institución monárquica decidió indicarle a los buscadores que excluyesen las páginas de su sitio web relacionadas con Urdandarín. En la siguiente imagen podéis comprobar el contenido del archivo robots.txt de la web de la Casa Real:
Este aparentemente sencillo, ligero e inocente ‘txt’ es en realidad la nueva cara de la censura. Estas líneas que comienzan por ‘Disallow’ (Rechazar, en inglés), la Casa Real le está diciendo a todos los buscadores (‘*’ es todos y ‘User-agent’ hace referencia buscador) que no muestren en las búsquedas, de su sitio web, las páginas relacionadas con Urdangarín.
No sólo la Casa Real, casi todas los sitios webs incluyen este archivo robots.txt en sus servidores y es la forma de comunicarse con los buscadores a la hora de decirles lo que le interesa. Por ejemplo, la última línea del robots.txt de la Casa Real le está indicando a los buscadores dónde está el archivo con el mapa del contenido de su web, para que lo tengan más fácil a la hora de visibilizar sus páginas.
Aquí tenéis el contenido del archivo robots.txt de mi web Álvarez Molares Periodismo y Web. Simplemente, le digo a todos los buscadores que no sigan mis páginas con ‘replytocom’, ya que son contenido duplicado que se genera relacionado con los comentarios, por explicarlo de una forma sencilla, y también le indico dónde está mi sitemap.
En fin, el archivo robots.txt se puede usar con muchos objetivos. Os recomiendo estos dos enlaces si queréis aprender cómo crearlos de forma correcta.
–Web de Google sobre el archivo robots.txt
–Entrada de EmezetaBlog sobre el archivo robots.txt
Si os interesa el tema, puede resultar interesante consultar los archivos robots.txt de instituciones y grandes empresas, para saber qué quieren que veamos y qué no. Para ello, sólo tenéis que escribir ‘robots.txt’ después del nombre del dominio de la web que queráis consultar, en la barra del navegador. La verdad, no sé si es posible ocultar este archivo, para que no sea visible. Si lo sabéis, os invito a dejar la explicación en un comentario.