Qué es el archivo robots.txt y conoce sus propiedades

Porque a todos cuando empezamos se nos ha llegado el momento de tropezarnos con este archivo. Robots.txt es más importante de lo que te imaginas.

El archivo robots.txt es un archivo de texto plano, que nos sirve para darle instrucciones a los motores de búsqueda respecto a cómo queremos que ellos naveguen e indexen páginas en nuestra web.

Me explico, supongo que para ti es incómodo y puede que te disguste, cuando invitas a tus amigos a tu casa y estos acceden a ciertos lugares de que no deberían; entonces para evitar esto, una salida sería indicarle a tus amigos aquellos lugares que tu deseas que no ingresen, por ejemplo: La cocina, directamente la nevera (tengo un amigo que me la deja vacía, cada vez que viene de visita).

En fin, con los motores de búsqueda ocurre exactamente lo mismo. Si tú no les indicas a que lugares del sitio web pueden entrar y a cuales no, estos accederán hasta el último rincón, indexando y haciendo público, contenidos que no deberían, sin importar su relevacia.

Entonces ya sabiendo de qué se trata, resalto lo importante que es el archivo robots.txt para el posicionamiento en buscadores; ya que es una especie de filtro en el que le indicamos al motor de búsqueda, a qué contenidos y archivos de nuestros sitios web queremos que acceda.

Con esto logramos que el motor de búsqueda acceda al contenido puntual y relevante.

Pero ojo!, robots.txt solo da indicaciones, no restringe el acceso. Si deseas realizar algún tipo de bloqueo tendrás que acudir a otra solución, por ejemplo: crear contraseñas para los ficheros.

El hecho que manipules un archivo robots.txt en tu servidor, no quiere decir que estás teniendo total control sobre los motores de búsqueda y les estás impidiendo el ingreso a esos lugares que no deseas que ingresen de tu sitio web.

Pareciera así, pero en teoría esto no ocurre, en realidad los motores de búsqueda acceden a todos los contenidos de la web, dependiendo del nivel de privilegios de acceso que configures. Pero motores de búsqueda serios como Google, Bing o Yahoo, siguen las indicaciones que uno les deja en el archivo robots.txt y no acceden e indexan esos contenidos que no deseamos, pero otros motores de búsqueda con dudosos objetivos en la web, pueden pasar por alto estas indicaciones, por lo cual accederán e indexarán, contenidos que pueden ocasionar serios problemas respecto al manejo de la seguridad de nuestra información y la de nuestros usuarios.

Cómo configurar el archivo robots.txt

Primero ten en cuenta lo siguiente:

Los motores de búsqueda, puede que interpreten de manera diferente los comandos que indiques en el archivo, así que la sintaxis puede variar dependiendo el rastreador.

Para darle indicaciones a un rastreador en específico, deberás investigar cual es la sintaxis apropiada para ese rastreador.

Pero el 90% de usuarios hacen uso de Google para hacer sus búsquedas, así que no hay lío con eso.

El archivo Robots.txt no se las sabe todas, así que no garantiza que se evita el acceso e indexación de contenidos siempre y cuando no se apliquen las propiedades y configuraciones necesarias.

Me explico, volvamos al ejemplo de tus amigos en casa; puede que un cuarto tenga dos puertas de acceso, y en una de esas puertas está la indicación de no ingreso, pero puede que la otra puerta no lo tenga y por ahí tu amigo acceda.

Lo mismo puede pasar con los sitios web, pueden haber vínculos en otras partes de tu sitio web, los cuales tengan un link que apunte a un área que tú consideras restringida, pero que tiene varias formas de acceder a ella. Lo sé, suena la locura y en realidad es dificilísimo de controlar.

Y ahora después de lo que debes tener en cuenta, ya viene por fin lo bueno:

Primero, crea una archivo de texto plano con el blog de notas y nómbralo robots.txt

La información que va en este archivo es muy sencilla y consta de tres componentes muy importantes:

User-agent (agente de usuario): hace referencia al robot del motor de búsqueda o el software que rastrea nuestra web.

Disallow: Le indica al motor de búsqueda, robot o software de búsqueda que no puede acceder a determinado lugar.

Allow: Le indica al motor de búsqueda, robot o software de búsqueda que puede acceder al contenido que le indiquemos.

Para indicarle una instrucción a todos los motores de búsqueda, solo es necesario hacer uso del asterisco (*).

A continuación un ejemplo de configuración del archivo robots.txt para Google.

Propiedades Robots.txt

Disallow: /                   Bloquea todo el sitio Disallow: /directorio/        Bloquea el directorio especifico y su contenido Disallow: /pagina-web.html    Bloquea una página web específica User-agent: Googlebot-Image Disallow: /img/casa.jpg        Bloquea una imagen especificada User-agent: Googlebot-Image Disallow: /                          Bloquea todas las imágenes del sitio User-agent: Googlebot Disallow: /*.png$                   Bloquea un tipo de archivo específico, P.E .png

Debes tener en cuenta que:
Google distingue minúsculas y mayúsculas, lo que significa que para Google es diferente “pagina-ejemplo.html” de “Pagina-ejemplo.html”

Segundo, guárdalo.

Tercero, súbelo por FTP a tu sitio web.

Accediendo a través de FTP o por el panel de control de tu sitio, accede a la carpeta raíz donde se encuentran tus archivos y sube el archivo robots.txt y guárdala ahí, repito… En la carpeta raíz.

Y listo. Eso es el archivo robots.txt y esas son las propiedades principales para que sea totalmente funcional. Es preciso usarlo cuando tenemos contenidos que no necesitamos y quizá no deberíamos dejar que los motores de búsqueda indexen, por ejemplo, los archivos de administración.