Portada de un artículo sobre el archivo robots.txt

Las preguntas más frecuentes sobre el archivo robots.txt con respuestas

¡Hola! La idea de este artículo es la siguiente: recopilar las preguntas más frecuentes sobre el archivo robots.txt y su influencia sobre el posicionamiento orgánico junto con las respuestas. Una especie de “chuleta” que se irá ampliando con el tiempo.

Espero que te parezca tan útil como lo es para mí en el día a día. 

Índice de contenidos

¿Qué es el archivo robots.txt?

Se trata de un archivo que indica a los rastreadores qué urls deberían y cuáles no deberían rastrear. 

Lo que no es el archivo robots.txt

El archivo robots.txt no es una manera de desindexar páginas. Para ello, hay que usar la metaetiqueta robotos de noindex o proteger las urls en cuestión con una contraseña.

¿Cómo acceder al archivo robots.txt de mi página?

La ruta del archivo robots.txt es la siguiente:


www.tupaginaweb.com/robots.txt


¿Dónde debería publicarse el archivo robots.txt?

Dominios

El archivo robots.txt siempre debería publicarse en el root del dominio, es decir


www.tupaginaweb.com/robots.txt 


Subdominios

Si tu página tiene subdominios (ej: www.en.tupaginaweb.com), tienes que tener un robots.txt separado para estos subdominios. (ej: www.en.tupaginaweb.com/robots.txt)

Esto es porque los subdominios se tratan como si fueran webs a parte. 

¿En qué formato debería estar el archivo robots.txt?

El archivo debería crearse en y guardarse en el formato UTF-8 (con extensión de archivo .txt). 

¿Puede llamarse el archivo robots.txt de otra manera?

No, tiene que llamarse robots.txt (escrito con minúsculas).

¿Puede haber más de un robots.txt por dominio?

No, sólo puede haber un archivo robots.txt por dominio. 

¿Qué bloqueamos con el robots.txt?

Páginas con parámetros para ahorrar el crawl budget de nuestra página que se crean en los siguientes casos:

  • URLs con filtros de color / tamaño / precio, etc.
  • URLs de búsqueda interna.
  • Páginas que dependan de un login*
  • Entorno de pruebas

*Si contienen datos sensibles, en vez de incluirlas en robots.txt (al que puede acceder todo el mundo), es mejor de ponerles un meta robots no index además de proteger su contenido con contraseñas. 

¿Qué páginas no bloquear con el robots.txt?

No es buena idea bloquear con robots.txt las páginas que NO queremos que se indexen como por ejemplo:

  • la política de privacidad
  • el aviso legal
  • la política de cookies

La mejor manera en estos casos es usar la tag no index  en metarobots. Y para que los robots puedan encontrar la señal de no index, primero, tienen que poder acceder a la página.

  • recursos como JavaScript, CSS, imágenes.

No es buena idea bloquear estos recursos, ya que esto podría causar problemas a nivel de renderización y posteriormente la indexación.

¿En qué orden poner las directivas?

1. Indicar el user-agent al que se dirigen las directivas y después:

2. Introducir la directriz Disallow y las páginas a las que no queremos que accedan los bots.

3. Introducir la directriz Allow y las páginas a las que pueden acceder los bots.

4. Añadir el enlace hacia el sitemap.

Como por ejemplo:


User-agent: *

Disallow:  /wp-admin/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://tupaginaweb.com/sitemap_index.xml


En cuanto al sitemap, en realidad, también podría publicarse al principio del todo. 

Otras directivas de robots.txt

Crawl-delay


User-agent: *

Crawl-delay: 5


Googlebot ya no sigue esta directiva hoy en día.

Bing y Yandex, en cambio, sí.

Esta directiva sirve para ralentizar el rastreo según el tiempo indicado en segundos.

Noindex


Useragent: *

Noindex: /blog/


Aunque en algunos archivos robots.txt se sigue viendo esta directiva, en realidad no se tiene en cuenta (al menos no por parte del Googlebot), ya que para que una url no aparezca en los resultados de búsqueda, lo suyo es usar la etiqueta meta robots no index. 

¿Robots.txt sirve para indicar las páginas que no queremos que se indexen?

No, robots.txt no sirve para esto.

Si no queremos que se indexen las páginas, hay que ponerle una etiqueta noindex o proteger el acceso a la página con una contraseña.

¿Qué pasa si se indexa una URL bloqueada en el robots.txt?

En este caso, la URL aparecerá sin título ni metadescripción.

¿Qué partes del robots.txt distinguen entre mayúsuculas y minúsculas y cuáles no?

Las partes del robots.txt que no distinguen entre mayúsculas y minúsculas

  • Directivas de Allow y Disallow.

Las partes del robots.txt que sí distinguen entre mayúsculas y minúsculas

¿Qué significan los diferentes elementos del robots.txt?


User-Agent: significa el bot al que dirigimos las directivas.

Disallow: significa que no queremos que el bot entre a los recursos especificados.

Allow: significa que el bot puede acceder a los recursos especificados.

Sitemap: después de este elemento publicamos el sitemap.


¿El archivo robots.txt debería contener sitemap?

Sí, el archivo robots.txt debería contener un enlace hacia el (o los si tienes varios) sitemap(s) de tu web.

¿Cómo dar direcciones a todos los bots en robots.txt?

Para dar direcciones a todos los bots, usaremos el asterisco (*) en el campo User-Agent  como en este ejemplo:

User-agent: *

¿Cómo dar direcciones a un bot concreto en robots.txt?

Para dar direcciones a un bot en concreto, indicaremos el nombre de este bot en el campo User-Agent como en este ejemplo donde dejamos instrucciones para el bot de Google:

User-agent: Googlebot 

Nombres de bots

Estos son los nombres de los rastreadores más populares:


Rastreadores de Google

Google: Googlebot

Google Móvil: Googlebot-Mobile

Google News: Googlebot-News

Google Imágenes: Googlebot-Image

Google Vídeos: Googlebot-Video



Rastreadores de Bing:

Bing: bingbot o msnbot

Bing Imágenes y Vídeos: msnbot-media



Rastreadores de Baidu

Baidu: baiduspider

Baidu Móvil: baiduspider-mobile

Baidu News: baiduspider-news

Baidu Imágenes: baiduspider-image

Baidu Vídeo: baiduspider-video


Rastreadores de Yandex

Yandex: yandex


¿Cómo saber si mi robots.txt es correcto?

Google

La mejor manera de saber si tu archivo robots.txt funciona correctamente (y bloquea lo quieres que bloquee) es de testearlo con el probador de robots.txt, una herramienta oficial de Google. 

Importante.Para acceder a ella es necesario tener activo Google Search Console.

¿Cómo acceder al archivo robots.txt en WordPress?

Con un plugin SEO

Si usas WordPress puedes acceder al archivo robots.txt a través de algunos plugins SEO como por ejemplo:

  • SEO Yoast
  • RankMath
  • All in One SEO

A través de FTP (servidor)

Esta solución requerirá ayuda de tu equipo IT que no sólo tiene acceso a tu servidor, sino que también sabe cómo gestionarlo sin que perjudique ningún elemento de tu web.

¿Todos los bots respetan la información del archivo robots.txt?

Solamente los rastreadores de Google. Los demás, pueden o no obedecer las directrices que encuentran en el archivo robots.txt. 

¿Puede acceder todo el mundo a mi archivo robots.txt?

Sí, robots.txt es un archivo público al que todo el mundo tiene acceso. De ahí que es mejor no publicar allí urls que contengan datos sensibles. 

Edyta Pukocz
edytasanchez@gmail.com

Hablo idiomas, escribo textos y optimizo páginas web. El SEO me fascina y eso que el Marketing de Contenidos también me tiene cautivada. ¡Ah! Y estoy felizmente enamorada de la Ciudad Condal. ¿Nos seguimos en las redes?

No hay comentarios

Lo siento, de momento no se pueden dejar comentarios.