Portada de un artículo sobre el archivo robots.txt

29 Mar Las preguntas más frecuentes sobre el archivo robots.txt con respuestas

Publicado: 09:05h en SEO por Edyta Pukocz 0 Comentarios

0 Me gusta

¡Hola! La idea de este artículo es la siguiente: recopilar las preguntas más frecuentes sobre el archivo robots.txt y su influencia sobre el posicionamiento orgánico junto con las respuestas. Una especie de “chuleta” que se irá ampliando con el tiempo.

Espero que te parezca tan útil como lo es para mí en el día a día.

¿Qué es el archivo robots.txt?

Se trata de un archivo que indica a los rastreadores qué urls deberían y cuáles no deberían rastrear.

Lo que no es el archivo robots.txt

El archivo robots.txt no es una manera de desindexar páginas. Para ello, hay que usar la metaetiqueta robotos de noindex o proteger las urls en cuestión con una contraseña.

¿Cómo acceder al archivo robots.txt de mi página?

La ruta del archivo robots.txt es la siguiente:

www.tupaginaweb.com/robots.txt

¿Dónde debería publicarse el archivo robots.txt?

Dominios

El archivo robots.txt siempre debería publicarse en el root del dominio, es decir

www.tupaginaweb.com/robots.txt

Subdominios

Si tu página tiene subdominios (ej: www.en.tupaginaweb.com), tienes que tener un robots.txt separado para estos subdominios. (ej: www.en.tupaginaweb.com/robots.txt)

Esto es porque los subdominios se tratan como si fueran webs a parte.

¿En qué formato debería estar el archivo robots.txt?

El archivo debería crearse en y guardarse en el formato UTF-8 (con extensión de archivo .txt).

¿Puede llamarse el archivo robots.txt de otra manera?

No, tiene que llamarse robots.txt (escrito con minúsculas).

¿Puede haber más de un robots.txt por dominio?

No, sólo puede haber un archivo robots.txt por dominio.

¿Qué bloqueamos con el robots.txt?

Páginas con parámetros para ahorrar el crawl budget de nuestra página que se crean en los siguientes casos:

URLs con filtros de color / tamaño / precio, etc.
URLs de búsqueda interna.
Páginas que dependan de un login*
Entorno de pruebas

*Si contienen datos sensibles, en vez de incluirlas en robots.txt (al que puede acceder todo el mundo), es mejor de ponerles un meta robots no index además de proteger su contenido con contraseñas.

¿Qué páginas no bloquear con el robots.txt?

No es buena idea bloquear con robots.txt las páginas que NO queremos que se indexen como por ejemplo:

la política de privacidad
el aviso legal
la política de cookies

La mejor manera en estos casos es usar la tag no index en metarobots. Y para que los robots puedan encontrar la señal de no index, primero, tienen que poder acceder a la página.

recursos como JavaScript, CSS, imágenes.

No es buena idea bloquear estos recursos, ya que esto podría causar problemas a nivel de renderización y posteriormente la indexación.

¿En qué orden poner las directivas?

1. Indicar el user-agent al que se dirigen las directivas y después:

2. Introducir la directriz Disallow y las páginas a las que no queremos que accedan los bots.

3. Introducir la directriz Allow y las páginas a las que pueden acceder los bots.

4. Añadir el enlace hacia el sitemap.

Como por ejemplo:

User-agent: *

Disallow: /wp-admin/

Allow: /wp-admin/admin-ajax.php

Sitemap: https://tupaginaweb.com/sitemap_index.xml

En cuanto al sitemap, en realidad, también podría publicarse al principio del todo.

Otras directivas de robots.txt

Crawl-delay

User-agent: *

Crawl-delay: 5

Googlebot ya no sigue esta directiva hoy en día.

Bing y Yandex, en cambio, sí.

Esta directiva sirve para ralentizar el rastreo según el tiempo indicado en segundos.

Noindex

Useragent: *

Noindex: /blog/

Aunque en algunos archivos robots.txt se sigue viendo esta directiva, en realidad no se tiene en cuenta (al menos no por parte del Googlebot), ya que para que una url no aparezca en los resultados de búsqueda, lo suyo es usar la etiqueta meta robots no index.

¿Robots.txt sirve para indicar las páginas que no queremos que se indexen?

No, robots.txt no sirve para esto.

Si no queremos que se indexen las páginas, hay que ponerle una etiqueta noindex o proteger el acceso a la página con una contraseña.

¿Qué pasa si se indexa una URL bloqueada en el robots.txt?

En este caso, la URL aparecerá sin título ni metadescripción.

¿Qué partes del robots.txt distinguen entre mayúsuculas y minúsculas y cuáles no?

Las partes del robots.txt que no distinguen entre mayúsculas y minúsculas

Directivas de Allow y Disallow.

Las partes del robots.txt que sí distinguen entre mayúsculas y minúsculas

Las partes de las URLs (por ejemplo: wwww.tupagina.com/test no es lo mismo que wwww.tupagina.com/Test)
El propio nombre del archivo (siempre debería ser: robots.txt)

¿Qué significan los diferentes elementos del robots.txt?

User-Agent: significa el bot al que dirigimos las directivas.

Disallow: significa que no queremos que el bot entre a los recursos especificados.

Allow: significa que el bot puede acceder a los recursos especificados.

Sitemap: después de este elemento publicamos el sitemap.

¿El archivo robots.txt debería contener sitemap?

Sí, el archivo robots.txt debería contener un enlace hacia el (o los si tienes varios) sitemap(s) de tu web.

¿Cómo dar direcciones a todos los bots en robots.txt?

Para dar direcciones a todos los bots, usaremos el asterisco (*) en el campo User-Agent como en este ejemplo:

User-agent: *

¿Cómo dar direcciones a un bot concreto en robots.txt?

Para dar direcciones a un bot en concreto, indicaremos el nombre de este bot en el campo User-Agent como en este ejemplo donde dejamos instrucciones para el bot de Google:

User-agent: Googlebot

Nombres de bots

Estos son los nombres de los rastreadores más populares:

Rastreadores de Google

Google: Googlebot

Google Móvil: Googlebot-Mobile

Google News: Googlebot-News

Google Imágenes: Googlebot-Image

Google Vídeos: Googlebot-Video

Rastreadores de Bing:

Bing: bingbot o msnbot

Bing Imágenes y Vídeos: msnbot-media

Rastreadores de Baidu

Baidu: baiduspider

Baidu Móvil: baiduspider-mobile

Baidu News: baiduspider-news

Baidu Imágenes: baiduspider-image

Baidu Vídeo: baiduspider-video

Rastreadores de Yandex

Yandex: yandex

¿Cómo saber si mi robots.txt es correcto?

Google

La mejor manera de saber si tu archivo robots.txt funciona correctamente (y bloquea lo quieres que bloquee) es de testearlo con el probador de robots.txt, una herramienta oficial de Google.

Importante.Para acceder a ella es necesario tener activo Google Search Console.

¿Cómo acceder al archivo robots.txt en WordPress?

Con un plugin SEO

Si usas WordPress puedes acceder al archivo robots.txt a través de algunos plugins SEO como por ejemplo:

SEO Yoast
RankMath
All in One SEO

A través de FTP (servidor)

Esta solución requerirá ayuda de tu equipo IT que no sólo tiene acceso a tu servidor, sino que también sabe cómo gestionarlo sin que perjudique ningún elemento de tu web.

¿Todos los bots respetan la información del archivo robots.txt?

Solamente los rastreadores de Google. Los demás, pueden o no obedecer las directrices que encuentran en el archivo robots.txt.

¿Puede acceder todo el mundo a mi archivo robots.txt?

Sí, robots.txt es un archivo público al que todo el mundo tiene acceso. De ahí que es mejor no publicar allí urls que contengan datos sensibles.

Edyta Pukocz

edytasanchez@gmail.com

Hablo idiomas, hago estrategias y auditorías SEO, escribo textos (para blogs, landing pages, newsletters, redes sociales, etc). Me apasiona todo lo que esté relacionado con el marketing digital y la experiencia de usuario.

29 Mar Las preguntas más frecuentes sobre el archivo robots.txt con respuestas

¿Qué es el archivo robots.txt?

Lo que no es el archivo robots.txt

¿Cómo acceder al archivo robots.txt de mi página?

¿Dónde debería publicarse el archivo robots.txt?

Dominios

Subdominios

¿En qué formato debería estar el archivo robots.txt?

¿Puede llamarse el archivo robots.txt de otra manera?

¿Puede haber más de un robots.txt por dominio?

¿Qué bloqueamos con el robots.txt?

¿Qué páginas no bloquear con el robots.txt?

¿En qué orden poner las directivas?

Otras directivas de robots.txt

Crawl-delay

Noindex

¿Robots.txt sirve para indicar las páginas que no queremos que se indexen?

¿Qué pasa si se indexa una URL bloqueada en el robots.txt?

¿Qué partes del robots.txt distinguen entre mayúsuculas y minúsculas y cuáles no?

Las partes del robots.txt que no distinguen entre mayúsculas y minúsculas

Las partes del robots.txt que sí distinguen entre mayúsculas y minúsculas

¿Qué significan los diferentes elementos del robots.txt?

¿El archivo robots.txt debería contener sitemap?

¿Cómo dar direcciones a todos los bots en robots.txt?

¿Cómo dar direcciones a un bot concreto en robots.txt?

Nombres de bots

Rastreadores de Google

Rastreadores de Bing:

Rastreadores de Baidu

Rastreadores de Yandex

¿Cómo saber si mi robots.txt es correcto?

Google

¿Cómo acceder al archivo robots.txt en WordPress?

Con un plugin SEO

A través de FTP (servidor)

¿Todos los bots respetan la información del archivo robots.txt?

¿Puede acceder todo el mundo a mi archivo robots.txt?

Edyta Pukocz

No hay comentarios

¿Nos vemos en las redes?