Robots.txt: La clave para un rastreo eficiente

Escrito por David Peralvo

enero 24, 2022
9 min

En el mundo del SEO, el archivo robots.txt es una herramienta indispensable para optimizar el rastreo de un sitio web, funciona como un guía para los robots de búsqueda indicando qué páginas puede o no visitar.

¿Qué es robots.txt y por qué es tan importante para tu web?

El robots.txt es un documento de texto plano que podemos encontrar en la raíz de archivos de nuestro directorio web, y que tiene como objetivo indicar a los robots de búsqueda a qué páginas de nuestra web pueden acceder y a cuáles no.

Para explicarlo de una manera más sencilla, imaginemos que nuestra web es como si fuera una casa y los motores de búsqueda fueran nuestros visitantes, el archivo robots.txt nos permitirá indicarle qué partes de la casa deben visitar y cuáles no, ya sea porque están en construcción, sean zonas privadas o que no aporten contenido relevante.

Gracias a este archivo podemos tener más control sobre cómo los motores de búsqueda rastrean e indexan el contenido de la web.

Beneficios de usar correctamente el archivo robots.txt

Un archivo robots.txt bien configurado ofrece una serie de beneficios que pueden ayudar a mejorar la visibilidad y el rendimiento de tu web en los motores de búsqueda. Entre todos sus beneficios podemos destacar:

Rastreo eficiente y optimizado

El archivo robots.txt guía a los robots de búsqueda hacia las páginas más importantes de tu web y evitando que pierdan tiempo en páginas irrelevantes. Esto se traduce en un rastreo más eficiente y una mejor indexación de la web, lo que puede mejorar tu posicionamiento en los resultados de búsqueda.

Protección de contenido privado

La web puede contener áreas privadas o contenido confidencial, como tu panel de administración, páginas de inicio de sesión o información personal de los usuarios. Este archivo nos permite bloquear el acceso a estas áreas, evitando que los robots de búsqueda las rastreen. Esto ayuda a proteger tu privacidad y la seguridad de la web.

Mejora del SEO y la posición en los resultados de búsqueda

Un archivo robots.txt bien configurado juega un papel fundamental en la optimización del SEO. Si bien no es un factor de posicionamiento, este archivo proporciona instrucciones a los robots de búsqueda sobre qué páginas de tu sitio pueden rastrear, lo que influye en la forma en que Google percibe tu sitio web.

Cómo es el funcionamiento de un archivo robots.txt

El archivo robots txt, es una pieza fundamental del SEO técnico ya que interactúa con los motores de búsqueda que acceden a nuestra web. Al llegar a nuestra web estos robots buscan el archivo, si el archivo existe, el robot lo lee y sigue las instrucciones que contiene. En pocas palabras este documento actúa como un guía para estos motores de búsqueda, indicando dónde pueden y dónde no pueden acceder.

El archivo está compuesto por líneas de texto plano y con una sintaxis que le dan una función específica. Entender esta sintaxis es fundamental para poder tener un archivo robots.txt optimizado.

Sintaxis del archivo robots.txt

Una correcta sintaxis es fundamental para el buen funcionamiento del archivo robots.txt, por ello en este post vamos a detallar todas las directivas que se pueden usar y que le estamos diciendo a los robots usándolas.

Disallow : Esta directiva indica a los robots de búsqueda que no pueden acceder al directorio o url indicada. Ejemplo Disallow: /wp-admin/

Allow: Esta directiva indica a los robots si pueden acceder al directorio o url indicada. Ejemplo Allow: /themes/

Además de las directivas disallow y allow, existen otras directivas que puedes utilizar para controlar el comportamiento de los robots en tu web:

Sitemap: Esta directiva indica la ubicación de tu mapa del sitio (sitemap.xml). Esto facilita a los robots encontrar y rastrear todas las páginas de tu sitio. ejemplo: Sitemap: https://www.tudominio.com/sitemap.xml

Noindex: Esta directiva indica a los robots que no deben indexar una página específica en los resultados de búsqueda. Ejemplo. Noindex: /404.html. Actualmente esta directiva ya no es efectiva como nos indica la documentación de Google y que debe realizarse mediante etiquetas o en encabezados HTTP.

User-agent: Esta directiva te permite indicar a los robots de búsqueda como tiene que leer el documento. Esto nos permitirá múltiples configuraciones ya que nos permite diferenciar las directivas según el tipo de robots. En este ejemplo se puede ver más claro:

User-agent: Googlebot

Allow: /public_html/

Disallow: /wp-admin/

Disallow: /wp-login/

Sitemap: https://www.tudominio.com/sitemap.xml

User-agent: BaiduBot

Disallow: /

Como se puede ver el robot de búsqueda de Google (Googlebot) puede acceder a todas las páginas del directorio /public_html/, pero no puede acceder a /wp-admin/ ni a /wp-login/. Y por ejemplo el robot de búsqueda de Baidu (BaiduBot) no puede acceder a ninguna página del sitio web. En caso de que se use “User-agent: *” Estaríamos diciendo que cualquier robot de búsqueda puede entrar.

Cómo procesan los robots el archivo robots.txt

Imaginamos que un robot de Google visita nuestra web y encuentra el siguiente archivo robots.txt:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login/
Allow: /public_html/
Sitemap: https://www.tudominio.com/sitemap.xml

En este caso, una vez que el robot encuentre el archivo y lea el contenido entenderá lo siguiente:

Es aplicable a cualquier tipo de robot.
No rastreará el directorio /wp-admin/ ni el directorio /wp-login/ debido a las directivas disallow.
Rastreará el directorio /public_html/ debido a la directiva allow.
Utilizará el mapa del sitio (sitemap.xml) para encontrar otras páginas de tu web.

Errores más comunes con el documento robots.txt y cómo solucionarlos

Es fundamental tener un archivo robots.txt completo y con una buena sintaxis para un correcto funcionamiento. Sin embargo, en ocasiones se pueden cometer errores si no se configura correctamente. Estos errores pueden tener consecuencias negativas para el posicionamiento de la web, como un rastreo incompleto o de contenido privado. Los errores más comunes son los siguientes:

Errores de sintaxis

Los robots de búsqueda son muy estrictos con la sintaxis del archivo robots.txt. Un error tipográfico o una línea mal formada pueden hacer que todo el archivo sea inválido, lo que significa que los robots no seguirán ninguna de tus instrucciones.

Cómo solucionarlo:

Revisa cuidadosamente la sintaxis del archivo robots.txt, línea por línea.
Utiliza herramientas online de validación de robots.txt para detectar errores de manera automática.
Asegúrate de que cada línea comience con una directiva válida y que no haya errores tipográficos.
Revisa que la estructura del archivo sea correcta y que no haya líneas en blanco innecesarias.
Si utilizas expresiones regulares, asegúrate de que estén bien y que tengan los caracteres de cierre correctos.
Hacer uso la herramienta de informes de robots.txt de google para comprobar si Google puede procesar nuestros archivos robots.txt, además esta herramienta nos proporciona información sobre los últimos rastreos y permite solicitarle a google un nuevo rastreo.

Directivas disallow demasiado amplias

Si bloqueas accidentalmente demasiadas páginas con directivas disallow, los robots de búsqueda no podrán rastrear la web de manera completa. Esto puede afectar negativamente tu visibilidad en los resultados de búsqueda, ya que los usuarios no podrán encontrar tus páginas en las búsquedas.

Cómo solucionarlo:

Sé específico al utilizar directivas disallow.
Utiliza directivas allow para permitir el acceso a las páginas que deseas que se indexen.
Si necesitas bloquear un gran número de páginas, considera utilizar expresiones regulares para hacerlo de manera más precisa.
Recuerda que los robots de búsqueda rastrean por defecto todas las páginas de tu web que no estén bloqueadas por una directiva disallow.

Olvidar la directiva Sitemap

El archivo sitemap.xml es fundamental para que los robots de búsqueda encuentren todas las páginas de tu web. Si olvidas incluir la directiva Sitemap en tu archivo robots.txt, los robots podrían perderse algunas páginas importantes y además no se les está indicando la ubicación del archivo.

Cómo solucionarlo:

Incluye la directiva Sitemap en tu archivo robots.txt, indicando la ubicación exacta del mapa del sitio.
Utiliza una URL absoluta para la directiva Sitemap, incluyendo el protocolo (http:// o https://) y el dominio completo.
Actualiza tu mapa del sitio periódicamente para reflejar cualquier cambio en la estructura de tu web.

No utilizar la directiva user-agent

Un archivo robots.txt sin la directiva User-agent no permite diferenciar entre distintos tipos de robots por lo que todas las directivas de tu archivo robots.txt se aplicarán a todos los robots por igual, lo que puede generar problemas.

Cómo solucionarlo:

Identifica los diferentes tipos de robots que visitan tu web (por ejemplo, Googlebot) y configura la directiva user-agent para ellos. en el caso que lo veas necesario.

Ubicación incorrecta

El archivo robots.txt debe estar ubicado en la raíz de tu dominio para que sea accesible a los robots de búsqueda. Si el archivo se encuentra en una ubicación incorrecta, los robots no podrán encontrarlo y no seguirán tus instrucciones.

Cómo solucionarlo:

Asegúrate de que el archivo robots.txt se encuentre en la raíz de tu dominio, accesible como https://www.tudominio.com/robots.txt.
Puedes verificar la ubicación correcta utilizando la herramienta de inspección de URL de Google Search Console.

Conclusiones

Como habrás podido comprobar a lo largo de este artículo, configurar y mantener un archivo robots.txt bien optimizado es un proceso que requiere atención y unos conocimientos técnicos previos. Es el primer paso fundamental para asegurar un buen posicionamiento SEO en tu web, ya que actúa como un guía de tu web para los robots de búsqueda.

Si necesitas ayuda para configurar o mantener tu archivo robots.txt no dudes en contactarnos. En Dobuss estaremos encantados de hablar contigo y encontrar la mejor forma de ayudarte a alcanzar tus objetivos de SEO.