Asegurarse de que tu sitio aparezca en las búsquedas de los usuarios es esencial para el éxito de cualquier estrategia de Marketing Digital.
Para lograr este objetivo, es normal que inviertas en estrategias de SEO, Marketing de Contenidos y una serie de otras acciones que puedan atraer la atención de los motores de búsqueda y, por lo tanto, aumentar el tráfico de tu web.
Sin embargo, seguro hay páginas en tu sitio que no deseas que rastreen los motores de búsqueda, como páginas de inicio de sesión y otras que tienen archivos que acceden exclusivamente a clientes o miembros de tu equipo.
Para ayudarlo a ocultar estas páginas, existen los robots.txt.
¿Qué es el archivo robots.txt?
Robots.txt es un archivo que debe guardarse en la carpeta raíz de tu sitio, e indica a los robots de búsqueda de Google, Bing y muchos otros a qué páginas de tu sitio no deseas que accedan estos buscadores de Internet.
Y como su nombre lo indica, robots.txt es un archivo .txt que se puede crear en tu propio cuaderno, excluyendo la necesidad de una herramienta para crearlo.
Robots.txt utiliza el formato estándar del Protocolo de Exclusión de Robots, un conjunto de comandos que los robots de búsqueda utilizan los directorios y páginas de tu sitio a los que no se debe acceder.
Dado que el archivo se guarda directamente en la carpeta raíz del sitio, acceder a los archivos robots.txt desde otras páginas es bastante simple: basta con escribir la dirección de la página en tu navegador y agregue el comando "/robots.txt" al final de la URL.
Hacerlo puede darte algunas ideas interesantes y hacerte saber algunas direcciones que tus competidores quieren ocultar de sus páginas.
¿Para qué sirve el archivo robots.txt?
Como dijimos, robots.txt sirve para dar órdenes específicas para buscar robots.
Para que entiendas un poco mejor, hemos enumerado sus funciones específicas.
1. Controla el acceso a los archivos de imagen
Robots.txt puede evitar que los archivos de imagen de tu página aparezcan en los resultados de búsqueda.
Esto ayuda a controlar el acceso a cierta información importante, como infografías y detalles técnicos del producto.
Como no se muestran en los resultados de búsqueda, el usuario tendrá la obligación de acceder a tu página, lo que puede ser más interesante para tu empresa.
Sin embargo, es importante tener en cuenta que robots.txt no impide que otras páginas y usuarios copien y compartan los enlaces de tus imágenes.
Hay otras herramientas para ayudarte en este objetivo.
2. Controla el acceso a las páginas web
Tu página también está compuesta de archivos que no son de imagen, que son las páginas web de tu propio dominio.
Además de evitar que los robots de búsqueda accedan a páginas restringidas o irrelevantes para tu estrategia, el uso de robots.txt ayuda a evitar que el servidor que aloja tu sitio se vea abrumado por los resultados de los motores de búsqueda, ayudando a tu empresa a ahorrar dinero.
Sin embargo, es importante recordar que, al igual que con las imágenes, los usuarios aún pueden encontrar algunas de tus páginas si tienen un enlace directo a ellas.
3. Bloquear el acceso a los archivos de recursos
Además de bloquear imágenes y tus páginas web, robots.txt puede ser útil para bloquear el acceso a otras secuencias de comandos y archivos de estilo menos importantes, salvando tus servidores.
Pero, también debes usar esta función con precaución, especialmente si estas características son indispensables para la carga correcta de tu página, lo que puede dificultar el trabajo de los rastreadores y entorpecer el análisis de tu página.
¿Cómo crear un archivo robots.txt?
Crear un archivo robots.txt es muy simple, solo requiere el conocimiento de unos pocos comandos específicos.
Este archivo se puede crear en el cuaderno de tu computadora u otro editor de texto de tu elección.
También necesitarás acceso a la carpeta raíz de tu dominio.
Para crear un archivo robots.txt, debes acceder a la raíz de tu dominio, donde guardará el archivo que creaste.
Después de eso, necesitarás conocer algunos de los comandos y la sintaxis de robots.txt.
Cuáles son los comandos de robots.txt
Los comandos en robots.txt funcionan de manera similar a HTML y los diversos lenguajes de programación en el mercado.
Hay comandos que los robots seguirán para navegar y encontrar las páginas de tu sitio.
Estos son algunos de los comandos principales del archivo robots.txt:
Comando de User-Agent
Puedes ingresar órdenes específicas para cada robot de búsqueda en el mercado en tu archivo robots.txt utilizando el comando User-agent para determinar a qué robot de búsqueda se refiere.
Para conocer el nombre de cada User-agent, puedes consultar la base de datos de Web Robots, que enumera los robots de los principales motores de búsqueda del mercado.
El robot de búsqueda principal de Google es Googlebot.
Si quisieras darle órdenes específicas, el comando que ingresó en tu robots.txt sería este:
User-agent: Googlebot
Si quisieras dejar órdenes específicas para el robot de búsqueda de Bing, el comando sería este:
User-agent: Bingbot
Como puedes ver, tienes simplemente que cambiar el nombre del User-agent.
Y si deseas ingresar la dirección general que deben seguir todos los robots de búsqueda, simplemente reemplaza el nombre del User-agent con un asterisco. Sería así:
User-agent: *
Comando Disallow
El comando Disallow es responsable de describir qué páginas de directorio o sitios web no deben incluirse en los resultados de búsqueda.
Al igual que el comando User-agent, simplemente ingresa la dirección de la página después del comando.
Para guiar a los robots a que no accedan a la página "beta.php" de tu sitio, el comando sería este:
Disallow: /beta.php
Aún puedes evitar el acceso a carpetas específicas.
Si necesitara bloquear el acceso a la carpeta "archivos", el comando sería este:
Disallow: / archivos /
También se puede bloquear el acceso al contenido que comienza con una letra específica.
Para bloquear el acceso a todas las carpetas y archivos que comienzan con la letra "a", este sería el comando:
Disallow: / a
Comando Allow
El comando Allow le permite determinar para los robots de búsqueda qué páginas o directorios de tu sitio desea indexar.
De manera predeterminada, todas las páginas de tu sitio se indexarán, excepto cuando utilice el comando Allow.
Por lo tanto, se recomienda usar el comando Allow solo cuando necesites bloquear una carpeta o directorio a través del comando Allow, pero te gustaría haber indexado un archivo o carpeta específico que está dentro del directorio bloqueado.
Si deseas bloquear el acceso a la carpeta "archivos" pero necesitas permitir el acceso a la página "productos.php", el comando se vería así:
Disallow: / archivos /
Allow: /files/products.php
Si deseas bloquear el acceso a la carpeta "archivos" pero necesitas permitir el acceso a la carpeta "proyectos", el comando sería así:
Disallow: / archivos /
Allow: / archivos / proyectos /
Comando del Sitemap
Otro comando útil para un archivo robots.txt es indicar el Sitemap de tu página, que es muy útil para ayudar a los robots de búsqueda a identificar todas las páginas de tu sitio.
Sin embargo, es un comando que ha caído en desuso, principalmente debido a Google Webmasters Tools, que le permite informar rápidamente la ubicación de tu archivo de mapa del sitio y otras funciones.
Para ingresar la dirección de tu Sitemap, debes haber guardado tu archivo de Sitemap guardado en la carpeta raíz de tu sitio. El comando para ingresar esta dirección en tu sitio es este:
Sitemap: https://tusitioweb.com.mx/sitemap.xml
Si tu dominio es de otro país, debes reemplazar el código web nacional de México por el tuyo, como .ar o .co.
¿Cuáles son las limitaciones de robots.txt?
Si bien es útil para dirigir el acceso del motor de búsqueda a tu página, es importante reconocer que robots.txt tiene algunas limitaciones.
Conocerlos es fundamental, especialmente para identificar la necesidad de usar otros dispositivos para que tus URL no se encuentren fácilmente en las búsquedas.
Las instrucciones del archivo Robots.txt son solamente directivas
Aunque el uso de robots.txt sea un estándar de la industria, los motores de búsqueda no están obligados a seguir todos tus pedidos.
Esto significa que si bien los robots de búsqueda de Google siguen las instrucciones del archivo robots.txt, es posible que otros motores de búsqueda no hagan lo mismo.
Por eso es importante que, además del archivo robots.txt, uses otros métodos en conjunto para ocultar tus páginas de Google, como el acceso protegido por contraseña o el uso de metaetiquetas noindex en su código html.
CDN: descubre las ventajas de una red de distribución de contenidos en tu sitio web
Reduce el tiempo de carga de tu página web con estas 11 técnicas clave
WPO: guía completa para llevar el desempeño de tu web a otro nivel
Cada robot de búsqueda puede interpretar la sintaxis de diferentes maneras
A pesar de seguir un estándar internacional, los comandos ingresados en robots.txt pueden ser interpretados de manera diferente por cada robot de búsqueda.
Por lo tanto, para garantizar su uso correcto, es necesario conocer la sintaxis ideal para cada motor de búsqueda.
Esto significa que, además de comprender cómo Google interpreta la información del archivo robots.txt, es posible que también necesites aprender la metodología de Bing, Yahoo y cualquier otro motor de búsqueda en el mercado.
Las directrices de Robots.txt no impiden que otros sitios hagan referencia a tus URL
Un error muy común es pensar que un contenido bloqueado por robots.txt no puede ser encontrado de otras maneras por los usuarios o por tus competidores.
Por esta razón, si una URL restringida puede ser revelada en otros sitios web o blogs, esta página aún puede aparecer en los resultados de búsqueda.
Es por eso que es esencial insertar la etiqueta noindex e incluso bloquear el acceso con contraseña para garantizar que nadie tenga acceso a tu página.
Puede ser necesario dar órdenes específicas para cada robot de búsqueda
Algunos robots de búsqueda siguen tus propias reglas y lógica, lo que puede terminar exigiéndote que determines reglas específicas para cada uno en tu archivo robots.txt.
Y además de aumentar tu carga de trabajo, esto puede provocar errores al crear tus archivos.
Por lo tanto, ten mucho cuidado al establecer reglas para robots específicos, asegurándose de que las instrucciones sean claras para cada robot.
Ahora que sabes qué es y cómo crear un archivo robots.txt, la administración de tu sitio será más fácil al garantizar que solo los robots de búsqueda visiten las páginas importantes para tu negocio.
Si quieres conocer todos los secretos de Google y garantizar oportunidades de negocios, descarga este ebook GRATUITO haciendo clic en la siguiente imagen!