Archivo robots.txt, como funciona

Conoce más a fondo el archivo robots.txt y sabrás como manejar a las arañas de Google

Algunos los llaman rastreadores, otros robots, otros arañas… Pero cualquiera que se aventure a desarrollar una web conoce estos pequeños programas informáticos de Google y otros buscadores, encargados de estudiar a fondo nuestra web, indexarla y mostrarla al resto en sus resultados de busqueda.

Estos son los causantes de quebraderos de cabeza a nivel SEO a la hora de construir una web. Pero también nos dan ciertas herramientas para que halla un mejor entendimiento. Una de ellas es el robots.txt. Este archivo, que colocamos en la raíz del servidor, sirve para decirle a estos rastreadores como comportarse en el sitio web.
Es importante saber que este archivo sirve de indicación para estos robots pero no de obligación para forzar cierto comportamiento. Por ejemplo, la araña de Google (Googlebot), y de otros buscadores importantes como Yahoo o Bing si suelen tener en cuenta este archivo. Pero puede que otros buscadores lo ignoren. Dicho esto, las indicaciones que ponemos en este archivo son muy simples. Que pueden y que NO pueden rastrear. Podemos decirle que no accedan a un directorio, un archivo, tipos de archivos o urls con ciertos patrones. Incluso podemos bloquear todo el sitio web. Esto se suele utilizar si estamos construyendo la web y queremos que sea invisible para los rastreadores. La construcción del archivo es sencilla. Se basa principalmente en dos palabras claves: user-agent y disallow.
Con user-agent indicamos para que agente rastreador van las indicaciones: Googlebot, Bingbot, Googlebot-Image, etc… Si queremos que aplique para todos utilizamos «*».
Con disallow indicamos que parte queremos bloquear. Podemos poner tantas sentencias como queramos. Además, podemos bloquear distintas partes de nuestra web para diferentes agentes rastreadores. Cada rastreador leerá todas las sentencias Disallow que tenga debajo hasta el próximo user-agent declarado. Un ejemplo:

User-agent: *
Disallow: /directorio-privado/
Disallow: /pagina-web.html

User-agent: Googlebot-Image
Disallow: /*.gif$

Ahora veamos todas las opciones para Disallow:

Disallow: /                     Bloquea todo el sitio web con una "/".

Disallow: /directorio/          Bloquea un directorio y todo lo que con-
                                tiene.

Disallow: /pagina.html          Una página web concreta.

Disallow: /*.png$               Un tipo de archivo.

Disallow: /directorio/          Bloquea un directorio pero desbloquea
Allow: /directorio/pagina.html  una página en concreto de este directo-  
                                rio.
                                
Disallow: /privado*/            Bloquea una secuencia de caracteres. Uti-
                                lizamos un (*) después de indicar la se-
                                cuencia que queremos que cumpla.

Disallow: /*?                   Bloquea URLs que contengan una "?".

Si tenemos hecho un sitemap XML en nuestro sitio, podemos indicarlo también desde este archivo. Es tan sencillo como poner:

Sitemap: http://www.midominio.com/sitemap.xml

Importante:

El archivo tiene que ser un archivo de texto. Llamado robots.txt y colocado en el directorio raíz. Solo así podran detectar los rastreadores el archivo. Como hemos visto es muy sencillo, con una sintaxis simple y podemos crearlo con un bloc de notas.

Tags:

Cookie	Duración	Descripción
_GRECAPTCHA	5 meses 27 días	Esta cookie es instalada por Google. Además de ciertas cookies estándar de Google, reCAPTCHA establece una cookie necesaria (_GRECAPTCHA) cuando se ejecuta con el fin de proporcionar su análisis de riesgo.
cookielawinfo-checbox-analytics	11 meses	Esta cookie es establecida por el plugin GDPR Cookie Consent. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies de la categoría "Análisis".
cookielawinfo-checbox-functional	11 meses	Esta cookie es establecida por el plugin GDPR Cookie Consent. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies de la categoría "Funcionales".
cookielawinfo-checbox-others	11 meses	Esta cookie es establecida por el plugin GDPR Cookie Consent. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies de la categoría "Otros".
cookielawinfo-checkbox-advertisement	1 año	La cookie se establece por el consentimiento de cookies GDPR para registrar el consentimiento del usuario para las cookies en la categoría "Publicidad".
cookielawinfo-checkbox-necessary	11 meses	Esta cookie es establecida por el plugin GDPR Cookie Consent. Las cookies se utilizan para almacenar el consentimiento del usuario para las cookies en la categoría "Vitales".
cookielawinfo-checkbox-performance	11 meses	Esta cookie es establecida por el plugin GDPR Cookie Consent. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies de la categoría "Rendimiento".
viewed_cookie_policy	11 meses	La cookie es establecida por el plugin GDPR Cookie Consent y se utiliza para almacenar si el usuario ha consentido o no el uso de cookies. No almacena ningún dato personal.

Cookie	Duración	Descripción
_ga	2 años	Esta cookie es instalada por Google Analytics. La cookie se utiliza para calcular los datos de los visitantes, de la sesión y de la campaña y para hacer un seguimiento del uso del sitio para el informe de análisis del sitio. Las cookies almacenan la información de forma anónima y asignan un número generado aleatoriamente para identificar a los visitantes únicos.
_gat_gtag_UA_76164516_1	1 minuto	Esta cookie es instalada por Google y se utiliza para distinguir a los usuarios.
_gid	1 día	Esta cookie es instalada por Google Analytics. La cookie se utiliza para almacenar información sobre el uso que hacen los visitantes de un sitio web y ayuda a crear un informe analítico sobre el funcionamiento del sitio web. Los datos recogidos incluyen el número de visitantes, la fuente de la que proceden y las páginas visitadas de forma anónima.

Cookie	Duración	Descripción
QuE_BPWxwsZ	1 día	Cookie de mantenimiento y control. No recoge ningún dato personal del usuario.
RyG_mCtEcdlns	1 día	Cookie de mantenimiento y control. No recoge ningún dato personal del usuario.
yU-bKQvIJcxY	1 día	Cookie de mantenimiento y control. No recoge ningún dato personal del usuario.

Archivo robots.txt, como funciona

Tags:

Jairo Calero

Categorías

Comentarios recientes

Entrada anteriorMeta tags para redes sociales

Entrada siguienteTrucos y consejos .htaccess

Deja tu respuesta Cancel Reply

Que se dice…

Archivo robots.txt, como funciona

Tags:

Jairo Calero

Categorías

Etiquetas

Comentarios recientes

Entrada anteriorMeta tags para redes sociales

Entrada siguienteTrucos y consejos .htaccess

Entradas relacionadas

Core Web Vitals en 2025: cómo optimizar para desarrolladores

Cómo dominar las búsquedas con Google Hacking

Deja tu respuesta Cancel Reply