Skip to main content
SEO

Archivo robots.txt, como funciona

Por 4 diciembre, 2016Sin comentarios
Conoce más a fondo el archivo robots.txt y sabrás como manejar a las arañas de Google

Algunos los llaman rastreadores, otros robots, otros arañas… Pero cualquiera que se aventure a desarrollar una web conoce estos pequeños programas informáticos de Google y otros buscadores, encargados de estudiar a fondo nuestra web, indexarla y mostrarla al resto en sus resultados de busqueda.

Estos son los causantes de quebraderos de cabeza a nivel SEO a la hora de construir una web. Pero también nos dan ciertas herramientas para que halla un mejor entendimiento. Una de ellas es el robots.txt. Este archivo, que colocamos en la raíz del servidor, sirve para decirle a estos rastreadores como comportarse en el sitio web.
Es importante saber que este archivo sirve de indicación para estos robots pero no de obligación para forzar cierto comportamiento. Por ejemplo, la araña de Google (Googlebot), y de otros buscadores importantes como Yahoo o Bing si suelen tener en cuenta este archivo. Pero puede que otros buscadores lo ignoren. Dicho esto, las indicaciones que ponemos en este archivo son muy simples. Que pueden y que NO pueden rastrear. Podemos decirle que no accedan a un directorio, un archivo, tipos de archivos o urls con ciertos patrones. Incluso podemos bloquear todo el sitio web. Esto se suele utilizar si estamos construyendo la web y queremos que sea invisible para los rastreadores. La construcción del archivo es sencilla. Se basa principalmente en dos palabras claves: user-agent y disallow.
Con user-agent indicamos para que agente rastreador van las indicaciones: Googlebot, Bingbot, Googlebot-Image, etc… Si queremos que aplique para todos utilizamos «*».
Con disallow indicamos que parte queremos bloquear. Podemos poner tantas sentencias como queramos. Además, podemos bloquear distintas partes de nuestra web para diferentes agentes rastreadores. Cada rastreador leerá todas las sentencias Disallow que tenga debajo hasta el próximo user-agent declarado. Un ejemplo:

User-agent: *
Disallow: /directorio-privado/
Disallow: /pagina-web.html

User-agent: Googlebot-Image
Disallow: /*.gif$

Ahora veamos todas las opciones para Disallow:

Disallow: /                     Bloquea todo el sitio web con una "/".

Disallow: /directorio/          Bloquea un directorio y todo lo que con-
                                tiene.

Disallow: /pagina.html          Una página web concreta.

Disallow: /*.png$               Un tipo de archivo.

Disallow: /directorio/          Bloquea un directorio pero desbloquea
Allow: /directorio/pagina.html  una página en concreto de este directo-  
                                rio.
                                
Disallow: /privado*/            Bloquea una secuencia de caracteres. Uti-
                                lizamos un (*) después de indicar la se-
                                cuencia que queremos que cumpla.

Disallow: /*?                   Bloquea URLs que contengan una "?".

Si tenemos hecho un sitemap XML en nuestro sitio, podemos indicarlo también desde este archivo. Es tan sencillo como poner:

Sitemap: http://www.midominio.com/sitemap.xml

Importante:

El archivo tiene que ser un archivo de texto. Llamado robots.txt y colocado en el directorio raíz. Solo así podran detectar los rastreadores el archivo. Como hemos visto es muy sencillo, con una sintaxis simple y podemos crearlo con un bloc de notas.

Jairo Calero

Jairo Calero

Desarrollador web frontend y backend, especialista en webs app desarrolladas en PHP y Javascript. Experto en HTML, CSS3, PHP y Javascript con frameworks y librerías como jQuery, Angular y Bootstrap. Gestor de herramientas SEO como Google Analytics, Search Console, SEMrush o Hotjar. Email marketing y Big data.

Deja tu respuesta