Qué es robots.txt y como crear el más adecuado para ti.

❓ ¿Qué es robots.txt?

Es un archivo de texto con extensión .txt, se aloja en el hosting de tu dominio y permite ceder o  impedir que los buscadores rastreen contenidos que no nos interesa indexar en los buscadores.

Este archivo público , foco de rastreadores o arañas, es utilizado por los buscadores para rastrear e indexar cualquier página web acta para aparecer en los buscadores.  Entre otros usos este archivo nos permite bloquear la aparición de subdominios que no nos interesa o miles de cosas más.

Un archivo robots.txt no es obligatorio, pero facilitará a los buscadores diferentes aspectos sobre tu página web.

Para tener los cimientos de una web bien construidos se suele disponer de este documento para aumentar la seguridad en internet y proteger un poco más los datos de una web.

Una de las utilidades más funcionales y totalmente recomendable es, añadir el sitemap de tu página web, esto hará que la araña de Google o cualquier otra araña pueda entender e indexar una web de forma más optima y controlada.

✔️ Porque es importante tener un robots.txt

Se trata en su conjunto de un fichero de texto que muestra aquellos contenidos que se tienen que indexar o dejar de indexar dentro de tu sitio web en los motores de búsqueda. Con esto conseguimos una serie de normas hacia los buscadores para la indexación del contenido en los mismos, haciéndoles saber qué información queremos mostrar y cuál no.

De esta forma evitaremos problemas en el futuro sobre nuestra aparición de buscadores y darle más importancia a las categorías o etiquetas que puede tener en un e-commerce o blog, este punto no es obligatorio, todo esto siempre depende de la estrategia que se quiera realizar y si te es conveniente o no.

Si los rastreadores ya te han indexado páginas que no deseas en los buscadores puedes acudir a solicitar su eliminación en Google Search para que se retire el contenido.

❓ ¿Cómo creamos un robots.txt?

✔️ Comprueba si ya tienes uno existente.

Antes de nada, busca en tu navegador lo siguiente “tudominio/robots.txt” en ocasiones muchas webs ya implementan a través de plugins un robots.txt y por tanto os aparecerá algo parecido a la captura que pongo a continuación, en todo caso, si no dispones de una web te dejo probarlo con esta mismo copiando y pegando en tu buscador «davidviejo.com/robots.txt»

✔️Adáptalo a tus preferencias.

Si tu página web lo tiene es importantísimo añadir tu dirección Sitemap al mismo, de esta tu web se actualizada de una forma más rápida y se lo estarás poniendo más fácil a los rastreadores para indexar tu web.

Como veis en la captura existen varios comandos y entre ellos los principales son:

  • User-agent: o agente de usuario, Se nombra el rastreador al que quieres ir dirigido.
  • Disallow: Evita que los rastreadores indexen un directorio específico
  • Allow: En este caso ocurre al contrario del anterior, indicas al rastreador a seguir una url, subdirectorio o directorio.

En caso de no tenerlo fíjate y haz de forma manual y personalizada tu propio robots.txt, recuerda que debes de guardarlo con el formato.txt.

Como veis un robots.txt se hace simplemente con un bloc de notas.

📑 Como añadir tu robots.txt en tu CPanel

El método usado normalmente es accediendo en tu hosting a; CPanel > Administrador de Archivos > public_html y añadir el documento en tu carpeta de dominio tal y como muestro en pantalla.

✔️ Ir a tu CPanel

✔️ Abrir carpeta public_html y acceder a la carpeta con el nombre de tu dominio.

✔️ Cargar archivo robots.txt

Por último, comprueba que tu web ya tiene el archivo robots.txt para que los rastreadores puedan saber que normas les has establecido al entrar en tu web, recuerda, pon “tudominio.robots.txt” en la barra superior del buscador y si te sale !Enhorabuena, ya lo tienes!

Deja un comentario