Terraform Actions: Análisis en Profundidad

Bloquear Bots usando el archivo robots.txt

robots.txt

¿Has notado que plataformas de IA generativa como OpenAI, Google Bard o Claude utilizan el contenido de tu web para entrenar sus algoritmos sin tu consentimiento? ¡No te preocupes! Puedes bloquear estos rastreadores de IA para que no accedan a tu sitio web o blog mediante el archivo robots.txt. Si tienes mucho contenido subido seguro que notarás la diferencia, sobre todo si es una ecommerce con miles de productos. Ahorrarás una gran cantidad de tráfico no deseado.

Índice

¿Qué es un archivo robots.txt?

El archivo robots.txt es un archivo de texto que instruye a los robots (como los rastreadores de motores de búsqueda) sobre cómo rastrear e indexar las páginas de tu sitio web. Puedes bloquear o permitir el acceso a bots buenos o malos que respeten tu archivo robots.txt.

Sintaxis básica

Para bloquear un bot específico usando un user-agent:

User-agent: {NOMBRE-DEL-BOT}
Disallow: /

Para permitir que un bot específico rastree tu sitio web:

User-agent: {NOMBRE-DEL-BOT}
Allow: /

¿Dónde colocar tu archivo robots.txt?

Sube el archivo a la carpeta raíz de tu sitio web, de modo que la URL se vea así:

  • https://ejemplo.com/robots.txt
  • https://blog.ejemplo.com/robots.txt

Recursos útiles:

Cómo Bloquear Bots de IA Específicos

🤖 Bloquear OpenAI (ChatGPT)

OpenAI utiliza dos user-agents diferentes para rastreo web y navegación. Agrega estas líneas a tu robots.txt:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

Nota importante: OpenAI tiene rangos de IP y CIDR separados para cada user-agent. Si deseas bloquearlos también a nivel de firewall, necesitarás:

1. ChatGPT-User (usado por plugins en ChatGPT):

sudo ufw deny proto tcp from 23.98.142.176/28 to any port 80
sudo ufw deny proto tcp from 23.98.142.176/28 to any port 443

2. GPTBot (usado por ChatGPT para entrenamiento):

Puedes usar este script para bloquear automáticamente los rangos CIDR actualizados:

#!/bin/bash
# Propósito: Bloquear rangos CIDR del bot de OpenAI ChatGPT
# Probado en: Debian y Ubuntu Linux

file="/tmp/gptbot-ranges.txt.$$"
wget -q -O "$file" https://openai.com/gptbot-ranges.txt 2>/dev/null

while IFS= read -r cidr
do
    sudo ufw deny proto tcp from $cidr to any port 80
    sudo ufw deny proto tcp from $cidr to any port 443
done < "$file"

[ -f "$file" ] && rm -f "$file"

🔍 Bloquear Google AI (Bard y Vertex AI)

Google utiliza un user-agent específico para sus APIs generativas:

User-agent: Google-Extended
Disallow: /

Limitación: Google no proporciona rangos de IP, CIDR o información de sistemas autónomos (ASN) para bloquear su bot de IA a nivel de firewall.

🕷️ Bloquear CommonCrawl (CCBot)

Aunque Common Crawl es una fundación sin fines de lucro, muchas empresas utilizan sus datos para entrenar IA:

User-agent: CCBot
Disallow: /

🔎 Bloquear Perplexity AI

Perplexity reescribe y reutiliza contenido mediante IA generativa:

User-agent: PerplexityBot
Disallow: /

Ventaja: Perplexity publica rangos de IP que puedes bloquear usando tu WAF o firewall del servidor web.

🤖 Bloquear Anthropic AI (Claude)

Para bloquear los bots de Claude:

User-agent: anthropic-ai
Disallow: /

User-agent: Claude-Web
Disallow: /

User-agent: ClaudeBot
Disallow: /

🛡️ Otros Bots Comunes a Bloquear

User-agent: Amazonbot
Disallow: /

User-agent: FacebookBot
Disallow: /

User-agent: Applebot
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Diffbot
Disallow: /

User-agent: ImagesiftBot
Disallow: /

User-agent: Omgilibot
Disallow: /

User-agent: Omgili
Disallow: /

User-agent: YouBot
Disallow: /

User-agent: AdsBot
Disallow: /

Ejemplo Completo de robots.txt

Aquí tienes un ejemplo completo basado en mejores prácticas:

# ROBOTS.TXT - Protección contra bots de IA
# -----------------------------------------

# Permitir rastreo general a bots legítimos
User-agent: *
Disallow:

# BLOQUEAR BOTS DE IA GENERATIVA
# -------------------------------

# OpenAI
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /

# Google AI
User-agent: Google-Extended
Disallow: /

# Anthropic (Claude)
User-agent: ClaudeBot
Disallow: /
User-agent: anthropic-ai
Disallow: /
User-agent: Claude-Web
Disallow: /

# Perplexity
User-agent: PerplexityBot
Disallow: /

# Otros bots de IA
User-agent: Amazonbot
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: Applebot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: ImagesiftBot
Disallow: /
User-agent: Omgilibot
Disallow: /
User-agent: Omgili
Disallow: /
User-agent: YouBot
Disallow: /

# Bloquear bots de publicidad
User-agent: AdsBot
Disallow: /

# Sitemap
Sitemap: https://tudominio.com/sitemap.xml

Puedes ver cómo está en este blog ahora mismo el robots

Preguntas Frecuentes

¿Pueden los bots de IA ignorar mi robots.txt?

Sí y no. Empresas establecidas como Google, OpenAI y Anthropic generalmente respetan los protocolos de robots.txt. Sin embargo, algunos bots de IA mal diseñados o maliciosos pueden ignorar tu archivo robots.txt. Por eso es recomendable combinar robots.txt con reglas de firewall cuando sea posible.

¿Puedo bloquear bots de IA usando WAF (Cloudflare, AWS)?

Sí. Cloudflare anunció recientemente reglas de firewall específicas para bloquear bots de IA, manteniendo el acceso para motores de búsqueda y otros bots legítimos.
Precauciones:

  • Los productos WAF requieren una comprensión profunda de cómo funcionan los bots
  • Una configuración incorrecta puede bloquear a usuarios legítimos
  • En pruebas, algunos usuarios reportan tasas de CSR (Challenge Solve Rate) del 3.31%, lo que indica que algunos humanos reales resolvieron captchas

¿Puedo bloquear el acceso a mi código en GitHub y otros servicios en la nube?

No directamente. No es posible controlar cómo plataformas como GitHub utilizan tu código para entrenar IA, especialmente considerando que Microsoft (propietario de GitHub) es el mayor inversor de OpenAI.
Alternativas:

  • Alojar tu propio servidor Git independiente
  • Usar repositorios privados (aunque los términos de servicio pueden cambiar)
  • Grandes empresas como Apple prohíben el uso interno de ChatGPT por temor a fugas de código y datos sensibles

Herramientas y Proyectos Adicionales

Si deseas una protección más robusta, considera estos proyectos de código abierto:

  1. Nginx Bad Bot and User-Agent Blocker: Bloqueo avanzado de bots maliciosos
  2. Fail2Ban: Escanea archivos de log (como /var/log/auth.log) y bloquea IPs que realizan demasiados intentos fallidos
  3. UFW (Uncomplicated Firewall): Firewall simple para Linux que permite bloquear rangos de IP fácilmente

Conclusión

A medida que la IA generativa se vuelve más popular, los creadores de contenido tienen derecho a cuestionar cómo las empresas de IA utilizan sus datos para entrenar modelos sin permiso. Estas empresas están obteniendo beneficios de tu código, texto, imágenes y videos, mientras potencialmente eliminan fuentes de ingresos de millones de creadores pequeños e independientes.
El proceso debería ser simple: Los operadores de sitios web y creadores de contenido deben poder bloquear rastreadores de IA no deseados fácilmente.

Más apuntes

Invítame a un café con bitcoins:
1QESjZDPxWtZ9sj3v5tvgfFn3ks13AxWVZ

Bitcoins para café
También puedes invitarme a algo para mojar...

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Rellena este campo
Rellena este campo
Por favor, introduce una dirección de correo electrónico válida.
Tienes que aprobar los términos para continuar