Cómo Bloquear Bots de IA Específicos
🤖 Bloquear OpenAI (ChatGPT)
OpenAI utiliza dos user-agents diferentes para rastreo web y navegación. Agrega estas líneas a tu robots.txt:
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Disallow: /
Nota importante: OpenAI tiene rangos de IP y CIDR separados para cada user-agent. Si deseas bloquearlos también a nivel de firewall, necesitarás:
1. ChatGPT-User (usado por plugins en ChatGPT):
sudo ufw deny proto tcp from 23.98.142.176/28 to any port 80
sudo ufw deny proto tcp from 23.98.142.176/28 to any port 443
2. GPTBot (usado por ChatGPT para entrenamiento):
Puedes usar este script para bloquear automáticamente los rangos CIDR actualizados:
#!/bin/bash
# Propósito: Bloquear rangos CIDR del bot de OpenAI ChatGPT
# Probado en: Debian y Ubuntu Linux
file="/tmp/gptbot-ranges.txt.$$"
wget -q -O "$file" https://openai.com/gptbot-ranges.txt 2>/dev/null
while IFS= read -r cidr
do
sudo ufw deny proto tcp from $cidr to any port 80
sudo ufw deny proto tcp from $cidr to any port 443
done < "$file"
[ -f "$file" ] && rm -f "$file"
🔍 Bloquear Google AI (Bard y Vertex AI)
Google utiliza un user-agent específico para sus APIs generativas:
User-agent: Google-Extended
Disallow: /
Limitación: Google no proporciona rangos de IP, CIDR o información de sistemas autónomos (ASN) para bloquear su bot de IA a nivel de firewall.
🕷️ Bloquear CommonCrawl (CCBot)
Aunque Common Crawl es una fundación sin fines de lucro, muchas empresas utilizan sus datos para entrenar IA:
User-agent: CCBot
Disallow: /
🔎 Bloquear Perplexity AI
Perplexity reescribe y reutiliza contenido mediante IA generativa:
User-agent: PerplexityBot
Disallow: /
Ventaja: Perplexity publica rangos de IP que puedes bloquear usando tu WAF o firewall del servidor web.
🤖 Bloquear Anthropic AI (Claude)
Para bloquear los bots de Claude:
User-agent: anthropic-ai
Disallow: /
User-agent: Claude-Web
Disallow: /
User-agent: ClaudeBot
Disallow: /
🛡️ Otros Bots Comunes a Bloquear
User-agent: Amazonbot
Disallow: /
User-agent: FacebookBot
Disallow: /
User-agent: Applebot
Disallow: /
User-agent: Bytespider
Disallow: /
User-agent: Diffbot
Disallow: /
User-agent: ImagesiftBot
Disallow: /
User-agent: Omgilibot
Disallow: /
User-agent: Omgili
Disallow: /
User-agent: YouBot
Disallow: /
User-agent: AdsBot
Disallow: /