Google Analytics muestra cero visitas. Los logs del servidor muestran miles de peticiones. La brecha entre ambas métricas, que antes indicaba tráfico de spam o Googlebot, ahora incluye un tercer actor que ningún dashboard de analytics rastrea por defecto: los bots de los modelos de IA.
Entre febrero y marzo de 2026, la empresa de AI Visibility WISLR analizó 48 días de logs de servidor y documentó 12.099 peticiones de bots IA en ese periodo. El bot más activo no fue GPTBot: fue Meta-WebIndexer, con 1.833 peticiones, seguido de ChatGPT-User (923), Claude-SearchBot (549) y PerplexityBot (456). GPTBot solo contribuyó 187 peticiones directas, pero su peso en el impacto en el entrenamiento de modelos es desproporcionado al volumen de peticiones.
El mismo análisis detectó un comportamiento que revela cómo estos sistemas coordinan su descubrimiento de contenido: el 18 y 19 de marzo de 2026, ClaudeBot y GPTBot solicitaron el archivo sitemap.xml el mismo día, desde empresas distintas y sin vinculación técnica aparente. Una señal de que los estándares de descubrimiento de contenido para LLMs están convergiendo silenciosamente.
Qué bots IA rastrean tu web en 2026: la lista completa de user-agents
La primera tarea para gestionar el tráfico de bots IA es saber exactamente cuáles visitan tu sitio y con qué propósito. Cada empresa tiene múltiples bots con roles distintos: entrenamiento de modelos, indexación para búsqueda en tiempo real y peticiones iniciadas por usuarios.
OpenAI opera tres bots documentados: GPTBot (entrenamiento de modelos, user-agent: GPTBot/1.2), OAI-SearchBot (indexación para ChatGPT Search) y ChatGPT-User (peticiones en tiempo real iniciadas por usuarios de ChatGPT). La distinción es crítica: bloquear GPTBot afecta al entrenamiento futuro pero no a las citas en ChatGPT Search, que usa OAI-SearchBot.
Anthropic tiene la misma estructura tripartita: ClaudeBot (entrenamiento, ClaudeBot/0.1), Claude-SearchBot (indexación para búsqueda en Claude.ai) y Claude-User (peticiones de usuarios). Los tres están documentados en support.anthropic.com.
Perplexity distingue entre PerplexityBot (indexación periódica) y Perplexity-User (recuperación en tiempo real por consulta de usuario), ambos en docs.perplexity.ai.
Google añade Google-Extended al catálogo habitual de Googlebot: este bot controla específicamente el uso del contenido para entrenar Gemini y Vertex AI, de forma independiente al indexado de búsqueda. Bloquearlo con Disallow: / para User-agent: Google-Extended no afecta al ranking orgánico.
El resto del ecosistema incluye CCBot (Common Crawl, base de entrenamiento de muchos LLMs), Applebot-Extended (Apple Intelligence), Amazonbot (Alexa AI), Bytespider (ByteDance) y más de una decena de agentes adicionales sin documentación oficial pública.
Cómo detectar bots IA en los logs del servidor
El log de acceso de Apache o Nginx registra cada petición HTTP con el timestamp, IP de origen, URL solicitada, código de respuesta y user-agent del cliente. Es la única fuente que ve el tráfico de bots IA en su totalidad, porque —a diferencia de Google Analytics— no depende de JavaScript.
Para filtrar exclusivamente el tráfico de GPTBot en un log de Nginx:
grep "GPTBot" /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20
Ese comando devuelve las 20 URLs más rastreadas por GPTBot, ordenadas por frecuencia. Reemplazando "GPTBot" por cualquier user-agent de la lista anterior, obtienes el mismo análisis para ClaudeBot, PerplexityBot o Google-Extended.
Para usuarios de Cloudflare, el panel de Analytics bajo “Security > Bots” muestra tráfico de bots con clasificación automática, aunque agrupa categorías. Los Cloudflare Workers Logs y el acceso a los logs de CDN desde la API ofrecen más granularidad si necesitas distinguir entre bot de entrenamiento y bot de recuperación.
Las herramientas especializadas, como GoAccess para visualización de logs en tiempo real o Screaming Frog Log Analyser, permiten cargar los logs y segmentar por user-agent con interfaz gráfica, útil para webs con volúmenes altos donde el análisis con grep se vuelve lento.
A diferencia del análisis de logs para Googlebot, donde el foco está en el crawl budget y el comportamiento de indexado, el análisis de logs de bots IA busca responder tres preguntas distintas: cuánto rastrean, qué páginas priorizan y si el tipo de bot (entrenamiento vs. recuperación) que domina el tráfico condiciona las decisiones de bloqueo.
GPTBot vs. ClaudeBot: frecuencia de rastreo y comportamiento
Los datos de Cloudflare Radar muestran que GPTBot creció un 305% en volumen de peticiones entre mayo de 2024 y mayo de 2025, pasando del 4,7% al 11,7% del share de crawlers en ese periodo. En el mismo intervalo, el tráfico de Googlebot también creció un 96%, señal de que el ecosistema de bots está expandiéndose globalmente, no desplazándose.
La diferencia de comportamiento más llamativa es el ratio crawl-to-referral: cuántas páginas rastrea un bot por cada visita real que envía al sitio. Para Googlebot, ese ratio oscila entre 3:1 y 30:1 según el tipo de sitio. Para Anthropic, Cloudflare documentó en julio de 2025 un ratio de 38.000:1 —38.000 páginas rastreadas por cada visita referida a sitios externos. Este dato explica por qué muchos webmasters ven picos de tráfico de ClaudeBot en los logs sin ninguna visita referida correspondiente en Analytics.
El comportamiento de GPTBot es más similar a un crawl de indexación tradicional: rastreo incremental, respeto de crawl-delay en robots.txt cuando se especifica, y preferencia por páginas de alta autoridad según los análisis de terceros. ClaudeBot tiene un patrón más agresivo de exploración en profundidad, especialmente en sitios con arquitectura de contenido densa.
En cuanto a la distribución por tipo de contenido, los bots IA muestran preferencia por artículos con estructura H2-H3 clara, datos estadísticos, tablas comparativas y secciones de FAQ, exactamente los formatos que también prefieren los algoritmos de citación de LLMs. El análisis de tu robots.txt frente al impacto de la IA en el posicionamiento y el crawling es una combinación que determina qué parte de tu contenido está disponible para ser citada.
¿Bloquear o permitir? La decisión estratégica
El estudio más relevante sobre esta pregunta es el de BuzzStream, publicado en marzo de 2026 y basado en 4 millones de citas analizadas en ChatGPT, Gemini, AI Overviews y AI Mode. El hallazgo principal contradice la intuición: el 95% de todos los sitios citados bloqueaban al menos un bot de entrenamiento con robots.txt, y el 70% de las citas de ChatGPT procedían de sitios que bloqueaban específicamente el bot de recuperación de ChatGPT.
La explicación técnica es que muchos sistemas de recuperación IA no llegan al servidor origen: extraen datos de snippets de SERP (título, URL, fragmento indexado por Google) o de cached versions del contenido. El bloqueo via robots.txt es parcialmente ineficaz porque los datos ya estaban en los datasets de entrenamiento o en el caché de Google antes del bloqueo.
La recomendación operativa distingue entre dos tipos de decisión. Para bots de entrenamiento (GPTBot, ClaudeBot, Google-Extended, CCBot): el bloqueo protege el contenido de ser usado en futuros ciclos de entrenamiento, pero no afecta a las citas en las versiones actuales de los modelos. Si el contenido es sensible o propietario, el bloqueo tiene sentido; si es contenido público de marketing, el coste de oportunidad puede superar el beneficio.
Para bots de recuperación (OAI-SearchBot, Claude-SearchBot, PerplexityBot): estos bots alimentan los sistemas de búsqueda en tiempo real de cada LLM. Bloquearlos sí reduce la probabilidad de ser citado en respuestas a preguntas recientes. Para webs que quieren maximizar la citabilidad en IA, estos bots deben estar permitidos.
llms.txt: el protocolo que compite con robots.txt por la IA
Cuando Jeremy Howard publicó la especificación de llms.txt en septiembre de 2024, la premisa era simple: así como robots.txt le dice a los crawlers qué no rastrear, llms.txt le dice a los LLMs qué leer primero. El formato es Markdown plano en la raíz del dominio, con una descripción del sitio y una lista estructurada de recursos relevantes con sus URLs y descripciones.
# Ighenatt — Agencia SEO Barcelona
> Agencia SEO especializada en técnico, contenido y IA generativa.
## Blog SEO
- [Entity SEO y Knowledge Graph](/blog/entity-seo-optimizacion-entidades-ia/): Construir marca como entidad
- [Guía de auditoría SEO técnica](/blog/guia-auditorias-seo-tecnicas/): Proceso paso a paso
## Recursos
- [Recursos SEO](/recursos/): Guías técnicas descargables
A octubre de 2025, más de 844.000 sitios tenían llms.txt implementado, incluyendo la propia Anthropic y Cloudflare. El problema es el cumplimiento: ningún proveedor LLM principal ha confirmado que sus crawlers lean llms.txt de forma consistente. Anthropic reconoció en documentación interna que “sus sistemas lo consideran cuando existe”, sin más precisión técnica. OpenAI y Google no han hecho declaraciones públicas sobre su uso del estándar.
La diferencia fundamental con robots.txt es que este último tiene consecuencias inmediatas y verificables (en 24-48 horas puedes confirmar en Search Console que Googlebot respeta el bloqueo); llms.txt carece de ese mecanismo de verificación. Sin embargo, el coste de implementación es mínimo y el riesgo es cero: si en el futuro los LLMs empiezan a seguirlo consistentemente, los sitios que ya lo tienen implementado tendrán ventaja estructural sin esfuerzo adicional.
Impacto en las citas IA: checklist técnico para 2026
La decisión final sobre qué bloquear depende del objetivo de negocio y del tipo de contenido. La siguiente tabla de decisión aplica a la mayoría de webs de empresas y agencias:
Para contenido de marketing y blog público: permitir todos los bots de recuperación, evaluar bloqueo de bots de entrenamiento según política de uso de contenido. Implementar llms.txt con los recursos más relevantes.
Para herramientas o contenido con ventaja competitiva técnica: bloquear bots de entrenamiento (GPTBot, ClaudeBot, Google-Extended), permitir bots de recuperación. Añadir X-Robots-Tag: noai en los headers HTTP de las páginas con contenido sensible.
Para webs de noticias o con contenido de actualidad: permitir todos los bots de recuperación para maximizar citas en respuestas a preguntas recientes. El modelo de negocio de citabilidad IA compensa el coste del rastreo.
El siguiente paso es el SEO programático para generar sistemáticamente el tipo de contenido que los bots de recuperación priorizan: páginas con estructura clara, datos verificables y respuestas directas a preguntas de alta frecuencia de búsqueda.
Comparte este artículo
Si te ha resultado útil este contenido, compártelo con tus colegas.
Preguntas Frecuentes
¿Con qué frecuencia publican contenido nuevo?
Publicamos artículos nuevos semanalmente, enfocados en las últimas tendencias de SEO técnico, casos de estudio reales y mejores prácticas. Suscríbete a nuestro newsletter para no perderte ninguna actualización.
¿Los consejos son aplicables a cualquier tipo de sitio web?
Nuestros consejos se adaptan a diferentes tipos de sitios: ecommerce, blogs, sitios corporativos y aplicaciones web. Siempre indicamos cuándo una técnica es específica para cierto tipo de sitio o requerimientos técnicos.
¿Puedo implementar estas técnicas yo mismo?
Muchas técnicas básicas puedes implementarlas tú mismo siguiendo nuestras guías paso a paso. Para optimizaciones avanzadas o auditorías completas, recomendamos consultar con especialistas en SEO técnico como nuestro equipo.
¿Ofrecen servicios de consultoría personalizada?
Sí, ofrecemos servicios de consultoría SEO técnica personalizada, auditorías completas y optimización integral. Contáctanos para discutir las necesidades específicas de tu proyecto y cómo podemos ayudarte.