Google Analytics mostra zero visites. Els logs del servidor mostren milers de peticions. La bretxa entre totes dues mètriques, que abans indicava trànsit de spam o Googlebot, ara inclou un tercer actor que cap dashboard d’analítica no rastreja per defecte: els bots dels models d’IA.
Entre febrer i març de 2026, l’empresa d’AI Visibility WISLR va analitzar 48 dies de logs de servidor i va documentar 12.099 peticions de bots IA en aquell període. El bot més actiu no va ser GPTBot: va ser Meta-WebIndexer, amb 1.833 peticions, seguit de ChatGPT-User (923), Claude-SearchBot (549) i PerplexityBot (456). GPTBot només va contribuir 187 peticions directes, però el seu pes en l’impacte en l’entrenament de models és desproporcionat al volum de peticions.
La mateixa anàlisi va detectar un comportament que revela com aquests sistemes coordinen el descobriment de contingut: el 18 i 19 de març de 2026, ClaudeBot i GPTBot van sol·licitar el fitxer sitemap.xml el mateix dia, des d’empreses distintes i sense vinculació tècnica aparent. Un senyal que els estàndards de descobriment de contingut per a LLMs estan convergint silenciosament.
Bots IA que rastregen la teva web el 2026: user-agents
La primera tasca per gestionar el trànsit de bots IA és saber exactament quins visiten el teu lloc i amb quin propòsit. Cada empresa té múltiples bots amb rols distints: entrenament de models, indexació per a cerca en temps real i peticions iniciades pels usuaris.
OpenAI opera tres bots documentats: GPTBot (entrenament de models, user-agent: GPTBot/1.2), OAI-SearchBot (indexació per a ChatGPT Search) i ChatGPT-User (peticions en temps real iniciades per usuaris de ChatGPT). La distinció és crítica: bloquejar GPTBot afecta l’entrenament futur però no les cites a ChatGPT Search, que usa OAI-SearchBot.
Anthropic té la mateixa estructura tripartita: ClaudeBot (entrenament, ClaudeBot/0.1), Claude-SearchBot (indexació per a cerca a Claude.ai) i Claude-User (peticions d’usuaris). Els tres estan documentats a support.anthropic.com.
Perplexity distingeix entre PerplexityBot (indexació periòdica) i Perplexity-User (recuperació en temps real per consulta d’usuari), tots dos a docs.perplexity.ai.
Google afegeix Google-Extended al catàleg habitual de Googlebot: aquest bot controla específicament l’ús del contingut per entrenar Gemini i Vertex AI, de manera independent a la indexació de cerca. Bloquejar-lo amb Disallow: / per a User-agent: Google-Extended no afecta el rànquing orgànic.
La resta de l’ecosistema inclou CCBot (Common Crawl, base d’entrenament de molts LLMs), Applebot-Extended (Apple Intelligence), Amazonbot (Alexa AI), Bytespider (ByteDance) i més d’una dotzena d’agents addicionals sense documentació oficial pública.
Com detectar bots IA als logs del servidor
El log d’accés d’Apache o Nginx registra cada petició HTTP amb el timestamp, IP d’origen, URL sol·licitada, codi de resposta i user-agent del client. És l’única font que veu el trànsit de bots IA en la seva totalitat, perquè — a diferència de Google Analytics — no depèn de JavaScript.
Per filtrar exclusivament el trànsit de GPTBot en un log de Nginx:
grep "GPTBot" /var/log/nginx/access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -20
Aquesta ordre retorna les 20 URLs més rastreges per GPTBot, ordenades per freqüència. Substituint "GPTBot" per qualsevol user-agent de la llista anterior, obtens la mateixa anàlisi per a ClaudeBot, PerplexityBot o Google-Extended.
Per als usuaris de Cloudflare, el tauler d’Analytics sota “Security > Bots” mostra trànsit de bots amb classificació automàtica, tot i que agrupa categories. Els Cloudflare Workers Logs i l’accés als logs de CDN des de l’API ofereixen més granularitat si necessites distingir entre bot d’entrenament i bot de recuperació.
Les eines especialitzades, com GoAccess per a visualització de logs en temps real o Screaming Frog Log Analyser, permeten carregar els logs i segmentar per user-agent amb interfície gràfica, útil per a webs amb volums alts on l’anàlisi amb grep es torna lenta.
A diferència de l’anàlisi de logs per a Googlebot, on el focus està en el pressupost de rastreig i el comportament d’indexació, l’anàlisi de logs de bots IA busca respondre tres preguntes distintes: quant rastregen, quines pàgines prioritzen i si el tipus de bot (entrenament vs. recuperació) que domina el trànsit condiciona les decisions de bloqueig.
GPTBot vs. ClaudeBot: freqüència de rastreig i comportament
Les dades de Cloudflare Radar mostren que GPTBot va créixer un 305% en volum de peticions entre maig de 2024 i maig de 2025, passant del 4,7% a l’11,7% del share de crawlers en aquell període. En el mateix interval, el trànsit de Googlebot també va créixer un 96%, senyal que l’ecosistema de bots s’està expandint globalment, no desplaçant-se.
La diferència de comportament més destacada és el ràtio crawl-to-referral: quantes pàgines rastreja un bot per cada visita real que envia al lloc. Per a Googlebot, aquest ràtio oscil·la entre 3:1 i 30:1 segons el tipus de lloc. Per a Anthropic, Cloudflare va documentar el juliol de 2025 un ràtio de 38.000:1 — 38.000 pàgines rastreges per cada visita referida a llocs externs. Aquesta dada explica per què molts webmasters veuen pics de trànsit de ClaudeBot als logs sense cap visita referida corresponent a Analytics.
El comportament de GPTBot s’assembla més a un rastreig d’indexació tradicional: rastreig incremental, respecte del crawl-delay a robots.txt quan s’especifica, i preferència per pàgines d’alta autoritat segons les anàlisis de tercers. ClaudeBot té un patró més agressiu d’exploració en profunditat, especialment en llocs amb arquitectura de contingut densa.
Quant a la distribució per tipus de contingut, els bots IA mostren preferència per articles amb estructura H2-H3 clara, dades estadístiques, taules comparatives i seccions de FAQ, exactament els formats que també prefereixen els algoritmes de citació dels LLMs. L’anàlisi del teu robots.txt davant l’impacte de la IA en el posicionament i el rastreig és una combinació que determina quina part del teu contingut està disponible per ser citada.
Bloquejar o permetre? La decisió estratègica
L’estudi més rellevant sobre aquesta pregunta és el de BuzzStream, publicat el març de 2026 i basat en 4 milions de cites analitzades a ChatGPT, Gemini, AI Overviews i AI Mode. La troballa principal contradiu la intuïció: el 95% de tots els llocs citats bloquejaven almenys un bot d’entrenament amb robots.txt, i el 70% de les cites de ChatGPT provenien de llocs que bloquejaven específicament el bot de recuperació de ChatGPT.
L’explicació tècnica és que molts sistemes de recuperació IA no arriben al servidor d’origen: extreuen dades de snippets de SERP (títol, URL, fragment indexat per Google) o de versions en memòria cau del contingut. El bloqueig via robots.txt és parcialment ineficaç perquè les dades ja eren als datasets d’entrenament o a la memòria cau de Google abans del bloqueig.
La recomanació operativa distingeix entre dos tipus de decisió. Per als bots d’entrenament (GPTBot, ClaudeBot, Google-Extended, CCBot): el bloqueig protegeix el contingut de ser usat en futurs cicles d’entrenament, però no afecta les cites a les versions actuals dels models. Si el contingut és sensible o propietari, el bloqueig té sentit; si és contingut públic de màrqueting, el cost d’oportunitat pot superar el benefici.
Per als bots de recuperació (OAI-SearchBot, Claude-SearchBot, PerplexityBot): aquests bots alimenten els sistemes de cerca en temps real de cada LLM. Bloquejar-los sí redueix la probabilitat de ser citat en respostes a preguntes recents. Per als webs que volen maximitzar la citabilitat en IA, aquests bots han d’estar permesos.
llms.txt: el protocol que competeix amb robots.txt per la IA
Quan Jeremy Howard va publicar l’especificació de llms.txt el setembre de 2024, la premissa era simple: igual com robots.txt diu als crawlers què no rastrejar, llms.txt diu als LLMs què llegir primer. El format és Markdown pla a l’arrel del domini, amb una descripció del lloc i una llista estructurada de recursos rellevants amb les seves URLs i descripcions.
# Ighenatt — Agencia SEO Barcelona
> Agencia SEO especializada en técnico, contenido y IA generativa.
## Blog SEO
- [Entity SEO y Knowledge Graph](/blog/entity-seo-optimizacion-entidades-ia/): Construir marca como entidad
- [Guía de auditoría SEO técnica](/blog/guia-auditorias-seo-tecnicas/): Proceso paso a paso
## Recursos
- [Recursos SEO](/recursos/): Guías técnicas descargables
A l’octubre de 2025, més de 844.000 llocs tenien llms.txt implementat, incloent-hi la pròpia Anthropic i Cloudflare. El problema és el compliment: cap proveïdor LLM principal ha confirmat que els seus crawlers llegeixin llms.txt de manera consistent. Anthropic va reconèixer en documentació interna que “els seus sistemes el consideren quan existeix”, sense més precisió tècnica. OpenAI i Google no han fet declaracions públiques sobre el seu ús de l’estàndard.
La diferència fonamental amb robots.txt és que aquest últim té conseqüències immediates i verificables (en 24-48 hores pots confirmar a Search Console que Googlebot respecta el bloqueig); llms.txt no disposa d’aquest mecanisme de verificació. Tanmateix, el cost d’implementació és mínim i el risc és zero: si en el futur els LLMs comencen a seguir-lo de manera consistent, els llocs que ja el tinguin implementat tindran avantatge estructural sense esforç addicional.
Impacte en les cites IA: checklist tècnic per a 2026
La decisió final sobre què bloquejar depèn de l’objectiu de negoci i del tipus de contingut. La taula de decisió següent s’aplica a la majoria de webs d’empreses i agències:
Per al contingut de màrqueting i blog públic: permetre tots els bots de recuperació, avaluar el bloqueig dels bots d’entrenament segons la política d’ús del contingut. Implementar llms.txt amb els recursos més rellevants.
Per a eines o contingut amb avantatge competitiu tècnic: bloquejar bots d’entrenament (GPTBot, ClaudeBot, Google-Extended), permetre bots de recuperació. Afegir X-Robots-Tag: noai als headers HTTP de les pàgines amb contingut sensible.
Per a webs de notícies o amb contingut d’actualitat: permetre tots els bots de recuperació per maximitzar cites en respostes a preguntes recents. El model de negoci de citabilitat IA compensa el cost del rastreig.
El pas següent és el SEO programàtic per generar sistemàticament el tipus de contingut que els bots de recuperació prioritzen: pàgines amb estructura clara, dades verificables i respostes directes a preguntes d’alta freqüència de cerca.
Comparteix aquest article
Si t'ha resultat útil aquest contingut, comparteix-lo amb els teus col·legues.
Preguntes Freqüents
¿Con qué frecuencia publican contenido nuevo?
Publicamos artículos nuevos semanalmente, enfocados en las últimas tendencias de SEO técnico, casos de estudio reales y mejores prácticas. Suscríbete a nuestro newsletter para no perderte ninguna actualización.
¿Los consejos son aplicables a cualquier tipo de sitio web?
Nuestros consejos se adaptan a diferentes tipos de sitios: ecommerce, blogs, sitios corporativos y aplicaciones web. Siempre indicamos cuándo una técnica es específica para cierto tipo de sitio o requerimientos técnicos.
¿Puedo implementar estas técnicas yo mismo?
Muchas técnicas básicas puedes implementarlas tú mismo siguiendo nuestras guías paso a paso. Para optimizaciones avanzadas o auditorías completas, recomendamos consultar con especialistas en SEO técnico como nuestro equipo.
¿Ofrecen servicios de consultoría personalizada?
Sí, ofrecemos servicios de consultoría SEO técnica personalizada, auditorías completas y optimización integral. Contáctanos para discutir las necesidades específicas de tu proyecto y cómo podemos ayudarte.