La majoria dels SEOs configuren Google Search Console, instal·len un crawler i donen per acabat el diagnòstic tècnic. El que no veuen és la pel·lícula completa: tot allò que passa al servidor abans que GSC rebi les dades filtrades. Els logs del servidor són aquesta pel·lícula.
Un fitxer de logs d’Apache registra cada petició HTTP que arriba al servidor: URL exacta, timestamp al mil·lisegon, IP d’origen, user-agent i codi de resposta. Sense mostres, sense filtres, sense retards de 48 hores. Si Googlebot va rastrejar la teva pàgina de política de privacitat 47 vegades en un mes mentre la teva categoria principal no va rebre ni una visita, el log ho mostra. GSC probablement no.
Els logs del servidor registren cada petició HTTP sense filtrar, capturant rastrejaments de bots que eines analítiques com Google Analytics no recullen per disseny. Per a qualsevol lloc web amb més de 10.000 pàgines, són la font més precisa per diagnosticar problemes de rastrejabilitat i indexació.
Aquesta guia cobreix l’anàlisi de logs des del nivell tècnic: com llegir el format Apache i Nginx, com identificar Googlebot (i verificar que és realment Googlebot), com detectar patrons de rastrejament problemàtics, quines eines usar i com interpretar el que les dades revelen sobre la salut SEO del lloc.
Què conté un log de servidor i com llegir-lo
Una entrada de log d’accés en format Combined Log Format d’Apache té aquest aspecte:
66.249.73.135 - - [28/Mar/2026:08:42:17 +0100] "GET /categoria/sabates/ HTTP/1.1" 200 4521 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"
Cada camp té un significat precís:
- 66.249.73.135 — IP del client (en aquest cas, un rang de Google)
- [28/Mar/2026:08:42:17 +0100] — Timestamp amb zona horària
- “GET /categoria/sabates/ HTTP/1.1” — Mètode HTTP, URL sol·licitada i protocol
- 200 — Codi de resposta del servidor
- 4521 — Mida de la resposta en bytes
- ”-” — Referrer (buit en aquest cas)
- “Mozilla/5.0 (compatible; Googlebot/2.1; +…)” — User-agent
Nginx usa un format similar per defecte. La diferència principal és que Nginx separa els logs d’accés i d’error en fitxers diferents (access.log i error.log), mentre que Apache els combina o els separa segons la configuració del VirtualHost.
IIS (Internet Information Services) de Microsoft usa el format W3C Extended Log File Format, que té capçaleres de columnes a l’inici del fitxer i ordena els camps de forma lleugerament diferent. Screaming Frog Log Analyzer accepta els tres formats.
Els camps que més importen per a SEO
Per a una anàlisi orientada a SEO, quatre camps són crítics:
El user-agent identifica qui fa la petició. Googlebot s’identifica com Googlebot/2.1. Googlebot per a mòbils també usa Googlebot/2.1 però amb la cadena addicional del dispositiu. Bingbot com bingbot/2.0. GPTBot d’OpenAI com GPTBot/1.2. Un user-agent buit o amb cadenes sospitoses pot indicar scraping o bots maliciosos.
El codi de resposta és el diagnòstic instantani: 200 (OK), 301/302 (redirecció), 404 (no trobat), 500/503 (error de servidor). La distribució d’aquests codis en el trànsit de Googlebot revela l’estat de salut tècnica del lloc.
La URL permet agrupar rastrejaments per secció: categories, productes, paràmetres, URLs de paginació. La freqüència de rastrejament per secció és el senyal més directe de on està gastant el pressupost Googlebot.
El timestamp permet construir sèries temporals: amb quina freqüència visita Googlebot cada URL? Hi ha URLs crítiques que no han estat rastrejades en 30 dies?
Com identificar Googlebot (i verificar que és real)
Aquí hi ha el problema que poques persones mencionen: qualsevol bot pot falsificar el user-agent de Googlebot. Un scraper pot enviar peticions amb Googlebot/2.1 al user-agent i semblarà legítim als logs. Per confirmar que un accés és realment de Google, cal fer una verificació DNS inversa.
El procés té dos passos. Primer, cerca el nom d’amfitrió de la IP del log:
host 66.249.73.135
# Resultat: 66.249.73.135.in-addr.arpa domain name pointer crawl-66-249-73-135.googlebot.com.
Segon, verifica que aquest nom d’amfitrió resol de tornada a la mateixa IP:
host crawl-66-249-73-135.googlebot.com
# Resultat: crawl-66-249-73-135.googlebot.com has address 66.249.73.135
Si els dos passos coincideixen i el domini acaba en .googlebot.com o .google.com, la petició és legítimament de Google. Google també publica els seus rangs d’IP a https://developers.google.com/static/search/apis/ipranges/googlebot.json. Les eines d’anàlisi de logs com Screaming Frog Log Analyzer automatitzen aquesta verificació.
Screaming Frog Log Analyzer i eines com OnCrawl verifiquen automàticament els user-agents contra rangs d’IP publicats pels cercadors, distingint bots verificats de bots que falsifiquen identitat. Això és especialment rellevant el 2025, quan el trànsit total de rastrejadors va créixer un 18% interanual i els bots d’IA representen una part cada cop més gran del trànsit no humà en qualsevol servidor.
Els bots d’IA el 2025: un actor nou als logs
Entre maig de 2024 i maig de 2025, el trànsit de GPTBot d’OpenAI va créixer un 305% als servidors analitzats. Googlebot, per la seva banda, va augmentar un 96%. Aquesta dada, publicada per Single Grain basant-se en anàlisi de logs de clients, té implicacions pràctiques: els logs ja no revelen només el comportament dels cercadors — també mostren qui està entrenant models d’IA amb el teu contingut.
ClaudeBot (Anthropic), GPTBot (OpenAI), CCBot (Common Crawl) i Bytespider (ByteDance/TikTok) són els bots d’IA més comuns als logs actuals. Cap d’ells apareix a Google Search Console. Només són visibles als logs del servidor.
Patrons problemàtics que els logs revelen abans que qualsevol altra eina
Dana Tan, Directora de SEO a Under Armour, ho resumeix amb precisió quirúrgica: “Getting server logs takes the conjecture out of SEO and it’s 100% scientific. It’s data.” No hi ha cap interpretació possible quan el log mostra que Googlebot ha rastrejat una URL 200 vegades en un mes amb codi 404.
Aquests són els patrons més freqüents que els logs detecten abans que qualsevol altra font:
Rastrejament excessiu d’URLs de baix valor
La navegació facetada d’e-commerce és el cas més comú. Un lloc amb 50.000 productes pot generar milions de combinacions d’URLs de filtre: /sabates/?color=vermell&talla=42&preu=50-100. Moltes d’aquestes URLs no tenen valor SEO real. Si Googlebot rastreja aquestes combinacions amb alta freqüència, el pressupost de rastrejament es consumeix en URLs que mai posicionaran.
OnCrawl va documentar un cas on es van identificar 4,5 milions d’URLs sent rastrejades innecessàriament en un lloc d’e-commerce. El problema no era visible des de Google Search Console perquè les URLs responien amb 200 i tenien canonicals implementats — però els logs mostraven que Googlebot continuava rastrejant-les regularment malgrat el canonical. La solució va combinar robots.txt per a les URLs de paràmetre més agressives i una revisió del sitemap per prioritzar les URLs de valor.
Pàgines d’alt valor amb rastrejament insuficient o nul
El problema contrari. Les pàgines noves de categoria o els productes publicats recentment que no reben visites de Googlebot en setmanes. Els logs permeten creuar la llista d’URLs importants (obtinguda del sitemap o d’un crawl) contra el registre de rastrejaments reals. La discrepància entre el que s’hauria de rastrejar i el que realment es rastreja apunta a problemes d’enllaçat intern o d’arquitectura.
PJ Howland, VP d’Industry Insights a 97th Floor, ho situa en el context correcte: “Crawlability is the foundation of any technical SEO rollout. Without crawlability sites won’t get indexed. Without getting indexed, they won’t rank.” Els logs són l’únic lloc on es pot verificar directament si aquesta base està funcionant.
Errors 5xx que no apareixen a GSC
Els errors de servidor (500, 502, 503) que es produeixen durant el rastrejament de Googlebot només apareixen a l’informe de cobertura de GSC si són persistents. Un error 503 puntual que dura 2 minuts pot coincidir exactament amb una visita de Googlebot i aquest rastrejament queda com a fallit als logs sense deixar rastre a GSC. Si els logs mostren un patró d’errors 5xx en hores específiques (pics de càrrega, desplegaments), hi ha un problema de disponibilitat que afecta el rastrejament.
Redireccions en cadena consumint pressupost
Una URL que respon amb 301 que apunta a una altra URL que respon amb un altre 301 abans d’arribar a la destinació final. Googlebot segueix les redireccions, però cada salt consumeix temps de rastrejament. Els logs permeten identificar quines URLs retornen redireccions i quants salts hi ha fins a la URL final. La recomanació de Google és que les redireccions siguin directes (un únic 301 a la destinació final).
El cas OnCrawl: +37% en sessions amb anàlisi de logs
El cas d’estudi més documentat de millora SEO a través de l’anàlisi de logs prové del treball d’OnCrawl amb un client d’e-commerce que venia productes d’alt valor amb rotació ràpida (les pàgines s’eliminaven després de la venda).
L’anàlisi de logs va revelar tres problemes simultanis:
- Subcarpetes duplicades amb contingut obsolet rebent rastrejament freqüent de Googlebot
- Pàgines 404 de productes venuts sent rastrejades repetidament
- Subcarpetes de baix valor rebent més pressupost de rastrejament que les categories principals
Les solucions implementades van ser: eliminació i redirecció 301 de subcarpetes redundants, enllaços interns estratègics des de pàgines de baix valor cap a categories principals, reorganització del sitemap per prioritzar URLs crítiques, i revisió de canonicals i meta robots en pàgines de prioritat alta.
El resultat, documentat per OnCrawl, va ser un 37% d’increment en sessions i un 22% en transaccions després de la implementació. La causa arrel — el malbaratament de pressupost de rastrejament — no era visible des de GSC ni des d’un crawler convencional. Només els logs mostraven on anava realment el temps de Googlebot.
Eines per analitzar logs SEO
Screaming Frog Log Analyzer
L’opció més directa per a equips que ja usen Screaming Frog SEO Spider. El Log Analyzer accepta fitxers en format Apache, Nginx i W3C Extended Log Format. El flux de treball és: exportar els logs del servidor (o sol·licitar-los a l’allotjament), carregar el fitxer a l’eina, filtrar per Googlebot verificat.
Screaming Frog Log Analyzer permet segmentar per: URLs més rastrejades, URLs menys rastrejades, distribució de codis de resposta per a Googlebot, i comparativa entre rastrejaments del Log Analyzer i del SEO Spider. L’avantatge és la integració directa amb el Spider per creuar dades de rastrejabilitat i dades de log en la mateixa interfície.
El límit és el volum: per a llocs molt grans, el processament de fitxers de logs de diversos GB pot ser lent. Per a aquells casos, OnCrawl o Botify són més adequats.
OnCrawl
OnCrawl és la plataforma de referència per a l’anàlisi tècnica SEO a escala enterprise. A diferència de Screaming Frog, OnCrawl permet integració directa amb el servidor per rebre logs de forma contínua (no només fitxers puntuals). Combina dades de logs amb dades de crawl propi i dades de Google Search Console en un únic dashboard.
La funcionalitat més valuosa per al diagnòstic de crawl és la correlació entre freqüència de rastrejament i rendiment de pàgines: OnCrawl creua automàticament quines pàgines tenen més trànsit orgànic amb quines pàgines reben més visites de Googlebot. Les discrepàncies (pàgines amb molt trànsit però poc rastrejament, o pàgines sense trànsit amb rastrejament freqüent) són les alertes de major prioritat.
Seolyzer
Seolyzer està orientat a llocs de mida mitjana i la seva diferenciació és la detecció d’errors de log en temps real. No cal descarregar fitxers: s’instal·la un snippet al servidor que envia els logs directament a la plataforma. Identifica automàticament patrons d’errors, rastrejaments de bots, i genera alertes quan detecta anomalies (pic de 404s, caiguda en la freqüència de rastrejament de Googlebot).
Anàlisi amb Python per a volums grans
Per a fitxers de logs que superen diversos GB, les eines amb interfície gràfica tenen limitacions de rendiment. L’anàlisi amb Python usant pandas i la llibreria apache-log-parser permet processar milions de línies en minuts.
El flux de treball bàsic en Python:
import pandas as pd
import re
# Regex per a Combined Log Format
log_pattern = r'(\S+) \S+ \S+ \[([^\]]+)\] "(\S+) (\S+) \S+" (\d+) (\S+) "([^"]*)" "([^"]*)"'
rows = []
with open('access.log', 'r', encoding='utf-8', errors='ignore') as f:
for line in f:
match = re.match(log_pattern, line)
if match:
rows.append({
'ip': match.group(1),
'datetime': match.group(2),
'method': match.group(3),
'url': match.group(4),
'status': int(match.group(5)),
'user_agent': match.group(8)
})
df = pd.DataFrame(rows)
# Filtrar només Googlebot
googlebot = df[df['user_agent'].str.contains('Googlebot', case=False, na=False)]
# URLs més rastrejades per Googlebot
top_crawled = googlebot['url'].value_counts().head(50)
print(top_crawled)
# Distribució de codis de resposta per a Googlebot
print(googlebot['status'].value_counts())
Aquest script processa un fitxer de log de 2GB en menys de 2 minuts en un ordinador estàndard. Des d’aquí, es poden construir segmentacions més complexes: agrupar URLs per secció (usant regex a la columna url), calcular la freqüència mitjana de rastrejament per pàgina, o identificar les URLs amb errors 404 que Googlebot continua visitant.
Què fer amb el que trobes als logs
L’anàlisi de logs no acaba en el diagnòstic. Cada patró problemàtic té una acció concreta:
URLs de baix valor rastrejades amb alta freqüència: Afegir directiva Disallow a robots.txt per a les seccions sense valor SEO (URLs de paràmetres de filtre, URLs de cerca interna, URLs de sessió). Per a URLs que han d’existir però no ser rastrejades, usar noindex al meta robots combinat amb el canonical.
Pàgines importants amb rastrejament insuficient: Revisar l’enllaçat intern cap a aquestes URLs. Una pàgina sense prou enllaços interns rep poc PageRank i, per tant, menys interès de Googlebot. Afegir aquestes URLs al sitemap.xml amb prioritat alta. Comprovar que no estan bloquejades accidentalment a robots.txt.
Errors 404 rastrejats repetidament: Si són pàgines eliminades que tenien trànsit o enllaços, implementar 301 al contingut més rellevant disponible. Si són URLs que mai haurien d’haver existit (paràmetres brossa, URLs generades per scripts), bloquejar a robots.txt.
Errors 5xx en moments de rastrejament: Investigar els pics de càrrega coincidents amb errors 5xx. Si el servidor no aguanta el ritme de rastrejament de Googlebot, es pot reduir la velocitat de rastrejament des de Google Search Console a Configuració → Velocitat de rastrejament, tot i que Google recomana fer-ho només com a últim recurs.
Redireccions en cadena: Actualitzar les URLs origen per apuntar directament a la destinació final. Cada 301 intermedi es pot eliminar si els CMS o sistemes interns que generen els enllaços s’actualitzen.
La freqüència de rastrejament de Googlebot és un senyal indirecte de la percepció de qualitat que Google té d’un lloc. Un lloc ràpid, amb contingut actualitzat freqüentment i bona arquitectura interna, rep visites més freqüents. Un lloc amb molts errors o contingut obsolet veu com Googlebot redueix la seva cadència. Els logs registren aquest pols de forma objectiva, sense interpretacions ni mostres.
Si vols saber exactament com Googlebot rastreja el teu lloc i on s’està malbaratant el pressupost de crawl, l’anàlisi de logs forma part de qualsevol auditoria SEO tècnica que realitzem. Explica’ns el teu cas.
Comparteix aquest article
Si t'ha resultat útil aquest contingut, comparteix-lo amb els teus col·legues.
Preguntes Freqüents
¿Con qué frecuencia publican contenido nuevo?
Publicamos artículos nuevos semanalmente, enfocados en las últimas tendencias de SEO técnico, casos de estudio reales y mejores prácticas. Suscríbete a nuestro newsletter para no perderte ninguna actualización.
¿Los consejos son aplicables a cualquier tipo de sitio web?
Nuestros consejos se adaptan a diferentes tipos de sitios: ecommerce, blogs, sitios corporativos y aplicaciones web. Siempre indicamos cuándo una técnica es específica para cierto tipo de sitio o requerimientos técnicos.
¿Puedo implementar estas técnicas yo mismo?
Muchas técnicas básicas puedes implementarlas tú mismo siguiendo nuestras guías paso a paso. Para optimizaciones avanzadas o auditorías completas, recomendamos consultar con especialistas en SEO técnico como nuestro equipo.
¿Ofrecen servicios de consultoría personalizada?
Sí, ofrecemos servicios de consultoría SEO técnica personalizada, auditorías completas y optimización integral. Contáctanos para discutir las necesidades específicas de tu proyecto y cómo podemos ayudarte.