Anàlisi de logs del servidor: guia SEO avançada

Què és l'anàlisi de logs SEO i per a què serveix?

L'anàlisi de logs SEO consisteix a examinar els fitxers de registre del servidor web (Apache, Nginx o IIS) per identificar exactament quines URLs rastreja Googlebot, amb quina freqüència les visita i quins codis de resposta retorna el servidor. A diferència de Google Search Console, els logs capturen cada petició HTTP sense filtrar — incloent-hi rastrejaments de bots, errors 404/500 i patrons de navegació facetada — la qual cosa els converteix en la font més precisa per diagnosticar problemes de rastrejabilitat i indexació.

Idees clau

Els logs del servidor registren cada petició HTTP sense filtrar, incloent-hi rastrejaments de bots que eines com Google Analytics no capturen. Són la font més precisa per diagnosticar problemes de rastrejabilitat.
Entre maig 2024 i maig 2025, el trànsit de rastrejadors va créixer un 18% a nivell global; el trànsit de Googlebot va créixer un 96% i GPTBot un 305% — Font: Single Grain / Dades de servidors 2025.
Un e-commerce analitzat per OnCrawl tenia 4,5 milions d'URLs sent rastrejades innecessàriament. Després de redirigir subcarpetes redundants i optimitzar el crawl, va aconseguir un augment del 37% en sessions i un 22% en transaccions.
Dana Tan, Directora de SEO a Under Armour: 'Obtenir els logs del servidor elimina l'especulació del SEO i és 100% científic. Són dades.'
Les principals eines per a l'anàlisi de logs SEO són: Screaming Frog Log Analyzer (càrrega manual), OnCrawl (integració directa), Seolyzer i Botify per a llocs enterprise.

La majoria dels SEOs configuren Google Search Console, instal·len un crawler i donen per acabat el diagnòstic tècnic. El que no veuen és la pel·lícula completa: tot allò que passa al servidor abans que GSC rebi les dades filtrades. Els logs del servidor són aquesta pel·lícula.

Un fitxer de logs d’Apache registra cada petició HTTP que arriba al servidor: URL exacta, timestamp al mil·lisegon, IP d’origen, user-agent i codi de resposta. Sense mostres, sense filtres, sense retards de 48 hores. Si Googlebot va rastrejar la teva pàgina de política de privacitat 47 vegades en un mes mentre la teva categoria principal no va rebre ni una visita, el log ho mostra. GSC probablement no.

Els logs del servidor registren cada petició HTTP sense filtrar, capturant rastrejaments de bots que eines analítiques com Google Analytics no recullen per disseny. Per a qualsevol lloc web amb més de 10.000 pàgines, són la font més precisa per diagnosticar problemes de rastrejabilitat i indexació.

Aquesta guia cobreix l’anàlisi de logs des del nivell tècnic: com llegir el format Apache i Nginx, com identificar Googlebot (i verificar que és realment Googlebot), com detectar patrons de rastrejament problemàtics, quines eines usar i com interpretar el que les dades revelen sobre la salut SEO del lloc.

Què conté un log de servidor i com llegir-lo

Una entrada de log d’accés en format Combined Log Format d’Apache té aquest aspecte:

66.249.73.135 - - [28/Mar/2026:08:42:17 +0100] "GET /categoria/sabates/ HTTP/1.1" 200 4521 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +https://www.google.com/bot.html)"

Cada camp té un significat precís:

66.249.73.135 — IP del client (en aquest cas, un rang de Google)
[28/Mar/2026:08:42:17 +0100] — Timestamp amb zona horària
“GET /categoria/sabates/ HTTP/1.1” — Mètode HTTP, URL sol·licitada i protocol
200 — Codi de resposta del servidor
4521 — Mida de la resposta en bytes
“-” — Referrer (buit en aquest cas)
“Mozilla/5.0 (compatible; Googlebot/2.1; +…)” — User-agent

Nginx usa un format similar per defecte. La diferència principal és que Nginx separa els logs d’accés i d’error en fitxers diferents (access.log i error.log), mentre que Apache els combina o els separa segons la configuració del VirtualHost.

IIS (Internet Information Services) de Microsoft usa el format W3C Extended Log File Format, que té capçaleres de columnes a l’inici del fitxer i ordena els camps de forma lleugerament diferent. Screaming Frog Log Analyzer accepta els tres formats.

Els camps que més importen per a SEO

Per a una anàlisi orientada a SEO, quatre camps són crítics:

El user-agent identifica qui fa la petició. Googlebot s’identifica com Googlebot/2.1. Googlebot per a mòbils també usa Googlebot/2.1 però amb la cadena addicional del dispositiu. Bingbot com bingbot/2.0. GPTBot d’OpenAI com GPTBot/1.2. Un user-agent buit o amb cadenes sospitoses pot indicar scraping o bots maliciosos.

El codi de resposta és el diagnòstic instantani: 200 (OK), 301/302 (redirecció), 404 (no trobat), 500/503 (error de servidor). La distribució d’aquests codis en el trànsit de Googlebot revela l’estat de salut tècnica del lloc.

La URL permet agrupar rastrejaments per secció: categories, productes, paràmetres, URLs de paginació. La freqüència de rastrejament per secció és el senyal més directe de on està gastant el pressupost Googlebot.

El timestamp permet construir sèries temporals: amb quina freqüència visita Googlebot cada URL? Hi ha URLs crítiques que no han estat rastrejades en 30 dies?

Com identificar Googlebot (i verificar que és real)

Aquí hi ha el problema que poques persones mencionen: qualsevol bot pot falsificar el user-agent de Googlebot. Un scraper pot enviar peticions amb Googlebot/2.1 al user-agent i semblarà legítim als logs. Per confirmar que un accés és realment de Google, cal fer una verificació DNS inversa.

El procés té dos passos. Primer, cerca el nom d’amfitrió de la IP del log:

host 66.249.73.135
# Resultat: 66.249.73.135.in-addr.arpa domain name pointer crawl-66-249-73-135.googlebot.com.

Segon, verifica que aquest nom d’amfitrió resol de tornada a la mateixa IP:

host crawl-66-249-73-135.googlebot.com
# Resultat: crawl-66-249-73-135.googlebot.com has address 66.249.73.135

Si els dos passos coincideixen i el domini acaba en .googlebot.com o .google.com, la petició és legítimament de Google. Google també publica els seus rangs d’IP a https://developers.google.com/static/search/apis/ipranges/googlebot.json. Les eines d’anàlisi de logs com Screaming Frog Log Analyzer automatitzen aquesta verificació.

Screaming Frog Log Analyzer i eines com OnCrawl verifiquen automàticament els user-agents contra rangs d’IP publicats pels cercadors, distingint bots verificats de bots que falsifiquen identitat. Això és especialment rellevant el 2025, quan el trànsit total de rastrejadors va créixer un 18% interanual i els bots d’IA representen una part cada cop més gran del trànsit no humà en qualsevol servidor.

Els bots d’IA el 2025: un actor nou als logs

Entre maig de 2024 i maig de 2025, el trànsit de GPTBot d’OpenAI va créixer un 305% als servidors analitzats. Googlebot, per la seva banda, va augmentar un 96%. Aquesta dada, publicada per Single Grain basant-se en anàlisi de logs de clients, té implicacions pràctiques: els logs ja no revelen només el comportament dels cercadors — també mostren qui està entrenant models d’IA amb el teu contingut.

ClaudeBot (Anthropic), GPTBot (OpenAI), CCBot (Common Crawl) i Bytespider (ByteDance/TikTok) són els bots d’IA més comuns als logs actuals. Cap d’ells apareix a Google Search Console. Només són visibles als logs del servidor.

Patrons problemàtics que els logs revelen abans que qualsevol altra eina

Dana Tan, Directora de SEO a Under Armour, ho resumeix amb precisió quirúrgica: “Getting server logs takes the conjecture out of SEO and it’s 100% scientific. It’s data.” No hi ha cap interpretació possible quan el log mostra que Googlebot ha rastrejat una URL 200 vegades en un mes amb codi 404.

Aquests són els patrons més freqüents que els logs detecten abans que qualsevol altra font:

Rastrejament excessiu d’URLs de baix valor

La navegació facetada d’e-commerce és el cas més comú. Un lloc amb 50.000 productes pot generar milions de combinacions d’URLs de filtre: /sabates/?color=vermell&talla=42&preu=50-100. Moltes d’aquestes URLs no tenen valor SEO real. Si Googlebot rastreja aquestes combinacions amb alta freqüència, el pressupost de rastrejament es consumeix en URLs que mai posicionaran.

OnCrawl va documentar un cas on es van identificar 4,5 milions d’URLs sent rastrejades innecessàriament en un lloc d’e-commerce. El problema no era visible des de Google Search Console perquè les URLs responien amb 200 i tenien canonicals implementats — però els logs mostraven que Googlebot continuava rastrejant-les regularment malgrat el canonical. La solució va combinar robots.txt per a les URLs de paràmetre més agressives i una revisió del sitemap per prioritzar les URLs de valor.

Pàgines d’alt valor amb rastrejament insuficient o nul

El problema contrari. Les pàgines noves de categoria o els productes publicats recentment que no reben visites de Googlebot en setmanes. Els logs permeten creuar la llista d’URLs importants (obtinguda del sitemap o d’un crawl) contra el registre de rastrejaments reals. La discrepància entre el que s’hauria de rastrejar i el que realment es rastreja apunta a problemes d’enllaçat intern o d’arquitectura.

PJ Howland, VP d’Industry Insights a 97th Floor, ho situa en el context correcte: “Crawlability is the foundation of any technical SEO rollout. Without crawlability sites won’t get indexed. Without getting indexed, they won’t rank.” Els logs són l’únic lloc on es pot verificar directament si aquesta base està funcionant.

Errors 5xx que no apareixen a GSC

Els errors de servidor (500, 502, 503) que es produeixen durant el rastrejament de Googlebot només apareixen a l’informe de cobertura de GSC si són persistents. Un error 503 puntual que dura 2 minuts pot coincidir exactament amb una visita de Googlebot i aquest rastrejament queda com a fallit als logs sense deixar rastre a GSC. Si els logs mostren un patró d’errors 5xx en hores específiques (pics de càrrega, desplegaments), hi ha un problema de disponibilitat que afecta el rastrejament.

Redireccions en cadena consumint pressupost

Una URL que respon amb 301 que apunta a una altra URL que respon amb un altre 301 abans d’arribar a la destinació final. Googlebot segueix les redireccions, però cada salt consumeix temps de rastrejament. Els logs permeten identificar quines URLs retornen redireccions i quants salts hi ha fins a la URL final. La recomanació de Google és que les redireccions siguin directes (un únic 301 a la destinació final).

El cas OnCrawl: +37% en sessions amb anàlisi de logs

El cas d’estudi més documentat de millora SEO a través de l’anàlisi de logs prové del treball d’OnCrawl amb un client d’e-commerce que venia productes d’alt valor amb rotació ràpida (les pàgines s’eliminaven després de la venda).

L’anàlisi de logs va revelar tres problemes simultanis:

Subcarpetes duplicades amb contingut obsolet rebent rastrejament freqüent de Googlebot
Pàgines 404 de productes venuts sent rastrejades repetidament
Subcarpetes de baix valor rebent més pressupost de rastrejament que les categories principals

Les solucions implementades van ser: eliminació i redirecció 301 de subcarpetes redundants, enllaços interns estratègics des de pàgines de baix valor cap a categories principals, reorganització del sitemap per prioritzar URLs crítiques, i revisió de canonicals i meta robots en pàgines de prioritat alta.

El resultat, documentat per OnCrawl, va ser un 37% d’increment en sessions i un 22% en transaccions després de la implementació. La causa arrel — el malbaratament de pressupost de rastrejament — no era visible des de GSC ni des d’un crawler convencional. Només els logs mostraven on anava realment el temps de Googlebot.

Eines per analitzar logs SEO

Screaming Frog Log Analyzer

L’opció més directa per a equips que ja usen Screaming Frog SEO Spider. El Log Analyzer accepta fitxers en format Apache, Nginx i W3C Extended Log Format. El flux de treball és: exportar els logs del servidor (o sol·licitar-los a l’allotjament), carregar el fitxer a l’eina, filtrar per Googlebot verificat.

Screaming Frog Log Analyzer permet segmentar per: URLs més rastrejades, URLs menys rastrejades, distribució de codis de resposta per a Googlebot, i comparativa entre rastrejaments del Log Analyzer i del SEO Spider. L’avantatge és la integració directa amb el Spider per creuar dades de rastrejabilitat i dades de log en la mateixa interfície.

El límit és el volum: per a llocs molt grans, el processament de fitxers de logs de diversos GB pot ser lent. Per a aquells casos, OnCrawl o Botify són més adequats.

OnCrawl

OnCrawl és la plataforma de referència per a l’anàlisi tècnica SEO a escala enterprise. A diferència de Screaming Frog, OnCrawl permet integració directa amb el servidor per rebre logs de forma contínua (no només fitxers puntuals). Combina dades de logs amb dades de crawl propi i dades de Google Search Console en un únic dashboard.

La funcionalitat més valuosa per al diagnòstic de crawl és la correlació entre freqüència de rastrejament i rendiment de pàgines: OnCrawl creua automàticament quines pàgines tenen més trànsit orgànic amb quines pàgines reben més visites de Googlebot. Les discrepàncies (pàgines amb molt trànsit però poc rastrejament, o pàgines sense trànsit amb rastrejament freqüent) són les alertes de major prioritat.

Seolyzer

Seolyzer està orientat a llocs de mida mitjana i la seva diferenciació és la detecció d’errors de log en temps real. No cal descarregar fitxers: s’instal·la un snippet al servidor que envia els logs directament a la plataforma. Identifica automàticament patrons d’errors, rastrejaments de bots, i genera alertes quan detecta anomalies (pic de 404s, caiguda en la freqüència de rastrejament de Googlebot).

Anàlisi amb Python per a volums grans

Per a fitxers de logs que superen diversos GB, les eines amb interfície gràfica tenen limitacions de rendiment. L’anàlisi amb Python usant pandas i la llibreria apache-log-parser permet processar milions de línies en minuts.

El flux de treball bàsic en Python:

import pandas as pd
import re

# Regex per a Combined Log Format
log_pattern = r'(\S+) \S+ \S+ \[([^\]]+)\] "(\S+) (\S+) \S+" (\d+) (\S+) "([^"]*)" "([^"]*)"'

rows = []
with open('access.log', 'r', encoding='utf-8', errors='ignore') as f:
    for line in f:
        match = re.match(log_pattern, line)
        if match:
            rows.append({
                'ip': match.group(1),
                'datetime': match.group(2),
                'method': match.group(3),
                'url': match.group(4),
                'status': int(match.group(5)),
                'user_agent': match.group(8)
            })

df = pd.DataFrame(rows)

# Filtrar només Googlebot
googlebot = df[df['user_agent'].str.contains('Googlebot', case=False, na=False)]

# URLs més rastrejades per Googlebot
top_crawled = googlebot['url'].value_counts().head(50)
print(top_crawled)

# Distribució de codis de resposta per a Googlebot
print(googlebot['status'].value_counts())

Aquest script processa un fitxer de log de 2GB en menys de 2 minuts en un ordinador estàndard. Des d’aquí, es poden construir segmentacions més complexes: agrupar URLs per secció (usant regex a la columna url), calcular la freqüència mitjana de rastrejament per pàgina, o identificar les URLs amb errors 404 que Googlebot continua visitant.

Què fer amb el que trobes als logs

L’anàlisi de logs no acaba en el diagnòstic. Cada patró problemàtic té una acció concreta:

URLs de baix valor rastrejades amb alta freqüència: Afegir directiva Disallow a robots.txt per a les seccions sense valor SEO (URLs de paràmetres de filtre, URLs de cerca interna, URLs de sessió). Per a URLs que han d’existir però no ser rastrejades, usar noindex al meta robots combinat amb el canonical.

Pàgines importants amb rastrejament insuficient: Revisar l’enllaçat intern cap a aquestes URLs. Una pàgina sense prou enllaços interns rep poc PageRank i, per tant, menys interès de Googlebot. Afegir aquestes URLs al sitemap.xml amb prioritat alta. Comprovar que no estan bloquejades accidentalment a robots.txt.

Errors 404 rastrejats repetidament: Si són pàgines eliminades que tenien trànsit o enllaços, implementar 301 al contingut més rellevant disponible. Si són URLs que mai haurien d’haver existit (paràmetres brossa, URLs generades per scripts), bloquejar a robots.txt.

Errors 5xx en moments de rastrejament: Investigar els pics de càrrega coincidents amb errors 5xx. Si el servidor no aguanta el ritme de rastrejament de Googlebot, es pot reduir la velocitat de rastrejament des de Google Search Console a Configuració → Velocitat de rastrejament, tot i que Google recomana fer-ho només com a últim recurs.

Redireccions en cadena: Actualitzar les URLs origen per apuntar directament a la destinació final. Cada 301 intermedi es pot eliminar si els CMS o sistemes interns que generen els enllaços s’actualitzen.

La freqüència de rastrejament de Googlebot és un senyal indirecte de la percepció de qualitat que Google té d’un lloc. Un lloc ràpid, amb contingut actualitzat freqüentment i bona arquitectura interna, rep visites més freqüents. Un lloc amb molts errors o contingut obsolet veu com Googlebot redueix la seva cadència. Els logs registren aquest pols de forma objectiva, sense interpretacions ni mostres.

Si vols saber exactament com Googlebot rastreja el teu lloc i on s’està malbaratant el pressupost de crawl, l’anàlisi de logs forma part de qualsevol auditoria SEO tècnica que realitzem. Explica’ns el teu cas.

Fonts i referències

Server access logs and SEO — Search Engine Land (searchengineland.com)
Log File Analysis for SEO — iPullRank (ipullrank.com)
Log Files Analysis Case Study — OnCrawl (oncrawl.com)
SEO Log File Analyser — Screaming Frog (screamingfrog.co.uk)
Decoding crawl frequency — OnCrawl Technical SEO (oncrawl.com)
Log File Analysis for Understanding AI Crawling Behavior — Single Grain (singlegrain.com)
Crawl Stats Report — Google Search Console Help (support.google.com)
Log File Analysis for SEO — LinkGraph (linkgraph.com)

Comparteix aquest article

Si t'ha resultat útil aquest contingut, comparteix-lo amb els teus col·legues.

Twitter LinkedIn

Tornar a

Tots els articles

Subscriu-te a

La nostra newsletter

Preguntes Freqüents

Com accedeixo als logs del servidor del meu lloc web?

Depèn del teu allotjament. En servidors Linux amb cPanel, els logs d'accés solen trobar-se a /home/usuari/logs/domini.com-ssl_log o a la secció 'Logs' del tauler. En VPS amb accés root, els logs d'Apache estan a /var/log/apache2/access.log i els de Nginx a /var/log/nginx/access.log. En allotjament compartit, contacta amb el suport per sol·licitar el fitxer de logs o activa el registre des del tauler. Per a Cloudflare, pots activar Cloudflare Logs al pla Enterprise o usar l'endpoint Logpush.

Quanta informació de logs necessito per a una anàlisi SEO útil?

Per a llocs web de mida mitjana (fins a 100.000 pàgines), un període de 30 dies és suficient per identificar patrons de rastrejament, pàgines sense visites de Googlebot i errors recurrents. Per a llocs grans amb moltes pàgines estacionals o actualitzacions freqüents, analitza almenys 90 dies per distingir patrons reals d'anomalies puntuals. Si el lloc acaba de patir una migració o un canvi estructural rellevant, compara el període anterior i posterior al canvi.

Quina diferència hi ha entre l'anàlisi de logs i Google Search Console?

Google Search Console mostra una mostra dels rastrejaments de Googlebot amb fins a 16 mesos de dades d'índex, però no registra totes les peticions HTTP ni distingeix entre bots (Googlebot, Bingbot, GPTBot, bots maliciosos). Els logs del servidor registren absolutament tot: cada petició amb timestamp exacte, IP, user-agent i codi de resposta. Els logs revelen rastrejaments de Googlebot en URLs que GSC no mostra, errors 5xx que el servidor retorna però que no sempre apareixen a l'informe de cobertura, i el comportament de bots d'IA (GPTBot, ClaudeBot) que no apareixen a GSC.

Els bots d'IA com GPTBot afecten el rendiment del servidor?

Sí, i el 2025 l'impacte ja és mesurable. Entre maig 2024 i maig 2025, el trànsit de GPTBot va créixer un 305% segons dades de servidors analitzades per Single Grain. En llocs grans, aquests bots poden consumir ample de banda significatiu i estressar el servidor, especialment si no estan limitats a robots.txt. L'anàlisi de logs permet identificar quines IPs i user-agents consumeixen més recursos, bloquejar els no autoritzats a robots.txt o al tallafoc, i decidir si es permet o no el rastrejament als bots d'entrenament de models d'IA.

Anàlisi de logs del servidor: guia SEO avançada | Ighenatt

Què és l'anàlisi de logs SEO i per a què serveix?

Idees clau

Què conté un log de servidor i com llegir-lo

Els camps que més importen per a SEO

Com identificar Googlebot (i verificar que és real)

Els bots d’IA el 2025: un actor nou als logs

Patrons problemàtics que els logs revelen abans que qualsevol altra eina

Rastrejament excessiu d’URLs de baix valor

Pàgines d’alt valor amb rastrejament insuficient o nul

Errors 5xx que no apareixen a GSC

Redireccions en cadena consumint pressupost

El cas OnCrawl: +37% en sessions amb anàlisi de logs

Eines per analitzar logs SEO

Screaming Frog Log Analyzer

OnCrawl

Seolyzer

Anàlisi amb Python per a volums grans

Què fer amb el que trobes als logs

Fonts i referències

Comparteix aquest article

Preguntes Freqüents

Publicacions Relacionades

Robots.txt: errors que bloquegen Googlebot

RAG SEO: documentació recuperable per a IA i cerca

Anàlisi de logs: GPTBot i ClaudeBot IA el 2026

Què és l'anàlisi de logs SEO i per a què serveix?

Idees clau

Què conté un log de servidor i com llegir-lo

Els camps que més importen per a SEO

Com identificar Googlebot (i verificar que és real)

Els bots d’IA el 2025: un actor nou als logs

Patrons problemàtics que els logs revelen abans que qualsevol altra eina

Rastrejament excessiu d’URLs de baix valor

Pàgines d’alt valor amb rastrejament insuficient o nul

Errors 5xx que no apareixen a GSC

Redireccions en cadena consumint pressupost

El cas OnCrawl: +37% en sessions amb anàlisi de logs

Eines per analitzar logs SEO

Screaming Frog Log Analyzer

OnCrawl

Seolyzer

Anàlisi amb Python per a volums grans

Què fer amb el que trobes als logs

Fonts i referències

Comparteix aquest article

Preguntes Freqüents

Mantén-te actualitzat

Publicacions Relacionades

Robots.txt: errors que bloquegen Googlebot

RAG SEO: documentació recuperable per a IA i cerca

Anàlisi de logs: GPTBot i ClaudeBot IA el 2026