La xifra que hauria de preocupar-te
El 96,55% de les pàgines web no reben cap trànsit orgànic de Google. Aquesta dada prové d’una anàlisi d’Ahrefs sobre 14.000 milions de pàgines indexades. No és una estimació: és l’estat real del web. I la causa més freqüent no és la manca de contingut ni un perfil d’enllaços feble. És la indexació incorrecta o absent.
La indexació a Google és el procés pel qual Googlebot rastreja una pàgina, l’analitza i l’emmagatzema a la base de dades de Google perquè pugui aparèixer als resultats de cerca. Quan aquest procés falla, el contingut existeix però és invisible. L’empresa publica, l’equip treballa, les pàgines estan en línia, però Google actua com si no existissin.
El que fa especialment difícil diagnosticar aquests problemes és que la majoria són silenciosos. No hi ha cap error visible al navegador, cap alerta al servidor. Només absència. I Google ho confirma amb la seva pròpia documentació: “En general, la raó més freqüent per la qual un lloc no està indexat és que és massa nou.” Per a llocs ja establerts, les causes són més subtils i, per això, més perilloses.
Aquesta guia mapeja els 12 problemes d’indexació més freqüents en llocs web professionals, amb diagnòstic i solucions concretes per a cadascun. Per a una visió més àmplia del SEO tècnic com a disciplina, consulta la nostra guia completa de SEO tècnic.
Com funciona la indexació a Google: les tres fases
Comprendre el cicle complet que Google segueix per a cada URL és essencial abans de diagnosticar problemes. Existeixen tres fases diferenciades, i cadascuna pot ser el punt de fallada.
A la Fase 1 (Descobriment), Google troba URLs a través de sitemaps XML enviats a Search Console, d’enllaços interns en pàgines ja rastreades, i d’enviaments directes mitjançant la URL Inspection Tool. Una pàgina sense cap enllaç intern que hi apunti i sense presència al sitemap pot tardar setmanes a ser descoberta, o no descobrir-se mai.
A la Fase 2 (Rastreig), Googlebot visita la URL, descarrega l’HTML i el processa. Per a pàgines amb JavaScript, aquest procés es divideix en dues subfases: descàrrega de l’HTML inicial i renderitzat posterior amb Chromium, que pot produir-se dies més tard. La documentació oficial de Google indica que “Googlebot rastreja els primers 2 MB d’un tipus de fitxer compatible”, cosa que implica que el contingut més enllà d’aquest límit no es processa.
A la Fase 3 (Indexació), Google avalua si la pàgina mereix ser inclosa al seu índex. Aquí intervenen factors de qualitat, senyals d’autoritat, absència de duplicats i la correcta implementació de canonicals. Una pàgina pot ser rastreada i tot i així no indexada si no supera aquesta avaluació.
La distinció entre rastreig i indexació és fonamental, i la mateixa documentació de Googlebot la formula amb precisió: “Hi ha una diferència entre rastrejar i indexar; bloquejar Googlebot perquè no rastregui una pàgina no impedeix que la URL aparegui als resultats de cerca. Per evitar que Googlebot indexi una pàgina, utilitza noindex.”
La distinció que molts professionals confonen: robots.txt vs. noindex
Dos mecanismes completament diferents amb efectes completament diferents:
robots.txt controla l’accés al rastreig. Li diu a Googlebot si pot visitar una URL. Si bloqueges una URL a robots.txt, Googlebot no descarregarà el seu contingut. Però si Google ja coneix aquella URL per un enllaç extern o un sitemap, pot incloure-la als resultats de cerca sense haver-la rastrejat.
noindex controla la indexació. Li diu a Google que no inclogui aquella URL al seu índex. Perquè noindex funcioni, Google ha de poder rastrejar la pàgina i llegir la directiva. Si bloqueges el rastreig amb robots.txt i afegeixes noindex, Google no llegirà mai el noindex perquè robots.txt li impedeix accedir a la pàgina.
La combinació més perillosa és precisament aquesta: robots.txt bloquejant pàgines importants en producció (es va oblidar eliminar el bloqueig de l’entorn de desenvolupament) o noindex actiu en pàgines que haurien de posicionar.
Els 12 problemes d’indexació més comuns
1. Etiquetes noindex residuals de desenvolupament
Problema: Durant el desenvolupament, és habitual configurar <meta name="robots" content="noindex"> per evitar que Google indexi l’entorn de proves. Si aquesta configuració no s’elimina correctament en passar a producció, les pàgines més valuoses queden bloquejades.
Diagnòstic: GSC → URL Inspection en pàgines clau. Si apareix “noindex detectat” és el problema. A Screaming Frog: Bulk Export → Response Headers → filtra per noindex.
Solució: Eliminar la directiva noindex de l’HTML i del servidor web. Verificar la configuració de “visibilitat en cercadors” al panel d’administració del CMS. Després, sol·licitar reindexació a GSC.
2. Bloqueig incorrecte a robots.txt
Problema: Un Disallow: / accidental a robots.txt, o un bloqueig específic de rutes importants (com /productes/, /serveis/ o fitxers CSS i JS necessaris per al renderitzat) impedeix a Googlebot rastrejar aquell contingut.
Diagnòstic: GSC → Configuració → robots.txt → Eina de proves. Verifica que les rutes crítiques no estiguin bloquejades.
Solució: Corregir el fitxer robots.txt per permetre l’accés a les rutes estratègiques. Bloquejar fitxers CSS i JS impedeix a Google renderitzar les pàgines correctament, cosa que pot afectar negativament la seva avaluació de qualitat.
3. Errors de canonicalització
Problema: El 67,6% dels llocs web té problemes de contingut duplicat per canonicalització incorrecta. Variants freqüents: canonical apuntant a la URL d’staging, canonical en una pàgina 404, o absència total de canonical en llocs amb múltiples versions de la mateixa URL. Google admet que ignora entre el 30-40% de les etiquetes canonical quan detecta senyals conflictius.
Diagnòstic: Screaming Frog → Bulk Export → Canonicals. Verifica que cada canonical declarat retorna 200 i coincideix amb la URL usada als enllaços interns i al sitemap.
Solució: Implementar canonical self-referencing a totes les pàgines. Assegurar que els canonicals apunten a URLs que retornen 200 i que són consistents a HTML, HTTP headers i sitemap. Mai usar paràmetres UTM als enllaços interns.
4. Soft 404s
Problema: Un soft 404 és una pàgina que retorna codi HTTP 200 però el contingut de la qual indica que no existeix o no té valor: “No s’han trobat resultats”, pàgines de producte esgotat sense contingut alternatiu, pàgines de cerca interna buides. Google les detecta i les exclou de l’índex.
Diagnòstic: GSC → Indexació de pàgines → “Pàgina amb redirecció suau”. També investigant pàgines en estat “Rastrejat — no indexat actualment” que haurien de estar indexades.
Solució: Per a pàgines de producte esgotat: afegir valor (productes similars, descripció, data estimada de disponibilitat). Per a pàgines de cerca interna: usar noindex o bloquejar a robots.txt. Per a pàgines realment eliminades: retornar 404 o 410 en lloc de 200.
5. Contingut duplicat sense gestió
Problema: El contingut duplicat tècnic sorgeix de múltiples versions de la mateixa URL: http:// vs. https://, www vs. sense www, amb trailing slash vs. sense, amb paràmetres UTM als enllaços interns. Google inverteix recursos rastrejant totes les variants i pot no triar la versió canònica que vols.
Diagnòstic: Screaming Frog → Reports → Duplicate Content. GSC → Indexació: verifica si apareixen versions no desitjades indexades.
Solució: Configurar redireccions 301 des de totes les variants a la URL canònica, implementar canonicals consistents, i no usar paràmetres UTM als enllaços interns.
6. Renderitzat JavaScript diferit a les SPAs
Problema: Els llocs construïts com a Single Page Applications (SPAs) amb React, Angular o Vue que depenen de Client-Side Rendering (CSR) pateixen retards d’indexació de 2-4 setmanes. Googlebot descarrega l’HTML inicial (un esquelet buit) i posa en cua el renderitzat JavaScript per a una segona fase que pot demorar-se dies.
Diagnòstic: GSC → URL Inspection → “Veure pàgina com es rastreja”. Si la vista renderitzada mostra contingut buit o parcial, hi ha un problema de renderitzat JS. També: Rich Results Test per verificar el que veu Google.
Solució: Implementar Server-Side Rendering (SSR) o Static Site Generation (SSG) amb frameworks com Next.js, Nuxt.js o Astro. Per a migracions graduals, el Dynamic Rendering és una solució transitòria acceptada per Google. Per a més detall, consulta la nostra guia sobre problemes de JavaScript SEO.
7. Enllaçament intern deficient: pàgines òrfenes
Problema: Una pàgina òrfena és aquella a la qual no apunta cap enllaç intern del lloc. Googlebot descobreix URLs principalment seguint enllaços; si una pàgina no té cap enllaç intern entrant i no és al sitemap, pot no rastrejar-se mai.
Diagnòstic: Screaming Frog → Reports → Orphan Pages (requereix integració amb GSC o sitemap). Filtra per pàgines amb 0 enllaços interns entrants.
Solució: Crear una estratègia d’enllaçament intern que garanteixi que totes les pàgines estratègiques tinguin almenys 3-5 enllaços interns entrants des de pàgines amb autoritat. Cap pàgina important hauria d’estar a més de tres clics de la portada.
8. Errors de servidor (5xx) o DNS
Problema: Els errors 5xx fan que Googlebot rebi una resposta d’error en lloc del contingut. Si aquests errors són persistents, Google pot desindexar les pàgines afectades i reduir la taxa de rastreig global del domini.
Diagnòstic: GSC → Indexació de pàgines → “Error de servidor (5xx)”. GSC → Configuració → Estadístiques de rastreig → errors de rastreig.
Solució: Resoldre la causa arrel de l’error al servidor. Per a interrupcions planificades, configurar una pàgina de manteniment que retorni 503 amb capçalera Retry-After.
9. Cadenes de redirecció
Problema: Una cadena de redireccions es produeix quan URL A → URL B → URL C → URL D. Cada salt addicional consumeix crawl budget i dilueix el PageRank transferit. Google recomana no superar els 3 salts; més enllà, el rastreig pot abandonar-se.
Diagnòstic: Screaming Frog → Reports → Redirect Chains. Filtra per cadenes amb més de 2 salts.
Solució: Col·lapsar totes les cadenes de redirecció perquè cada URL redirigeixi directament al destí final en un únic salt 301. Actualitzar els enllaços interns per apuntar directament a les URLs finals.
10. Crawl budget mal gestionat
Problema: Llocs amb milers d’URLs de baixa qualitat (pàgines de faceta d’e-commerce, paginació profunda, variants paramètriques) esgoten el crawl budget abans que Googlebot arribi a les pàgines estratègiques. El resultat: pàgines importants en estat “Descobertes — no indexades actualment” a GSC.
Diagnòstic: GSC → Configuració → Estadístiques de rastreig. Si les pàgines rastreades diàriament són molt inferiors al total del lloc, i moltes pàgines mostren “Descobertes — no indexades”, hi ha un problema de crawl budget.
Solució: Implementar noindex en URLs de baixa qualitat, gestionar paràmetres a GSC, usar canonicals per consolidar variants, i millorar el temps de resposta del servidor. Per a una guia completa, consulta el nostre recurs sobre optimització del crawl budget.
11. Contingut prim o de baixa qualitat
Problema: El 2025-2026, els filtres de qualitat de Google — potenciats per sistemes d’IA — són més estrictes que mai. Pàgines amb poc contingut original, descripcions de producte copiades del fabricant, o guies que dupliquen informació sense aportar perspectiva pròpia poden quedar excloses de l’índex.
Diagnòstic: GSC → Indexació → “Rastrejat — no indexat actualment”. Analitza el contingut d’aquelles pàgines: nombre de paraules, originalitat, si respon la intenció de cerca millor que els resultats actuals.
Solució: Millorar el contingut afegint profunditat, perspectiva experta, dades pròpies o exemples únics. Consolidar pàgines similars de baixa qualitat en una única pàgina de major valor.
12. Sitemap desactualitzat o amb errors
Problema: Un sitemap XML amb URLs que retornen 404, que tenen redireccions actives, que estan marcades amb noindex, o que inclouen variants no canòniques confon Googlebot i genera desconfiança sobre la qualitat tècnica del lloc.
Diagnòstic: GSC → Sitemaps → verifica l’estat d’enviament i la diferència entre URLs enviades i indexades. Una diferència gran indica problemes.
Solució: Mantenir el sitemap actualitzat automàticament. Incloure només URLs que retornen 200 i són canòniques. Excloure URLs amb noindex, paginació profunda i variants no principals.
Eines de diagnòstic: quines usar i per a què
| Eina | Tipus | Ús principal |
|---|---|---|
| GSC — Informe d’Indexació | Gratuïta (oficial) | Estat global d’indexació, motius d’exclusió |
| GSC — URL Inspection Tool | Gratuïta (oficial) | Estat d’una URL concreta, vista renderitzada, sol·licitar reindexació |
| GSC — Robots.txt Tester | Gratuïta (oficial) | Verificar accés de Googlebot a rutes específiques |
| Google Rich Results Test | Gratuïta (oficial) | Verificar renderitzat JavaScript i dades estructurades |
| Screaming Frog SEO Spider | Freemium (crawler) | Auditoria completa: canonicals, noindex, redirects, soft 404s |
| Semrush Site Audit | SaaS | Auditoria al núvol amb mòdul d’indexabilitat |
Flux de diagnòstic recomanat
- GSC → Informe d’Indexació → identifica el motiu d’exclusió més freqüent
- Per a cada motiu, usa GSC URL Inspection en una mostra d’URLs afectades
- Screaming Frog per a una auditoria tècnica completa
- GSC → Estadístiques de rastreig per diagnosticar problemes de crawl budget
- Rich Results Test a pàgines crítiques per verificar el renderitzat JS
Com prioritzar les correccions
Prioritat crítica (actuar immediatament)
- Noindex residual a pàgines estratègiques
- Bloqueig total del lloc a robots.txt
- Errors 5xx persistents a pàgines d’alt valor
Prioritat alta (resoldre en 1-2 setmanes)
- Canonicals incorrectes o conflictius
- Soft 404s a pàgines de producte o servei
- Pàgines òrfenes sense enllaçament intern
Prioritat mitjana (planificar per al proper sprint)
- Contingut duplicat tècnic (variants d’URL)
- Cadenes de redirecció amb més de 2 salts
- Errors al sitemap
Revisió periòdica
- Contingut prim (requereix treball editorial)
- Crawl budget en llocs mitjans-grans
- JavaScript SEO en SPAs
Conclusió: la indexació com a condició prèvia
La indexació a Google no és l’objectiu final del SEO tècnic, però sí que és la condició prèvia sense la qual tot allò altre és irrellevant. El millor contingut, l’estratègia de paraules clau més precisa i el perfil d’enllaços més sòlid no generen cap resultat si Google no pot indexar les pàgines.
El que fa especialment perjudicials els problemes d’indexació és el seu caràcter silenciós. A diferència d’un error 500 que apareix als logs del servidor, un noindex residual o un canonical incorrecte no genera alertes visibles — només absència als resultats, absència de trànsit i absència de conversions.
L’Informe d’Indexació de Pàgines de Google Search Console, combinat amb una auditoria periòdica amb Screaming Frog, és el sistema de detecció precoç més eficaç i accessible disponible. Usar-lo de forma proactiva, sense esperar que el trànsit caigui, és la diferència entre resoldre un problema tècnic menor a temps i afrontar una recuperació que pot durar mesos.