Saltar al contenido principal
Guía práctica

Indexación Google: 12 Problemas y Cómo Solucionarlos

Puntos clave

  • El 96,55% de las páginas web no reciben tráfico orgánico de Google — la indexación incorrecta es la causa silenciosa más frecuente
  • Bloquear con robots.txt NO impide que una URL aparezca en los resultados de búsqueda; solo noindex lo garantiza
  • Los errores de canonicalización afectan al 67,6% de los sitios web y son la principal causa de contenido duplicado
  • Google advierte explícitamente: no puede garantizar cuándo ni si rastreará o indexará una URL, aunque siga todas sus directrices
  • Las SPAs sin SSR sufren retrasos de indexación de 2-4 semanas por el renderizado diferido de JavaScript en Googlebot

Nuestra metodología

Para garantizar la calidad y fiabilidad de nuestros análisis, seguimos un proceso riguroso de evaluación.

  • Análisis independiente

    Evaluamos cada herramienta sin influencia de patrocinadores o afiliados.

  • Pruebas prácticas

    Probamos cada solución en proyectos reales para verificar su rendimiento.

  • Evaluación objetiva

    Utilizamos criterios estandarizados y métricas comparables.

  • Actualización periódica

    Revisamos y actualizamos nuestros análisis regularmente.

El dato que debería preocuparte antes de leer el resto

El 96,55% de las páginas web no reciben ningún tráfico orgánico de Google. Ese porcentaje proviene de un análisis de Ahrefs sobre 14.000 millones de páginas indexadas. No es una estimación: es el estado real de la web. La causa más frecuente no es la falta de contenido, ni un perfil de enlaces débil. Es la indexación incorrecta o ausente.

La indexación en Google es el proceso por el que Googlebot rastrea una página, la analiza y la almacena en su base de datos para que pueda aparecer en resultados de búsqueda. Cuando ese proceso falla, el contenido existe pero es invisible. Las páginas están online, pero Google actúa como si no existieran.

Lo que hace especialmente difícil diagnosticar estos problemas es que la mayoría son silenciosos. No hay error visible en el navegador, no hay alerta en el servidor. Solo ausencia. Google lo confirma con su propia documentación: “En general, la razón más frecuente de que un sitio no esté indexado es que es demasiado nuevo.” Para sitios ya establecidos, las causas son más sutiles y, por eso, más costosas.

Este recurso es una guía de diagnóstico y solución para los 12 problemas de indexación más frecuentes en sitios profesionales. Para una visión más amplia del SEO técnico como disciplina, consulta nuestra guía completa de SEO técnico.


Cómo funciona la indexación en Google: el proceso en tres fases

Antes de abordar los problemas, es necesario entender el flujo que Google sigue con cada URL. El ciclo completo tiene tres fases distintas, y cada una puede ser el punto de fallo.

Fase 1 — Descubrimiento: Google descubre URLs a través de sitemaps XML enviados en Search Console, de enlaces internos en páginas ya rastreadas, y de envíos directos mediante la herramienta URL Inspection. Una página sin ningún enlace interno apuntando a ella y sin presencia en el sitemap puede tardar semanas o no ser descubierta nunca.

Fase 2 — Rastreo (crawl): Googlebot visita la URL, descarga el HTML y lo procesa. Para páginas con JavaScript, este proceso se divide en dos subfases: descarga del HTML inicial y renderizado posterior con Chromium, que puede producirse días más tarde. La documentación oficial de Google señala que “Googlebot rastrea los primeros 2 MB de un tipo de archivo compatible”, lo que implica que el contenido situado más allá de ese límite no se procesa.

Fase 3 — Indexación: Google evalúa si la página merece ser incluida en su índice. Aquí intervienen factores de calidad, señales de autoridad, ausencia de duplicados y la correcta implementación de canonicals. Una página puede ser rastreada y no indexada si no supera esta evaluación.

La clave que diferencia el rastreo de la indexación es crítica, y la propia documentación de Googlebot la enuncia con precisión: “Existe una diferencia entre rastrear e indexar; bloquear a Googlebot para que no rastree una página no impide que la URL aparezca en los resultados de búsqueda. Para evitar que Googlebot indexe una página, usa noindex.”


La distinción crítica que confunde: robots.txt vs. noindex

Antes de entrar en los 12 problemas, conviene aclarar el concepto que genera más confusión en el SEO técnico de indexación. Son dos mecanismos distintos con efectos completamente diferentes:

robots.txt controla el acceso al rastreo. Le dice a Googlebot si puede o no visitar una URL. Si bloqueas una URL en robots.txt, Googlebot no descargará su contenido. Pero si Google ya conoce esa URL por un enlace externo o un sitemap, puede incluirla en los resultados de búsqueda aunque no haya podido rastrearla, mostrando solo la URL sin descripción.

noindex controla la indexación. Le dice a Google que no incluya esa URL en su índice, independientemente de si la ha rastreado o no. Para que noindex funcione, Google debe poder rastrear la página y leer la directiva. Si bloqueas el rastreo con robots.txt y además pones noindex, Google nunca leerá el noindex porque robots.txt le impide acceder.

La combinación más peligrosa es precisamente esta: robots.txt bloqueando páginas importantes en producción (se olvidó eliminar el bloqueo del entorno de desarrollo) o noindex activo en páginas que deberían posicionar (queda del proceso de pruebas o staging).


Los 12 problemas de indexación más frecuentes

1. Etiquetas noindex residuales de desarrollo o staging

Problema: Durante el desarrollo, es habitual configurar <meta name="robots" content="noindex"> o la directiva X-Robots-Tag: noindex en el servidor para evitar que Google indexe el entorno de pruebas. Si esa configuración no se elimina correctamente al pasar a producción, las páginas más valiosas del sitio quedan bloqueadas.

Diagnóstico: Usa GSC → URL Inspection en páginas clave. Si aparece “noindex detectado” es el problema. Alternativamente, en Screaming Frog: Bulk Export → Response Headers → filtra por noindex.

Solución: Eliminar la directiva noindex del HTML y del servidor web. Si usas un CMS, verifica la configuración de “visibilidad en buscadores” en el panel de administración. Después, solicita reindexación en GSC.


2. Bloqueo incorrecto en robots.txt

Problema: Un Disallow: / en robots.txt por descuido, o un bloqueo específico de rutas importantes (como /productos/, /servicios/ o los recursos estáticos necesarios para el renderizado) impide a Googlebot rastrear ese contenido.

Diagnóstico: GSC → Configuración → robots.txt → Herramienta de prueba. Verifica que las rutas críticas no estén bloqueadas.

Solución: Corregir el archivo robots.txt para permitir el acceso a las rutas estratégicas. Si el bloqueo era intencional en staging pero se exportó a producción, restaurar la versión correcta. Ten en cuenta que bloquear el rastreo de archivos CSS y JS impide a Google renderizar las páginas correctamente.


3. Errores de canonicalización

Problema: El 67,6% de los sitios web tienen problemas de contenido duplicado por canonicalización incorrecta. Las variantes más comunes: canonical apuntando a la URL de staging, canonical en una versión 404, o ausencia total de canonical en sitios con múltiples versiones de la misma URL (con/sin www, con/sin trailing slash, con/sin parámetros UTM).

Diagnóstico: Screaming Frog → Bulk Export → Canonicals. Verifica que cada URL canónica devuelve 200 y coincide con la URL declarada en los enlaces internos y el sitemap.

Solución: Implementar canonical self-referencing en todas las páginas, asegurarse de que los canonicals apuntan a URLs que devuelven 200, y que son consistentes en HTML, HTTP headers y sitemap. Google advierte que ignora entre el 30-40% de las etiquetas canonical cuando detecta señales conflictivas.


4. Soft 404s

Problema: Un soft 404 es una página que devuelve código HTTP 200 (respuesta correcta) pero cuyo contenido indica que no existe o es irrelevante: “No se encontraron resultados”, “Producto agotado sin contenido alternativo”, páginas de búsqueda interna con query vacía. Google las detecta y las excluye del índice porque no aportan valor al usuario.

Diagnóstico: GSC → Indexación de páginas → “Página con redirección suave”. También buscando en GSC patrones de exclusión con el motivo “Crawled - currently not indexed” en páginas que deberían estar indexadas.

Solución: Para páginas de producto agotado: añadir contenido de valor (productos similares, descripción del producto, fecha estimada de disponibilidad). Para páginas de búsqueda interna: usar noindex o bloquear en robots.txt. Para páginas realmente eliminadas: devolver 404 o 410 en lugar de 200.


5. Contenido duplicado sin gestión

Problema: El contenido duplicado técnico surge de múltiples versiones de la misma URL: http:// vs. https://, www vs. sin www, con trailing slash vs. sin él, con parámetros UTM en los enlaces internos, versiones de impresión o exportación. Google invierte recursos rastreando todas las variantes y puede no elegir la versión que quieres como canónica.

Diagnóstico: Screaming Frog → Reports → Duplicate Content. GSC → Indexación de páginas → verifica si aparecen versiones no deseadas indexadas.

Solución: Configurar redirecciones 301 desde todas las variantes a la URL canónica, implementar canonicals consistentes, y nunca usar parámetros UTM en enlaces internos (solo en campañas externas rastreadas).


6. JavaScript rendering diferido en SPAs

Problema: Los sitios construidos como Single Page Applications (SPAs) con React, Angular o Vue que dependen de Client-Side Rendering (CSR) experimentan retrasos de indexación de 2-4 semanas. Googlebot descarga el HTML inicial (un esqueleto vacío) y encola el renderizado JavaScript para una segunda fase que puede demorarse días. Durante ese intervalo, el contenido no está indexado.

Diagnóstico: GSC → URL Inspection → “Ver página como se rastrea”. Si la vista renderizada muestra contenido vacío o parcial, hay problema de JS rendering. También: Rich Results Test para verificar qué ve Google.

Solución: Implementar Server-Side Rendering (SSR) o Static Site Generation (SSG) con frameworks como Next.js, Nuxt.js o Astro. Para migraciones graduales, el Dynamic Rendering es una solución transitoria aceptada por Google. Para más detalle, consulta nuestra guía sobre JavaScript SEO.


7. Enlazado interno deficiente: páginas huérfanas

Problema: Una página huérfana es aquella a la que no apunta ningún enlace interno del sitio. Googlebot descubre URLs principalmente siguiendo enlaces; si una página no tiene ningún enlace entrante interno y no está en el sitemap, puede no rastrearse nunca. Incluso con sitemap, las páginas sin enlazado interno tienen baja prioridad de rastreo.

Diagnóstico: Screaming Frog → Reports → Orphan Pages (requiere integración con GSC o sitemap). Filtra por páginas con 0 enlaces internos entrantes.

Solución: Crear una estrategia de enlazado interno que garantice que todas las páginas estratégicas tengan al menos 3-5 enlaces entrantes internos desde páginas con autoridad. Ninguna página importante debería estar a más de tres clics de la portada.


8. Errores de servidor (5xx) o DNS

Problema: Los errores 5xx (servidor no disponible, timeout, error interno) hacen que Googlebot reciba una respuesta de error en lugar del contenido. Si estos errores son persistentes, Google puede desindexar las páginas afectadas y reducir la tasa de rastreo general del dominio. Los problemas DNS impiden que Googlebot resuelva el dominio completamente.

Diagnóstico: GSC → Indexación de páginas → “Error de servidor (5xx)”. GSC → Configuración → Estadísticas de rastreo → errores de rastreo.

Solución: Resolver la causa raíz del error en el servidor (revisar logs de servidor, capacidad, timeouts de aplicación). Si los errores son transitorios por mantenimiento, configurar una página de mantenimiento que devuelva 503 con Retry-After header para que Googlebot sepa cuándo volver.


9. Redirecciones en cadena

Problema: Una cadena de redirecciones ocurre cuando URL A → URL B → URL C → URL D. Cada salto adicional consume crawl budget y diluye el PageRank transferido. Google recomienda no superar los 3 saltos por cadena; más allá, el rastreo puede abandonarse. Los sitios con historial de múltiples migraciones son especialmente vulnerables.

Diagnóstico: Screaming Frog → Reports → Redirect Chains. Filtra por cadenas con más de 2 saltos.

Solución: Colapsar todas las cadenas de redirección para que cada URL redirija directamente al destino final en un único salto 301. Actualizar los enlaces internos para que apunten directamente a las URLs finales, eliminando el salto de redirección.


10. Crawl budget mal gestionado

Problema: Sitios con miles de URLs de baja calidad (páginas de faceta de e-commerce, páginas de paginación profunda, variantes paramétricas, URLs de sesión) agotan el crawl budget antes de que Googlebot llegue a las páginas estratégicas. El resultado: páginas importantes en estado “Descubiertas: actualmente no indexadas” en GSC.

Diagnóstico: GSC → Configuración → Estadísticas de rastreo. Si el número de páginas rastreadas diariamente es muy inferior al total de páginas del sitio, y hay muchas en estado “Descubiertas — no indexadas actualmente”, hay un problema de crawl budget.

Solución: Implementar noindex en URLs de baja calidad, gestionar parámetros en GSC, usar canonical para consolidar variantes, y mejorar el tiempo de respuesta del servidor. Para una guía completa, consulta nuestro recurso sobre optimización del crawl budget.


11. Contenido thin o de baja calidad

Problema: En 2025-2026, los filtros de calidad de Google —potenciados por sistemas de IA— son más estrictos que nunca. Páginas con escaso contenido original, descripciones de producto copiadas del fabricante, páginas de categoría con solo una lista de productos sin texto contextual, o guías que duplican información de otras fuentes sin aportar perspectiva propia pueden quedar excluidas del índice bajo el estado “Rastreado: actualmente no indexado”.

Diagnóstico: GSC → Indexación → “Rastreado: actualmente no indexado”. Analiza el contenido de esas páginas: ¿cuántas palabras tiene? ¿Es original? ¿Responde a la intención de búsqueda mejor que los resultados actuales?

Solución: Mejorar el contenido añadiendo profundidad, perspectiva experta, datos propios o ejemplos únicos. Consolidar páginas similares de baja calidad en una única página de mayor valor. Eliminar páginas irreparables con noindex o redirigirlas a páginas relacionadas de mayor calidad.


12. Sitemap desactualizado o con errores

Problema: Un sitemap XML con URLs que devuelven 404, que tienen redirecciones activas, que están marcadas con noindex, o que incluyen variantes no canónicas confunde a Googlebot y genera desconfianza sobre la calidad técnica del sitio. Google procesa los sitemaps como una señal de prioridad de rastreo, y un sitemap con muchos errores reduce su utilidad.

Diagnóstico: GSC → Sitemaps → verifica el estado de envío y el número de URLs enviadas vs. indexadas. Una diferencia grande entre ambos indica problemas. También: Screaming Frog puede rastrear el sitemap y verificar el estado HTTP de cada URL.

Solución: Mantener el sitemap actualizado automáticamente (la mayoría de CMS modernos lo hacen). Incluir solo URLs que devuelven 200 y son canónicas. Excluir URLs con noindex, paginación profunda y variantes no principales. Segmentar en múltiples sitemaps si el sitio supera las 50.000 URLs.


Herramientas de diagnóstico: cuáles usar y para qué

El diagnóstico eficaz de problemas de indexación requiere combinar herramientas oficiales de Google con crawlers especializados. Este es el stack recomendado:

HerramientaTipoPara qué usarla
Google Search Console — Informe de IndexaciónGratuita (oficial)Visión global del estado de indexación, motivos de exclusión, URLs excluidas
GSC — URL Inspection ToolGratuita (oficial)Estado de una URL concreta, vista renderizada por Google, solicitar reindexación
GSC — Robots.txt TesterGratuita (oficial)Verificar si Googlebot puede acceder a rutas específicas
GSC — Informe de SitemapsGratuita (oficial)Estado del sitemap, URLs procesadas vs. enviadas
Google Rich Results TestGratuita (oficial)Verificar renderización JavaScript y datos estructurados
Screaming Frog SEO SpiderFreemium (crawler)Auditoría completa: canonicals, noindex, redirects, soft 404s, enlaces internos
Semrush Site AuditSaaSAuditoría en la nube con módulo de indexabilidad y seguimiento de cambios
SE Ranking Website AuditSaaSDetecta indexabilidad, cadenas de redirección, meta robots conflictivas

Flujo de diagnóstico recomendado

  1. GSC → Informe de Indexación → identifica el motivo de exclusión más frecuente
  2. Para cada motivo, usa GSC URL Inspection en una muestra de URLs afectadas
  3. Screaming Frog para auditoría técnica completa (canonicals, redirects, noindex)
  4. GSC → Estadísticas de rastreo para diagnosticar problemas de crawl budget
  5. Rich Results Test para verificar renderización JS en páginas críticas

Cómo priorizar las correcciones

No todos los problemas de indexación tienen el mismo impacto. Este es el orden de intervención recomendado:

Prioridad crítica (actuar inmediatamente)

  • Noindex residual en páginas estratégicas
  • Bloqueo total del sitio en robots.txt
  • Errores 5xx persistentes en páginas de alto valor

Prioridad alta (resolver en 1-2 semanas)

  • Canonicals incorrectos o conflictivos
  • Soft 404s en páginas de producto o servicio
  • Páginas huérfanas sin enlazado interno

Prioridad media (planificar en el próximo sprint)

  • Contenido duplicado técnico (variantes de URL)
  • Cadenas de redirección con más de 2 saltos
  • Sitemap con URLs erróneas

Revisión periódica

  • Thin content (requiere trabajo editorial)
  • Crawl budget en sitios medianos-grandes
  • JavaScript SEO en SPAs

El verificador de indexación que casi nadie usa correctamente

Google Search Console tiene un dato que concentra más información diagnóstica que cualquier otra métrica: el desglose del Informe de Indexación de Páginas por motivo de exclusión. La mayoría de los equipos miran solo el número total de páginas indexadas. El valor real está en comparar la evolución de cada categoría de exclusión a lo largo del tiempo.

Si “Rastreado: actualmente no indexado” crece de semana en semana, indica que Google está rastreando el sitio pero rechazando páginas por calidad. Si “Descubierto: actualmente no indexado” crece, el problema es de crawl budget o de priorización. Si “Excluido por etiqueta noindex” incluye páginas que no deberían tener noindex, hay un error técnico urgente.

La frecuencia de revisión recomendada es quincenal para sitios con actualizaciones frecuentes, y mensual para sitios más estáticos. Correlacionar los cambios en el informe con las publicaciones de nuevas páginas o modificaciones técnicas recientes acelera el diagnóstico.


La indexación como condición previa, no como resultado

La indexación en Google no es el objetivo final del SEO técnico, pero sí la condición previa sin la cual todo lo demás es irrelevante. El mejor contenido, la estrategia de keywords más precisa y el perfil de enlaces más sólido no generan ningún resultado si Google no puede indexar las páginas.

Un noindex residual o un canonical incorrecto no genera alertas visibles: solo ausencia en los resultados, ausencia de tráfico y ausencia de conversiones. A diferencia de un error 500 que aparece en los logs del servidor, estos problemas son silenciosos hasta que alguien los busca activamente.

El Informe de Indexación de Páginas de Google Search Console, combinado con una auditoría periódica en Screaming Frog, es el sistema de detección más eficaz y accesible. Usarlo de forma proactiva, antes de que el tráfico caiga, es lo que separa resolver un problema técnico menor a tiempo de enfrentarse a una recuperación de meses.

Preguntas frecuentes sobre indexacion google problemas

¿Por qué Google no indexa mi página?

Las causas más frecuentes son: etiqueta noindex activa (incluso en producción por descuido), bloqueo en robots.txt, errores de canonicalización que señalan a otra URL, errores de servidor (5xx), contenido duplicado o de baja calidad, y enlazado interno deficiente que deja páginas huérfanas. Google Search Console → Informe de Indexación de Páginas muestra el estado exacto y el motivo para cada URL.

¿Cuánto tiempo tarda Google en indexar una página nueva?

No existe un plazo garantizado. Google lo declara explícitamente en su documentación: 'En general, la razón más frecuente de que un sitio no esté indexado es que es demasiado nuevo.' Para sitios establecidos con autoridad, el rastreo puede producirse en horas o días. Para sitios nuevos o páginas con pocos enlaces internos, puede tardar semanas. La herramienta URL Inspection en GSC permite solicitar una reindexación prioritaria.

¿Cómo saber si mi web está indexada?

El método más fiable es Google Search Console → Informe de Indexación de Páginas. Para verificar una URL concreta, usa la herramienta URL Inspection en GSC. También puedes hacer una búsqueda en Google con el operador site:tudominio.com para tener una aproximación del número de páginas indexadas, aunque este recuento no es preciso.

¿Qué es el informe de cobertura de GSC?

El Informe de Indexación de Páginas (anteriormente llamado Informe de Cobertura) en Google Search Console clasifica todas las URLs conocidas por Google en cuatro estados: Válida (indexada), Válida con advertencias, Excluida (no indexada, con motivo) y Error (problema técnico que impide la indexación). Es la herramienta de diagnóstico más útil para entender el estado de indexación de un sitio.

¿Cuál es la diferencia entre rastrear e indexar?

Rastrear (crawl) es el proceso por el que Googlebot visita y descarga el HTML de una URL. Indexar es la decisión posterior de incluir esa página en la base de datos de Google para que pueda aparecer en resultados. Una página puede ser rastreada pero no indexada (si tiene baja calidad, noindex, o problemas técnicos). Google puede también conocer la existencia de una URL sin haberla rastreado.

¿Qué significa 'rastreado pero no indexado actualmente'?

Es uno de los estados más habituales en GSC. Significa que Googlebot visitó la página pero decidió no incluirla en el índice. Las causas más comunes son: contenido de baja calidad o thin content, contenido muy similar a otras páginas del mismo dominio, señales de calidad insuficientes, o simplemente que Google no considera la página suficientemente valiosa en ese momento. Mejorar el contenido, aumentar el enlazado interno y obtener enlaces externos suelen corregirlo.

¿Puede robots.txt impedir que una URL aparezca en resultados?

No. Esta es una de las confusiones más extendidas en SEO. Bloquear una URL en robots.txt impide que Googlebot la rastree y vea su contenido, pero NO impide que la URL aparezca en los resultados de búsqueda si Google la conoce por otros medios (enlaces externos, sitemaps). Para que una URL no aparezca en SERPs, es necesario implementar la directiva noindex en el HTTP header o en la etiqueta meta robots.

¿Necesitas ayuda profesional?

Solicitar consultoría SEO