El SEO visual solía acabar en una carpeta de tareas mecánica: reducir peso, escribir un alt decente, exportar a WebP, comprobar que el LCP no se hundía. Esa lista sigue viva, pero no explica qué pasa cuando alguien apunta la cámara a una vitrina, una etiqueta, una fachada o una pieza de recambio y pregunta a Google qué tiene delante.
La búsqueda multimodal cambia la unidad de optimización. La página deja de ser solo un documento textual y pasa a ser una escena: objetos, relaciones, marcas, materiales, ubicaciones, precios, disponibilidad, reseñas, licencias y contexto editorial. Google anunció en abril de 2025 que AI Mode ya podía recibir una foto o una imagen subida, entender la escena completa con Gemini, identificar objetos mediante Lens y lanzar múltiples consultas con query fan-out. Un mes después, en Google I/O, la compañía dijo que Lens ya superaba los 1.500 millones de usuarios mensuales buscando lo que ven.
La conclusión incómoda: una imagen bonita pero muda se queda corta. Para la búsqueda multimodal, cada imagen importante necesita decir qué es, dónde encaja y por qué se puede confiar en ella.
Qué cambia cuando Google puede ver la escena
AI Mode y Lens no tratan la imagen como un adorno del artículo. Google describe un flujo en el que el sistema entiende objetos, materiales, colores, formas, disposición y relación entre elementos. Luego ejecuta varias consultas sobre la imagen completa y sobre objetos concretos dentro de ella. Es decir: una sola foto de una estantería puede convertirse en búsquedas sobre libros, ediciones, recomendaciones, tiendas y preguntas de seguimiento.
Robby Stein, VP of Product en Google Search, explica en el anuncio de AI Mode que la experiencia combina Lens con una versión personalizada de Gemini para responder preguntas complejas sobre lo que el usuario ve. La frase importante no es “IA”, es “lo que el usuario ve”. En SEO eso obliga a bajar del abstracto a lo visible.
Piensa en una clínica dental en Barcelona. Una foto de la recepción con el texto alt="clínica dental" es mejor que nada, pero no ayuda a desambiguar mucho. Una imagen con el equipo visible, señalización real, barrio, texto cercano que menciona “clínica dental en Gràcia”, schema LocalBusiness coherente y fotos crawlables de sala, gabinete y fachada crea una entidad visual mucho más fuerte. Si alguien usa Lens delante del local o pregunta por servicios cercanos, Google tiene más piezas para unir.
El punto contrarian: no necesitas más fotos en todas partes. Necesitas menos imágenes genéricas y más imágenes que resuelvan una pregunta visual. Una foto de stock de una persona sonriendo ante un portátil no construye entidad; una foto propia de tu producto, tu taller, tu carta, tu showroom o tu antes/después sí puede hacerlo. La cámara no pregunta por “soluciones digitales”. Pregunta: qué es esto, dónde lo compro, cómo se usa, si está abierto y si se parece a lo que necesito.
Entidades visuales: productos, lugares, personas y atributos
En SEO de entidades solemos hablar de Knowledge Graph, sameAs, marcas y autores. En SEO visual la lógica baja a un nivel más físico: qué entidades aparecen dentro de la imagen. Un vestido no es solo “vestido”; puede ser “vestido midi verde satinado”, con escote concreto, marca, talla, precio, disponibilidad y combinaciones de estilo. Un restaurante no es solo “restaurante”; puede ser terraza, interior, menú, fachada, platos, barrio y horario.
Google Search Central afirma que las buenas prácticas de SEO siguen siendo válidas para AI Overviews y AI Mode, y recomienda apoyar el contenido textual con imágenes y vídeos de alta calidad cuando aplique. También recuerda que los datos estructurados deben coincidir con el texto visible. Esa segunda parte evita una tentación clásica: meter schema para decir lo que la imagen no prueba.
Para producto, la documentación de Product structured data es directa: los datos de producto pueden aparecer en resultados enriquecidos, Google Images y Google Lens, con información como precio, disponibilidad, valoraciones, envío y devoluciones. Si vendes ecommerce, la foto principal, el feed de Merchant Center, el Product schema y el texto de la ficha tienen que contar la misma historia. Cuando no lo hacen, el sistema tiene que elegir entre señales contradictorias.
Para local, LocalBusiness structured data recomienda imágenes crawlables, indexables, representativas del contenido marcado y en formatos compatibles con Google Images. También sugiere múltiples imágenes en alta resolución con ratios 16:9, 4:3 y 1:1. No es una obsesión estética; es una forma de dar a Google varias superficies para resultados locales, maps, imágenes, paneles y respuestas visuales.
La analogía útil aquí no viene de la fotografía, sino de inventario. Cada imagen importante es una ficha de almacén. Si la caja no tiene etiqueta, ubicación, contenido y condiciones, alguien tendrá que abrirla y adivinar. La búsqueda multimodal puede mirar dentro de la caja, sí, pero sigue necesitando que el sistema de inventario confirme que lo que ve es correcto.
Texto alrededor, captions y accesibilidad: la capa que corrige la imagen
Google dice en sus prácticas de Image SEO que usa el alt text junto con algoritmos de visión artificial y el contenido de la página para entender el tema de una imagen. Ese “junto con” es la parte que muchos equipos pasan por alto. El alt no vive aislado. El párrafo anterior, el pie de foto, el H2, la ficha de producto y los datos estructurados ayudan a definir el significado de la imagen dentro de una página concreta.
El alt debe describir la función de la imagen en ese contexto. Para una imagen de un producto, no basta con “zapato”. Mejor: “zapatilla de running blanca con suela ancha para pronadores”. Para una página local: “fachada de la clínica Ighenatt Dental en Carrer de Sants, Barcelona”. Para una guía técnica: “captura de Search Console con filtro de tipo de búsqueda Imagen aplicado”. Natural, concreto, sin embutir keywords.
La accesibilidad no es una capa decorativa. W3C WAI recuerda que las imágenes deben tener alternativas textuales que describan la información o función que representan, para que puedan usarlas personas con distintas discapacidades. Lo interesante para SEO visual es que la misma disciplina mejora la interpretación de máquinas: si puedes explicar por qué la imagen importa a una persona que no la ve, también estás aclarando su función semántica.
Los captions tienen una ventaja que el alt no tiene: el usuario los ve. En ecommerce y local, un buen pie puede resolver dudas que la visión artificial no puede confirmar: “Modelo 2026 en color azul marino, disponible en tienda de Barcelona”, “Terraza cubierta accesible desde la entrada principal”, “Resultado tras 90 días de tratamiento, con consentimiento del paciente”. Si esto suena muy operativo, perfecto. La búsqueda visual premia lo operativo.
ImageObject, licencias y schema que no contradice la página
ImageObject no es una varita. Schema.org lo define como un tipo para describir objetos de imagen con propiedades como contenido, URL, caption, creador, copyright, licencia y usageInfo. Google, por su parte, indica que para informar sobre metadatos de imagen puedes usar structured data o IPTC photo metadata. Si usas ambos y hay conflicto, Google prioriza el structured data.
Donde esto tiene sentido: medios, bancos de imágenes, portfolios, fotógrafos, ecommerce con fotografía propia, inmobiliarias, turismo, arquitectura, arte, formación y cualquier negocio donde el derecho de uso de la imagen importe. La insignia “licensable” no es el objetivo de todos, pero la trazabilidad sí lo es. Una imagen con creador, copyright y página de licencia reduce dudas sobre origen y reutilización.
Para artículos, Article schema permite declarar imágenes asociadas al contenido editorial. Para producto, Product schema puede conectar imagen, precio, disponibilidad, valoraciones, envío y devoluciones. Para local, LocalBusiness schema puede incluir imágenes de restaurante, clínica, despacho, tienda o sede. La regla práctica: no marques una imagen como prueba de algo que la página no muestra de forma visible.
Una configuración razonable para una página comercial suele tener cuatro capas. Primera, img HTML con src, width, height, alt y carga adecuada. Segunda, texto cercano o caption que explique contexto. Tercera, schema del tipo de página: Product, LocalBusiness, Article, FAQPage o HowTo. Cuarta, ImageObject o IPTC si necesitas crédito, licencia, autor o página de adquisición. Si ya tienes una estrategia de structured data para IA, esta es la extensión visual natural. Para el puente entre schema y GEO, también encaja con la guía de Schema.org como puente SEO-GEO.
El caso de Airbnb ilustra la parte comercial. Su programa de fotografía profesional reporta, en datos de 2024-2025, un 21% más de ingresos de anfitrión y un 19% más de reservas en listings con fotografía profesional frente a comparables sin ella. No es SEO puro, pero sí demuestra una verdad que Lens y AI Mode amplifican: una superficie visual mejor documentada cambia el comportamiento de descubrimiento y decisión.
Checklist práctico para páginas locales, de producto y de negocio
Usa esta lista para las imágenes que pueden generar ingresos, leads o visitas físicas. No hace falta aplicarla a cada icono ni a cada imagen decorativa.
- Selecciona imágenes propias y específicas: producto real, fachada real, equipo real, sala real, instalación real, packaging real. Evita stock para superficies clave.
- Nombra archivos con entidad y atributo:
zapatilla-running-blanca-pronador-marca.jpg,clínica-dental-gracia-fachada.jpg,menú-restaurante-vegano-barcelona.jpg. - Asegura rastreo e indexación: URLs de imagen accesibles, no bloqueadas por robots.txt, sin login, incluidas en sitemap o descubiertas desde HTML.
- Define dimensiones:
widthyheightpara evitar CLS; ratios útiles para rich results y tarjetas: 16:9, 4:3 y 1:1 cuando el tipo de página lo pida. - Escribe alt contextual: describe la imagen como parte de la página, no como una nube de keywords.
- Añade caption cuando aporte decisión: material, color, modelo, ubicación, acceso, fecha, estado, disponibilidad o condición legal.
- Repite texto crítico en HTML: precios, nombres de modelo, horarios, ingredientes, certificaciones, direcciones y pasos no deben depender solo de OCR.
- Conecta con schema visible: Product para fichas, LocalBusiness para sedes, Article para editorial, HowTo para procesos, FAQPage para dudas reales.
- Incluye licencia si aplica:
license,acquireLicensePage, creador, copyright o IPTC, especialmente en medios y fotografía propia. - Comprueba Merchant Center y Business Profile: las fotos de producto y local deben coincidir con feeds, GBP, horarios, disponibilidad y políticas.
- Mide por superficie: Google Images, resultados web, Lens cuando tengas indicios, Merchant Center, GBP insights, conversiones y llamadas.
En una página de producto, la prioridad es foto principal, variantes, detalles, escala y contexto de uso. En una página local, fachada, entrada, interior, equipo, accesibilidad y entorno. En una página B2B o de servicios, capturas de proceso, entregables reales, comparativas antes/después y diagramas explicados en texto.
Rendimiento: formatos modernos, sí, pero sin convertirlo en religión
Hay una razón por la que el repositorio ya tiene artículos sobre imágenes WebP y rendimiento SEO y optimización de imágenes WebP/AVIF: el peso sigue importando. Una imagen visualmente perfecta que retrasa el LCP pierde negocio antes de que Lens pueda hacer nada. Usa AVIF o WebP cuando el pipeline lo permita, JPEG optimizado cuando necesites compatibilidad simple y SVG solo para gráficos que realmente sean vectoriales.
Pero en 2026 el debate “WebP vs AVIF” ya no debería comerse la estrategia. El formato es higiene. El avance está en servir la imagen correcta, con el tamaño correcto, en el momento correcto, y con contexto suficiente para que humanos y máquinas sepan que representa.
Cuatro reglas prácticas bastan para empezar. No hagas lazy load de la imagen LCP. Usa srcset y sizes para no enviar una foto de escritorio al móvil. Mantén width y height. Comprime sin destruir los detalles que una búsqueda visual podría necesitar: textura, etiqueta, forma, color, patrón, número de modelo. He visto equipos aplastar tanto una foto de producto que el logo se vuelve una mancha. Rápido, sí. Inútil también.
La compresión debe respetar la función de la imagen. Para una foto de fachada, que se lea el rótulo. Para un gráfico, que se lean ejes y leyendas. Para un producto, que no desaparezcan materiales ni acabados. Rendimiento y citabilidad visual no son enemigos; se rompen cuando optimizas solo una métrica.
Medición: cómo saber si el SEO visual avanza
Search Console no te da todavía un informe limpio de “clics desde Lens hacia esta imagen”. Google indica que AI Overviews y AI Mode se contabilizan dentro del rendimiento general de Search, en el tipo de búsqueda Web. Eso significa que la medición visual requiere triangulación, no un dashboard único.
Empieza con Search Console. Separa tipo de búsqueda Imagen y Web. Mira páginas con muchas impresiones de imagen y bajo CTR. Revisa consultas que incluyan color, material, modelo, ubicación, “cerca de mí”, “cómo usar”, “foto de”, “precio”, “medidas” o nombres de producto. Cruza esos datos con cambios de imagen, captions y schema. Si una página local gana impresiones de imagen tras subir fotos de fachada e interior, probablemente la señal visual se está reforzando.
Después mira negocio. En ecommerce, Merchant Center y GA4 pueden mostrar si las páginas con nuevas imágenes suben en clics, add-to-cart o conversión asistida. En local, Google Business Profile puede mostrar llamadas, solicitudes de ruta, interacciones con fotos y consultas por ubicación. En contenido editorial, observa si los artículos con diagramas explicados, captions y Article schema obtienen más clics desde imágenes o mejores snippets visuales.
Preguntas frecuentes sobre búsqueda multimodal y SEO visual
¿El SEO visual para IA sustituye al SEO de imágenes clásico?
No. Lo amplía. Siguen importando rastreo, formatos, peso, dimensiones, alt y sitemaps de imágenes, pero la búsqueda multimodal añade una capa de entidades: qué producto, lugar, material, marca o acción aparece en la imagen y cómo se confirma con texto visible, captions, schema, feeds y datos de negocio.
¿ImageObject es obligatorio para aparecer en Google Lens o AI Mode?
No es obligatorio. Google dice que no hay un schema especial necesario para AI Overviews o AI Mode. Aun así, ImageObject, Product, LocalBusiness, Article y metadatos de licencia ayudan a reducir ambigüedad cuando representan fielmente el contenido visible de la página.
¿Qué imágenes debería priorizar primero?
Empieza por las imágenes que ya influyen en negocio: fotos principales de producto, fotos de ubicaciones, imágenes de servicio local, comparativas, capturas de procesos, menús, habitaciones, instalaciones y cualquier imagen que un usuario podría fotografiar con Lens para preguntar qué es, cuánto cuesta, dónde está o cómo se usa.
¿Cómo se mide si la búsqueda visual está funcionando?
Mide impresiones y clics de Google Images en Search Console, apariciones de rich results de Product o LocalBusiness, clics desde páginas con imágenes renovadas, conversiones asistidas en GA4, rendimiento de Merchant Center y consultas que mencionan atributos visuales como color, material, forma, modelo, ubicación o estilo.
Comparte este artículo
Si te ha resultado útil este contenido, compártelo con tus colegas.
Preguntas Frecuentes
¿Con qué frecuencia publican contenido nuevo?
Publicamos artículos nuevos semanalmente, enfocados en las últimas tendencias de SEO técnico, casos de estudio reales y mejores prácticas. Suscríbete a nuestro newsletter para no perderte ninguna actualización.
¿Los consejos son aplicables a cualquier tipo de sitio web?
Nuestros consejos se adaptan a diferentes tipos de sitios: ecommerce, blogs, sitios corporativos y aplicaciones web. Siempre indicamos cuándo una técnica es específica para cierto tipo de sitio o requerimientos técnicos.
¿Puedo implementar estas técnicas yo mismo?
Muchas técnicas básicas puedes implementarlas tú mismo siguiendo nuestras guías paso a paso. Para optimizaciones avanzadas o auditorías completas, recomendamos consultar con especialistas en SEO técnico como nuestro equipo.
¿Ofrecen servicios de consultoría personalizada?
Sí, ofrecemos servicios de consultoría SEO técnica personalizada, auditorías completas y optimización integral. Contáctanos para discutir las necesidades específicas de tu proyecto y cómo podemos ayudarte.