Saltar al contingut principal
Tendencias 10 min

Cerca multimodal IA i SEO visual | Ighenatt

Com preparar imatges per a AI Mode, Lens i Search Live: entitats visuals, text proper, peus de foto, ImageObject, llicències, accessibilitat i mesura.

EG

Elu Gonzalez

Autor

El SEO visual solia acabar en una carpeta de tasques bastant mecànica: reduir pes, escriure un alt decent, exportar a WebP, comprovar que el LCP no s’enfonsava. Aquesta llista continua viva, però ja no explica què passa quan algú apunta la càmera a un aparador, una etiqueta, una façana o una peça de recanvi i pregunta a Google què té al davant.

La cerca multimodal canvia la unitat d’optimització. La pàgina deixa de ser només un document textual i passa a ser una escena: objectes, relacions, marques, materials, ubicacions, preus, disponibilitat, ressenyes, llicències i context editorial. Google va anunciar a l’abril de 2025 que AI Mode ja podia rebre una foto o una imatge pujada, entendre l’escena completa amb Gemini, identificar objectes mitjançant Lens i llançar múltiples consultes amb query fan-out. Un mes després, a Google I/O, la companyia va dir que Lens ja superava els 1.500 milions d’usuaris mensuals buscant el que veuen.

La conclusió incòmoda: una imatge bonica però muda es queda curta. Per a la cerca multimodal, cada imatge important ha de dir què és, on encaixa i per què se’n pot confiar.

Què canvia quan Google pot veure l’escena

AI Mode i Lens no tracten la imatge com un adorn de l’article. Google descriu un flux en què el sistema entén objectes, materials, colors, formes, disposició i relació entre elements. Després executa diverses consultes sobre la imatge completa i sobre objectes concrets dins d’ella. Una sola foto d’una prestatgeria pot convertir-se en cerques sobre llibres, edicions, recomanacions, botigues i preguntes de seguiment.

Robby Stein, VP of Product a Google Search, explica en l’anunci d’AI Mode que l’experiència combina Lens amb una versió personalitzada de Gemini per respondre preguntes complexes sobre el que l’usuari veu. La frase important no és “IA”; és “el que l’usuari veu”. En SEO, això obliga a baixar de l’abstracte a l’evidència visible.

Pensa en una clínica dental a Barcelona. Una foto de recepció amb alt="clínica dental" és millor que res, però no ajuda gaire a desambiguar. Una imatge amb l’equip visible, retolació real, pistes del barri, text proper que menciona “clínica dental a Gràcia”, schema LocalBusiness coherent i fotos rastrejables de sala, gabinet i façana crea una entitat visual molt més forta. Si algú usa Lens davant del local o pregunta per serveis propers, Google té més peces per unir.

El punt contrarian: no necessites més fotos a tot arreu. Necessites menys imatges genèriques i més imatges que resolguin una pregunta visual. Una foto d’estoc d’una persona somrient davant d’un portàtil no construeix entitat; una foto pròpia del teu producte, taller, carta, showroom o abans/després sí que pot fer-ho. La càmera no pregunta per “solucions digitals”. Pregunta què és això, on ho compro, com s’utilitza, si està obert i si s’assembla al que necessito.

Entitats visuals: productes, llocs, persones i atributs

En SEO d’entitats acostumem a parlar de Knowledge Graph, sameAs, marques i autors. En SEO visual la lògica baixa a un nivell més físic: quines entitats apareixen dins de la imatge. Un vestit no és només “vestit”; pot ser “vestit midi verd satinat”, amb escot concret, marca, talla, preu, disponibilitat i combinacions d’estil. Un restaurant no és només “restaurant”; pot ser terrassa, interior, menú, façana, plats, barri i horari.

Google Search Central afirma que les bones pràctiques de SEO continuen sent vàlides per a AI Overviews i AI Mode, i recomana donar suport al contingut textual amb imatges i vídeos d’alta qualitat quan pertoqui. També recorda que les dades estructurades han de coincidir amb el text visible. Aquesta segona part evita una temptació clàssica: posar schema per dir el que la imatge no prova.

Per a producte, la documentació de Product structured data és directa: les dades de producte poden aparèixer en resultats enriquits, Google Images i Google Lens, amb informació com preu, disponibilitat, valoracions, enviament i devolucions. Si vens ecommerce, la foto principal, el feed de Merchant Center, el Product schema i el text de la fitxa han d’explicar la mateixa història. Quan no ho fan, el sistema ha d’escollir entre senyals contradictoris.

Per a local, LocalBusiness structured data recomana imatges rastrejables, indexables, representatives del contingut marcat i en formats compatibles amb Google Images. També suggereix múltiples imatges en alta resolució amb ratios 16:9, 4:3 i 1:1. No és una obsessió estètica; és una manera de donar a Google diverses superfícies per a resultats locals, maps, imatges, panels i respostes visuals.

L’analogia útil aquí no ve de la fotografia, sinó de l’inventari. Cada imatge important és una fitxa de magatzem. Si la caixa no té etiqueta, ubicació, contingut i condicions, algú l’haurà d’obrir i endevinar. La cerca multimodal pot mirar dins la caixa, sí, però continua necessitant que el sistema d’inventari confirmi que el que veu és correcte.

Text proper, peus de foto i accessibilitat

Google diu en les seves pràctiques d’Image SEO que utilitza l’alt text juntament amb algoritmes de visió artificial i el contingut de la pàgina per entendre el tema d’una imatge. Aquest “juntament amb” és la part que molts equips passen per alt. L’alt no viu aïllat. El paràgraf anterior, el peu de foto, l’H2, la fitxa de producte i les dades estructurades ajuden a definir el significat de la imatge dins d’una pàgina concreta.

L’alt ha de descriure la funció de la imatge en aquell context. Per a una imatge de producte, no n’hi ha prou amb “sabata”. Millor: “sabatilla de running blanca amb sola ampla per a pronadors”. Per a una pàgina local: “façana de la clínica Ighenatt Dental al carrer de Sants, Barcelona”. Per a una guia tècnica: “captura de Search Console amb filtre de tipus de cerca Imatge aplicat”. Natural, concret, sense farcir keywords.

L’accessibilitat no és una capa decorativa. W3C WAI recorda que les imatges han de tenir alternatives textuals que descriguin la informació o funció que representen, perquè puguin usar-les persones amb diferents discapacitats. El punt interessant per al SEO visual és que la mateixa disciplina millora la interpretació de màquines: si pots explicar per què la imatge importa a una persona que no la veu, també n’estàs aclarint la funció semàntica.

Els peus de foto tenen un avantatge que l’alt no té: l’usuari els veu. En ecommerce i local, un bon peu pot resoldre dubtes que la visió artificial no pot confirmar: “Model 2026 en color blau marí, disponible a la botiga de Barcelona”, “Terrassa coberta accessible des de l’entrada principal”, “Resultat després de 90 dies de tractament, amb consentiment del pacient”. Si això sona molt operatiu, perfecte. La cerca visual premia l’operatiu.

ImageObject, llicències i schema que no contradiu la pàgina

ImageObject no és una vareta. Schema.org el defineix com un tipus per descriure objectes d’imatge amb propietats com contingut, URL, caption, creador, copyright, llicència i usageInfo. Google, per la seva banda, indica que per informar sobre metadades d’imatge pots usar structured data o IPTC photo metadata. Si uses tots dos i hi ha conflicte, Google prioritza les dades estructurades.

On això té sentit: mitjans, bancs d’imatges, portfolios, fotògrafs, ecommerce amb fotografia pròpia, immobiliàries, turisme, arquitectura, art, formació i qualsevol negoci on el dret d’ús de la imatge importi. La insígnia “licensable” no és l’objectiu de tothom, però la traçabilitat sí que ho és. Una imatge amb creador, copyright i pàgina de llicència redueix dubtes sobre origen i reutilització.

Per a articles, Article schema permet declarar imatges associades al contingut editorial. Per a producte, Product schema pot connectar imatge, preu, disponibilitat, valoracions, enviament i devolucions. Per a local, LocalBusiness schema pot incloure imatges de restaurant, clínica, despatx, botiga o seu. La regla pràctica: no marquis una imatge com a prova d’alguna cosa que la pàgina no mostra de forma visible.

Una configuració raonable per a una pàgina comercial sol tenir quatre capes. Primera, img HTML amb src, width, height, alt i càrrega adequada. Segona, text proper o caption que expliqui context. Tercera, schema del tipus de pàgina: Product, LocalBusiness, Article, FAQPage o HowTo. Quarta, ImageObject o IPTC si necessites crèdit, llicència, autor o pàgina d’adquisició. Si ja tens una estratègia de structured data per a IA, aquesta és l’extensió visual natural. Per al pont entre schema i GEO, també encaixa amb la guia de Schema.org com a pont SEO-GEO.

El cas d’Airbnb il·lustra la part comercial. El seu programa de fotografia professional reporta, amb dades de 2024-2025, un 21% més d’ingressos d’amfitrió i un 19% més de reserves en anuncis amb fotografia professional davant de comparables sense ella. No és SEO pur, però sí demostra una veritat que Lens i AI Mode amplifiquen: una superfície visual millor documentada canvia el comportament de descobriment i decisió.

Checklist pràctic per a pàgines locals, de producte i de negoci

Usa aquesta llista per a les imatges que poden generar ingressos, leads o visites físiques. No cal aplicar-la a cada icona ni a cada imatge decorativa.

  • Selecciona imatges pròpies i específiques: producte real, façana real, equip real, sala real, instal·lació real, packaging real. Evita estoc per a superfícies clau.
  • Anomena fitxers amb entitat i atribut: sabatilla-running-blanca-pronador-marca.jpg, clinica-dental-gracia-facana.jpg, menu-restaurant-vega-barcelona.jpg.
  • Assegura rastreig i indexació: URLs d’imatge accessibles, no bloquejades per robots.txt, sense login, incloses en sitemap o descobertes des d’HTML.
  • Defineix dimensions: width i height per evitar CLS; ratios útils per a rich results i targetes: 16:9, 4:3 i 1:1 quan el tipus de pàgina ho demani.
  • Escriu alt contextual: descriu la imatge com a part de la pàgina, no com un núvol de keywords.
  • Afegeix caption quan ajudi a decidir: material, color, model, ubicació, accés, data, estat, disponibilitat o condició legal.
  • Repeteix text crític en HTML: preus, noms de model, horaris, ingredients, certificacions, adreces i passos no han de dependre només d’OCR.
  • Connecta amb schema visible: Product per a fitxes, LocalBusiness per a seus, Article per a editorial, HowTo per a processos, FAQPage per a dubtes reals.
  • Inclou llicència si aplica: license, acquireLicensePage, creador, copyright o IPTC, especialment en mitjans i fotografia pròpia.
  • Comprova Merchant Center i Business Profile: les fotos de producte i local han de coincidir amb feeds, GBP, horaris, disponibilitat i polítiques.
  • Mesura per superfície: Google Images, resultats web, Lens quan en tinguis indicis, Merchant Center, GBP insights, conversions i trucades.

En una pàgina de producte, la prioritat és foto principal, variants, detalls, escala i context d’ús. En una pàgina local, façana, entrada, interior, equip, accessibilitat i entorn. En una pàgina B2B o de serveis, captures de procés, entregables reals, comparatives abans/després i diagrames explicats en text.

Rendiment: formats moderns, sí, però sense convertir-ho en religió

Hi ha una raó per la qual aquest lloc ja té articles sobre imatges WebP i rendiment SEO i optimització d’imatges WebP/AVIF: el pes continua important. Una imatge visualment perfecta que retarda el LCP perd negoci abans que Lens pugui fer res. Usa AVIF o WebP quan el pipeline ho permeti, JPEG optimitzat quan necessitis compatibilitat simple i SVG només per a gràfics que siguin realment vectorials.

Però el 2026 el debat “WebP vs AVIF” ja no hauria de menjar-se l’estratègia. El format és higiene. L’avenç està a servir la imatge correcta, amb la mida correcta, en el moment correcte, i amb context suficient perquè humans i màquines sàpiguen que representa.

Quatre regles pràctiques basten per començar. No facis lazy load de la imatge LCP. Usa srcset i sizes per no enviar una foto d’escriptori al mòbil. Mantingues width i height. Comprimeix sense destruir els detalls que una cerca visual podria necessitar: textura, etiqueta, forma, color, patró, número de model. He vist equips aixafar tant una foto de producte que el logo es torna una taca. Ràpid, sí. Inútil també.

La compressió ha de respectar la funció de la imatge. Per a una foto de façana, que es llegeixi el rètol. Per a un gràfic, que es llegeixin eixos i llegendes. Per a un producte, que no desapareguin materials ni acabats. Rendiment i citabilitat visual no són enemics; es trenquen quan optimitzes només una mètrica.

Mesura: com saber si el SEO visual avança

Search Console encara no dona un informe net de “clics des de Lens cap a aquesta imatge”. Google indica que AI Overviews i AI Mode es comptabilitzen dins del rendiment general de Search, en el tipus de cerca Web. Això vol dir que la mesura visual requereix triangulació, no un dashboard únic.

Comença amb Search Console. Separa tipus de cerca Imatge i Web. Mira pàgines amb moltes impressions d’imatge i CTR baix. Revisa consultes que incloguin color, material, model, ubicació, “a prop meu”, “com usar”, “foto de”, “preu”, “mesures” o noms de producte. Creua aquestes dades amb canvis d’imatge, captions i schema. Si una pàgina local guanya impressions d’imatge després de pujar fotos de façana i interior, probablement el senyal visual s’està reforçant.

Després mira negoci. En ecommerce, Merchant Center i GA4 poden mostrar si les pàgines amb imatges noves pugen en clics, add-to-cart o conversió assistida. En local, Google Business Profile pot mostrar trucades, sol·licituds de ruta, interaccions amb fotos i consultes per ubicació. En contingut editorial, observa si els articles amb diagrames explicats, captions i Article schema obtenen més clics des d’imatges o millors snippets visuals.

Preguntes freqüents sobre cerca multimodal i SEO visual

El SEO visual per a IA substitueix el SEO d’imatges clàssic?

No. L’amplia. Continuen important el rastreig, els formats, el pes, les dimensions, l’alt i els sitemaps d’imatges, però la cerca multimodal afegeix una capa d’entitats: quin producte, lloc, material, marca o acció apareix a la imatge i com es confirma amb text visible, captions, schema, feeds i dades de negoci.

ImageObject és obligatori per aparèixer a Google Lens o AI Mode?

No és obligatori. Google diu que no hi ha cap schema especial necessari per a AI Overviews o AI Mode. Tot i així, ImageObject, Product, LocalBusiness, Article i metadades de llicència ajuden a reduir ambigüitat quan representen fidelment el contingut visible de la pàgina.

Quines imatges hauria de prioritzar primer?

Comença per les imatges que ja influeixen en negoci: fotos principals de producte, fotos d’ubicacions, imatges de servei local, comparatives, captures de processos, menús, habitacions, instal·lacions i qualsevol imatge que un usuari podria fotografiar amb Lens per preguntar què és, quant costa, on és o com s’utilitza.

Com es mesura si la cerca visual funciona?

Mesura impressions i clics de Google Images a Search Console, aparicions de rich results de Product o LocalBusiness, clics des de pàgines amb imatges renovades, conversions assistides a GA4, rendiment de Merchant Center i consultes que mencionen atributs visuals com color, material, forma, model, ubicació o estil.

Comparteix aquest article

Si t'ha resultat útil aquest contingut, comparteix-lo amb els teus col·legues.

Twitter LinkedIn

Preguntes Freqüents

¿Con qué frecuencia publican contenido nuevo?

Publicamos artículos nuevos semanalmente, enfocados en las últimas tendencias de SEO técnico, casos de estudio reales y mejores prácticas. Suscríbete a nuestro newsletter para no perderte ninguna actualización.

¿Los consejos son aplicables a cualquier tipo de sitio web?

Nuestros consejos se adaptan a diferentes tipos de sitios: ecommerce, blogs, sitios corporativos y aplicaciones web. Siempre indicamos cuándo una técnica es específica para cierto tipo de sitio o requerimientos técnicos.

¿Puedo implementar estas técnicas yo mismo?

Muchas técnicas básicas puedes implementarlas tú mismo siguiendo nuestras guías paso a paso. Para optimizaciones avanzadas o auditorías completas, recomendamos consultar con especialistas en SEO técnico como nuestro equipo.

¿Ofrecen servicios de consultoría personalizada?

Sí, ofrecemos servicios de consultoría SEO técnica personalizada, auditorías completas y optimización integral. Contáctanos para discutir las necesidades específicas de tu proyecto y cómo podemos ayudarte.

Mantén-te actualitzat

Rep al teu email els últims articles, consells i estratègies sobre SEO, rendiment web i màrqueting digital.

Enviem un butlletí cada setmana, i pots donar-te de baixa en qualsevol moment.

Tags: #cerca multimodal #SEO visual #Google Lens #AI Mode Google Search #ImageObject #SEO local #Product schema #accessibilitat web
EG

Elu Gonzalez

Expert SEO & Optimització Web