La temptació amb llms.txt és convertir-lo en la nova etiqueta màgica del SEO per a IA. Puges un fitxer a l’arrel, hi afegeixes les teves millors URLs i esperes que ChatGPT, Claude, Perplexity o Google et llegeixin amb més afecte. Sona còmode. També és massa bonic.
La realitat és més útil, però menys espectacular: llms.txt és una proposta per publicar un mapa Markdown del teu lloc pensat per a models de llenguatge i eines de recuperació. Ajuda a explicar quin contingut importa, quines URLs són canòniques i quin context les hauria d’acompanyar. No és una promesa d’indexació. No és una directiva de bloqueig. No és un substitut d’una arquitectura web decent.
Jeremy Howard, autor de la proposta i cofundador de fast.ai, la descriu a llmstxt.org com una manera de donar als LLM informació útil en temps d’inferència. Aquesta frase conté el matís important: “proposta”. No estàndard universal. No RFC. No documentació oficial de Google, OpenAI, Anthropic o Perplexity dient “depenem d’això”.
Ben usat, llms.txt és com una taula de continguts per a màquines: no cuina el plat, però evita que el cambrer porti primer els coberts, després la carta antiga i al final el plat principal. Ordena.
Què és llms.txt i per què no és una vareta màgica
llms.txt és un fitxer de text en Markdown que normalment es publica a https://elteudomini.com/llms.txt. La proposta original planteja una estructura simple: títol del lloc, descripció breu, seccions temàtiques i enllaços a recursos importants, idealment en versions llegibles per a models de llenguatge. La idea neix d’un problema real: moltes pàgines web modernes barregen navegació, banners, JavaScript, components repetits, menús i contingut principal en un HTML difícil de processar sense soroll.
El punt contrarian: el millor llms.txt no és el més llarg. És el més selectiu.
Si hi poses 900 URLs perquè “més cobertura és millor”, acabes amb un sitemap disfressat de Markdown. Un model, una eina de documentació o un agent que consulti aquest fitxer necessita saber per on començar. La prioritat editorial és la senyal. Per això convé incloure guies pilar, recursos evergreen, pàgines de servei, documentació de producte i continguts que responguin preguntes recurrents, no cada notícia, etiqueta o pàgina paginada.
També convé separar expectativa d’utilitat. Google afirma en la seva documentació de funcions d’IA que no necessites crear fitxers de text IA ni markup especial per aparèixer a AI Overviews o AI Mode. OpenAI documenta els seus crawlers i permet distingir entre GPTBot, OAI-SearchBot i ChatGPT-User, però no declara que llms.txt sigui una senyal de rànquing, entrenament o recuperació. Perplexity sí publica un llms.txt per a la seva pròpia documentació, però això demostra adopció com a format de docs, no dependència universal de l’ecosistema.
En una estratègia de GEO i optimització per a motors generatius, el fitxer té sentit com a capa de claredat. Redueix ambigüitat, facilita auditories i obliga a decidir quines pàgines representen millor la teva experiència. Però si el contingut no té autoritat, fonts, estructura i utilitat real, llms.txt no ho arregla.
Diferències reals amb robots.txt i sitemap.xml
La confusió ve de la ruta: robots.txt, sitemap.xml i llms.txt viuen a prop de l’arrel del domini. Aquí s’acaba la similitud. Compleixen funcions distintes, es validen de maneres distintes i fallen de maneres distintes.
robots.txt és un mecanisme de control de rastreig. Segons Google Search Central, serveix principalment per gestionar a quines URLs poden accedir els crawlers i per evitar sobrecàrrega, no per mantenir una pàgina fora de l’índex. Si necessites bloquejar indexació, uses noindex, controls de snippet, autenticació o capçaleres adequades. Per a decisions sobre bots IA, revisa primer la configuració de robots.txt i els seus errors SEO, perquè aquí sí que pots permetre o bloquejar agents concrets com GPTBot, ClaudeBot o PerplexityBot.
sitemap.xml és un inventari de descobriment. Google recomana incloure URLs absolutes, canòniques, amb resposta 200 i rellevants per aparèixer a la cerca. El sitemap pot declarar lastmod, segmentar-se per tipus de contingut i enviar-se des de Search Console o declarar-se amb Sitemap: a robots.txt. Si barreges URLs bloquejades, noindex, redirigides o duplicades, envies senyals contradictòries. La guia de sitemap i robots per a auditoria SEO entra just en aquesta coherència.
llms.txt és un mapa interpretatiu. No diu “pots rastrejar això” ni “aquesta URL s’ha d’indexar”. Diu: “si vols entendre aquest lloc, comença per aquí i llegeix aquestes peces en aquest ordre”. La seva funció s’assembla més a un índex editorial o a un README de producte que a un protocol d’exclusió.
La taula mental és senzilla: robots.txt gestiona accés, sitemap.xml gestiona descobriment, llms.txt gestiona context. L’error car és demanar-li a un que faci la feina de l’altre. Bloquejar GPTBot a llms.txt no bloqueja GPTBot. Llistar una URL a llms.txt no la converteix en canònica. I afegir una pàgina privada al fitxer pot exposar una ruta que preferies no destacar.
Què pot fer i què no pot fer
El que sí que pot fer llms.txt: millorar la teva governança de contingut per a IA. Obliga a respondre preguntes que molts llocs posposen: quines pàgines són fonts de veritat, quins recursos estan actualitzats, quina versió idiomàtica s’ha de prioritzar, quins continguts no haurien d’aparèixer com a referència principal i quines URLs expliquen millor la proposta de valor.
També pot ajudar eines compatibles. Algunes plataformes de documentació, assistents de desenvolupament i fluxos interns poden llegir llms.txt per descobrir pàgines rellevants abans d’aprofundir. Perplexity, per exemple, enllaça el seu propi índex llms.txt des de la documentació perquè es puguin descobrir pàgines disponibles. Aquesta és una senyal pràctica d’utilitat: com a índex controlat, no com a garantia algorítmica.
A més, serveix per auditar buits. Si el teu llms.txt inclou una guia pilar de 2024 que no s’ha actualitzat, mentre el blog té una versió millor de 2026 que no hi apareix, acabes de descobrir un problema editorial. Si el fitxer recomana una URL que retorna 301, tens un problema tècnic. Si el mateix tema apareix en tres URLs sense jerarquia, tens una senyal de canibalització.
El que no pot fer és més important. No pot forçar Google a usar el teu contingut a AI Overviews. No pot ordenar a OpenAI que entreni o no entreni amb les teves pàgines. No pot substituir controls documentats per cada crawler. No pot millorar un contingut fluix. No pot resoldre problemes de renderitzat, arquitectura, duplicitat o autoritat.
Pensa en llms.txt com una portada de dossier. Ajuda que algú entengui què conté el dossier, però si les pàgines de dins estan buides, desordenades o sense fonts, la portada no salva la feina. Per mesurar quins bots arriben realment al lloc, creua aquesta capa amb l’anàlisi de logs de GPTBot, ClaudeBot i altres bots IA. Allà veuràs visites, user-agents, freqüència i URLs sol·licitades. llms.txt no et dona aquesta evidència.
Exemple pràctic de llms.txt per a un lloc SEO
Un bon fitxer comença petit. Per a una agència SEO, la primera versió podria tenir entre 20 i 60 enllaços: pàgines de servei, guies pilar, recursos GEO, casos d’estudi i contacte. Cada enllaç hauria de tenir una descripció breu que expliqui per què importa, no repetir el title tag.
Exemple simplificat:
# Ighenatt
> Agència SEO especialitzada en SEO tècnic, estratègia de continguts i visibilitat en motors generatius per a empreses a Espanya.
## Prioritat alta
- [Auditoria SEO tècnica](https://ighenatt.es/recursos/auditoria-seo/auditoria-seo-tecnica/): metodologia per detectar problemes de rastreig, indexació, arquitectura i rendiment.
- [GEO per a motors generatius](https://ighenatt.es/recursos/geo/geo-optimizacion-motores-generativos/): guia pilar sobre visibilitat a ChatGPT, Perplexity i AI Overviews.
- [Anàlisi de logs de bots IA](https://ighenatt.es/blog/analisis-logs-bots-ia-gptbot-claudebot/): procés per identificar GPTBot, ClaudeBot, PerplexityBot i altres crawlers.
## Control de rastreig
- [Robots.txt i errors SEO](https://ighenatt.es/blog/robots-txt-configuracion-errores-seo/): diferències entre bloqueig de rastreig, indexació i gestió de bots.
- [Sitemap XML i robots.txt](https://ighenatt.es/recursos/auditoria-seo/sitemap-robots-configuracion/): configuració coordinada de descobriment i accés.
## Contacte comercial
- [Consultoria SEO tècnica](https://ighenatt.es/servicios/consultoria-seo-tecnica/): servei per a auditories tècniques, migracions i arquitectura SEO.
Hi ha diverses decisions intencionals en l’exemple. Les URLs són absolutes, no relatives. Les seccions separen intenció, no format. Les descripcions diuen què trobarà un lector o agent, no frases promocionals. I la prioritat alta està limitada a peces que expliquen el lloc millor que una home.
Per a llocs multiidioma, no barregis idiomes sense criteri. Pots crear un llms.txt principal amb seccions per idioma o publicar fitxers auxiliars enllaçats des del principal. El que importa és declarar l’idioma de cada recurs i no fer que una guia en català apunti a una versió espanyola si existeix una alternativa equivalent.
Una pràctica útil: cada URL inclosa ha de superar tres proves abans d’entrar. Respon 200, és canònica i té una data de revisió. Si en falla una de les tres, no va al fitxer. Sembla estricte, però evita que llms.txt es converteixi en un aparador de deute tècnic.
Com mantenir llms-full.txt sense crear deute tècnic
La proposta original de llmstxt.org menciona fitxers expandits derivats de l’índex principal, com versions que contenen el text complet de les URLs enllaçades. A la pràctica, molts equips anomenen aquesta idea llms-full.txt: un Markdown gran que reuneix contingut prioritari perquè un sistema no hagi de visitar cada URL individual. Útil, sí. Perillós si s’automatitza sense control.
El problema de llms-full.txt no és generar-lo. És mantenir-lo net. Un CMS pot exportar HTML convertit a Markdown, però també arrossega menús, CTAs, blocs repetits, breadcrumbs, textos legals, formularis i mòduls d’articles relacionats. Això consumeix tokens i confon el context. El valor està a extreure contingut principal, conservar jerarquia H2-H3, mantenir taules, incloure fonts i eliminar tot el que no aporta comprensió.
La cadència recomanada depèn del lloc. Per a un blog tècnic actiu, regenera llms-full.txt setmanalment o cada vegada que publiquis una guia pilar. Per a una web corporativa estable, mensual sol ser suficient. Per a documentació de producte, vincula la regeneració al desplegament de docs. En tots els casos, guarda una empremta de control: data de generació, nombre d’URLs, mida del fitxer, idioma, commit o versió del CMS.
També necessites límits. Si el fitxer supera uns quants megabytes, divideix-lo per tema o idioma. Si una URL aporta només 150 paraules superficials, probablement no mereix ser-hi. Si una pàgina canvia cada dia, potser convé enllaçar-la des de llms.txt però no incorporar-la al full fins que sigui estable.
La regla operativa: llms.txt decideix què entra; llms-full.txt empaqueta el que ja ha estat aprovat. Mai al revés. Si el full es genera rastrejant tot el lloc sense governança, només has creat una còpia pesada del desordre original.
Governança d’URLs prioritàries: qui decideix què entra
El fitxer sembla tècnic, però la decisió és editorial i de negoci. En un lloc seriós, no hauria de ser el desenvolupador qui decideixi sol quines URLs representen l’empresa davant assistents IA. SEO, contingut, legal, producte i vendes poden tenir prioritats distintes. La solució no és ficar-les totes. La solució és un criteri d’entrada.
Un model simple funciona bé. Cada URL candidata rep responsable, objectiu, idioma, estat, prioritat i data de pròxima revisió. Prioritat 1 són pàgines que expliquen l’entitat: home, serveis estratègics, guies pilar, recursos amb fonts, casos d’estudi sòlids. Prioritat 2 són articles de suport, comparatives i FAQs. Prioritat 3 són peces tàctiques que poden rotar o sortir del fitxer.
La pregunta clau no és “volem que aquesta pàgina la vegi una IA?”. La pregunta bona és: “si una IA només pogués llegir 30 URLs nostres, aquesta hi hauria de ser?”. Aquest límit força claredat.
També cal documentar exclusions. Contingut legal sensible, pàgines amb preus desactualitzats, ofertes temporals, landings de campanyes, resultats interns de cerca, etiquetes i paginacions gairebé mai haurien d’entrar. Si necessites bloquejar crawlers, això viu a robots.txt o en controls d’accés, no a llms.txt. Però si només vols no promocionar una URL com a font principal, n’hi ha prou amb no incloure-la.
La governança es torna més important en GEO, on la citabilitat depèn de fonts clares i entitats consistents. Una guia pilar sobre IA generativa hauria d’enllaçar a recursos relacionats, tenir autoria visible, fonts reals i una resposta directa. llms.txt pot assenyalar-la, però la pàgina s’ho ha de merèixer. El fitxer no crea autoritat; l’ordena.
Checklist de validació, cadència i senyals a mesurar
Abans de publicar, valida el fitxer com si fos part d’un desplegament tècnic. No n’hi ha prou amb obrir-lo al navegador i veure text.
Checklist mínim:
- El fitxer està disponible a
https://domini.com/llms.txtamb estat 200. - Usa
Content-Type: text/plaino un tipus compatible que no forci una descàrrega estranya. - Està codificat en UTF-8 i es llegeix correctament amb accents.
- Totes les URLs incloses són absolutes, canòniques, rastrejables i retornen 200.
- Totes les rutes internes acaben amb barra final si el lloc usa trailing slash.
- No inclou pàgines noindex, bloquejades per robots.txt, redirigides o privades.
- Cada enllaç té una descripció específica, no una repetició del títol.
- Les seccions reflecteixen prioritat editorial, no només categories del CMS.
- La versió
llms-full.txt, si existeix, es genera des de la mateixa llista aprovada. - El fitxer té responsable, data de revisió i changelog intern.
Després, mesura amb humilitat. No busquis “pujada per llms.txt” en rànquings, perquè no aïllaràs aquesta variable. Mesura coses verificables: bots IA als logs, peticions a /llms.txt, URLs més rastrejades per user-agent, cites en respostes d’IA, trànsit referit des de Perplexity o ChatGPT, i coherència entre pàgines prioritàries i continguts que realment reben rastreig.
La cadència raonable és mensual per a llocs amb publicació freqüent, trimestral per a llocs estables i obligatòria després de migracions, canvis de robots.txt, noves guies pilar o reestructuracions de serveis. El responsable hauria de revisar tres columnes: altes, baixes i canvis de prioritat.
llms.txt no mereix ni cinisme automàtic ni fe cega. És barat, llegible, fàcil d’auditar i útil per ordenar una estratègia de contingut orientada a IA. Però la seva força està en la disciplina que exigeix: triar, explicar, mantenir i verificar. Dit d’una altra manera: no optimitza per tu. T’obliga a mostrar què hauries optimitzat si ho haguessis d’explicar a una màquina amb poc temps.
Comparteix aquest article
Si t'ha resultat útil aquest contingut, comparteix-lo amb els teus col·legues.
Preguntes Freqüents
¿Con qué frecuencia publican contenido nuevo?
Publicamos artículos nuevos semanalmente, enfocados en las últimas tendencias de SEO técnico, casos de estudio reales y mejores prácticas. Suscríbete a nuestro newsletter para no perderte ninguna actualización.
¿Los consejos son aplicables a cualquier tipo de sitio web?
Nuestros consejos se adaptan a diferentes tipos de sitios: ecommerce, blogs, sitios corporativos y aplicaciones web. Siempre indicamos cuándo una técnica es específica para cierto tipo de sitio o requerimientos técnicos.
¿Puedo implementar estas técnicas yo mismo?
Muchas técnicas básicas puedes implementarlas tú mismo siguiendo nuestras guías paso a paso. Para optimizaciones avanzadas o auditorías completas, recomendamos consultar con especialistas en SEO técnico como nuestro equipo.
¿Ofrecen servicios de consultoría personalizada?
Sí, ofrecemos servicios de consultoría SEO técnica personalizada, auditorías completas y optimización integral. Contáctanos para discutir las necesidades específicas de tu proyecto y cómo podemos ayudarte.