Cloudflare lancia una funzionalità che trasforma automaticamente le pagine web in Markdown per gli agenti di intelligenza artificiale. Questa innovazione chiamata «Markdown for Agents» promette di ridurre drasticamente il consumo di token, ma solleva questioni spinose sulle pratiche di SEO e sulla trasparenza dei contenuti web.
Da ricordare:
- La conversione automatica da HTML a Markdown riduce il consumo di token dell'80%, passando ad esempio da 16.180 a 3.150 token per un articolo di blog
- La funzione funziona tramite l'header Accept: text/markdown ed è disponibile in beta per i clienti Pro, Business e Enterprise di Cloudflare
- Google e Microsoft esprimono le loro riserve, temendo che questa tecnologia faciliti il cloaking, pratica che consiste nel mostrare contenuti diversi ai robot e agli utenti umani
Un problema di peso nell'ingestione dei contenuti da parte delle IA
I sistemi di intelligenza artificiale si trovano di fronte a una grande sfida quando esplorano il web: l'HTML è pesante, ingombrato da elementi superflui per una macchina. Barre di navigazione, script analitici, tag CSS, footer pieni di decine di link… tanti elementi che appesantiscono le pagine senza apportare valore semantico agli agenti IA.
Cloudflare illustra questo problema con una metafora « Fornire codice HTML grezzo a un'IA equivale a pagare a parola per leggere un involucro invece del testo al suo interno ». Concretamente, un semplice tag ## About Us in Markdown costa circa 3 token, mentre il suo equivalente HTML <h2 class="section-title" id="about">About Us</h2> ne consuma tra 12 e 15, senza contare i tag <div>, le barre di navigazione e gli script che non hanno alcun valore semantico.
Il Markdown è rapidamente diventato il linguaggio degli agenti IA grazie alla sua struttura esplicita che facilita l'elaborazione automatica riducendo al minimo lo spreco di token.
Un meccanismo di conversione al volo
Il funzionamento di Markdown for Agents si basa sulla negoziazione del contenuto HTTP. Quando un agente IA invia una richiesta con l'header Accept: text/markdown, Cloudflare intercetta la richiesta, recupera l'HTML originale dal server di origine e lo converte automaticamente in Markdown prima di trasmetterlo al client.
Per gli sviluppatori che costruiscono agenti IA con Workers, l'implementazione è semplice in TypeScript specificando gli header appropriati. La risposta include un header x-markdown-tokens che indica il numero stimato di token nel documento Markdown, permettendo agli sviluppatori di gestire meglio le loro finestre di contesto e le strategie di suddivisione del contenuto.

Cloudflare, che alimenta circa il 20% del web mondiale, ha già attivato questa opzione sul suo blog e nella documentazione per sviluppatori. Agent di coding popolari come Claude Code e OpenCode inviano già questi header di accettazione con le loro richieste di contenuto.
L'integrazione dei segnali di contenuto
Le risposte convertite da Markdown for Agents includono automaticamente l'header Content-Signal: ai-train=yes, search=yes, ai-input=yes. Questo segnale indica che il contenuto può essere utilizzato per l'addestramento dell'IA, i risultati di ricerca e l'utilizzo da parte di agenti.
Questa implementazione rientra nell'ambito dei Content Signals, un framework che Cloudflare aveva annunciato durante la sua ultima Birthday Week. Questo sistema permette a chiunque di esprimere le proprie preferenze riguardo all'utilizzo del proprio contenuto dopo l'accesso. Cloudflare prevede di offrire opzioni per definire in futuro politiche personalizzate di Content Signals.
Le preoccupazioni del mondo SEO riguardo il cloaking
Questa innovazione non fa l'unanimità nella comunità del SEO. Il principale motivo di critica riguarda il rischio di facilitare il cloaking, una pratica di black hat SEO che consiste nel servire contenuti diversi ai robot di indicizzazione e agli utenti umani.
L'header Accept: text/markdown essendo trasmesso al server di origine, diventa tecnicamente possibile per i proprietari dei siti iniettare istruzioni nascoste o dati modificati destinati solo alle IA. Questa possibilità rappresenta una potenziale breccia nei principi di trasparenza che governano il web.
Le reazioni di Google e Microsoft
I giganti della ricerca, in particolare Google e Bing, si sono rapidamente posizionati contro questa pratica. John Mueller, di Google, si chiede apertamente sulla pertinenza di questo approccio: « I LLM si sono addestrati su pagine web classiche fin dall'inizio, le hanno lette e analizzate. Sembra evidente che non abbiano alcun problema a elaborare l'HTML. Perché dovrebbero vedere una pagina che nessun utente vede? E se verificano l'equivalenza, perché non usare l'HTML? ».
Fabrice Canel, di Microsoft, adotta una posizione ancora più ferma avvertendo che Bing scansionerà comunque entrambe le versioni, HTML e Markdown, per verificarne la somiglianza. Questa dichiarazione suggerisce che i motori di ricerca potrebbero implementare meccanismi di controllo per rilevare eventuali discrepanze tra le versioni fornite ai diversi tipi di visitatori.
Disponibilità immediata in versione beta
Per attivare Markdown for Agents, i clienti devono accedere alla dashboard Cloudflare, selezionare il proprio account e la propria zona, quindi attivare il pulsante Markdown for Agents nelle Azioni rapide. La funzionalità è disponibile da oggi in versione beta senza costi aggiuntivi per i piani Pro, Business ed Enterprise, oltre che per i clienti SSL for SaaS.
Cloudflare offre anche altre modalità di conversione dei documenti in Markdown per gli sviluppatori che costruiscono sistemi IA che richiedono una conversione arbitraria di documenti al di fuori di Cloudflare. Workers AI fornisce una funzione AI.toMarkdown() che supporta diversi tipi di documenti, non solo HTML, oltre alla sintesi. L’API REST Browser Rendering /markdown permette la conversione in Markdown se è necessario renderizzare una pagina dinamica o un’app in un vero browser prima di convertirla.
Un monitoraggio degli utilizzi tramite Cloudflare Radar
Anticipando un’evoluzione nel modo in cui i sistemi IA navigano il web, Cloudflare Radar include ora delle iinformazioni sui tipi di contenuto per il traffico di bot e crawler IA. Questi dati sono disponibili globalmente nella pagina AI Insights e nelle pagine informative individuali di ogni bot.
La nuova dimensione e filtro content_type mostra la distribuzione dei tipi di contenuto restituiti agli agenti e crawler IA, raggruppati per categoria di tipo MIME. È anche possibile visualizzare le richieste per Markdown filtrate per agente o crawler specifico, come OAI-Searchbot, il crawler utilizzato da OpenAI per alimentare la ricerca di ChatGPT. Questi nuovi dati permetteranno di monitorare l’evoluzione del consumo di contenuti web da parte di bot, crawler e agenti IA nel tempo.
L'articolo "Cloudflare propone una conversione automatica da HTML a Markdown per gli agenti IA" è stato pubblicato sul sito Abondance.