Blog IA y SEO

Cloudflare ofrece una conversión automática de HTML a Markdown para los agentes de IA

Cloudflare lanza una funcionalidad que transforma automáticamente las páginas web a Markdown para los agentes de inteligencia artificial. Esta innovación llamada «Markdown for Agents» promete reducir drásticamente el consumo de tokens, pero plantea cuestiones delicadas sobre las prácticas de posicionamiento orgánico y la transparencia del contenido web.

Puntos clave:

  • La conversión automática de HTML a Markdown reduce el consumo de tokens en un 80 %, pasando por ejemplo de 16.180 a 3.150 tokens para un artículo de blog
  • La funcionalidad funciona mediante la cabecera Accept: text/markdown y está disponible en versión beta para los clientes Pro, Business y Enterprise de Cloudflare
  • Google y Microsoft expresan sus reservas, temiendo que esta tecnología facilite el cloaking, una práctica que consiste en mostrar un contenido distinto a los robots y a los usuarios humanos

Un problema de peso en la ingestión de contenido por las IA

Los sistemas de inteligencia artificial se enfrentan a un gran desafío cuando rastrean la web: El HTML es pesado, abarrotado de elementos superfluos para una máquina. Barras de navegación, scripts analíticos, etiquetas CSS, pies de página repletos de docenas de enlaces… tantos elementos que lastran las páginas sin aportar valor semántico a los agentes de IA.

Cloudflare ilustra este problema con una metáfora « Proporcionar código HTML bruto a una IA equivale a pagar por palabra para leer un envoltorio en lugar del texto que contiene ». Concretamente, una simple etiqueta ## About Us en Markdown cuesta alrededor de 3 tokens, mientras que su equivalente HTML <h2 class="section-title" id="about">About Us</h2> quema entre 12 y 15, sin contar las etiquetas <div>, las barras de navegación y los scripts que no tienen ningún valor semántico.

El Markdown se ha convertido rápidamente en el lenguaje de los agentes de IA gracias a su estructura explícita, que facilita el procesamiento automático al tiempo que minimiza el desperdicio de tokens.

Un mecanismo de conversión en tiempo real

El funcionamiento de Markdown for Agents se basa en la negociación de contenido HTTP. Cuando un agente de IA envía una solicitud con el encabezado Accept: text/markdown, Cloudflare intercepta la petición, recupera el HTML original desde el servidor de origen y luego lo convierte automáticamente a Markdown antes de transmitirlo al cliente.

Para los desarrolladores que construyen agentes de IA con Workers, la implementación se hace simplemente en TypeScript especificando los encabezados apropiados. La respuesta incluye un encabezado x-markdown-tokens que indica el número estimado de tokens en el documento Markdown, lo que permite a los desarrolladores gestionar mejor sus ventanas de contexto y sus estrategias de corte de contenido.

Cloudflare, que alimenta aproximadamente el 20 % de la web mundial, ya ha activado esta opción en su blog y en su documentación para desarrolladores. Agentes de codificación populares como Claude Code y OpenCode ya envían estos encabezados de aceptación con sus solicitudes de contenido.

La integración de las señales de contenido

Las respuestas convertidas por Markdown for Agents incluyen automáticamente el encabezado Content-Signal: ai-train=yes, search=yes, ai-input=yes. Esta señal indica que el contenido puede ser utilizado para el entrenamiento de la IA, los resultados de búsqueda y el uso por agentes.

Esta implementación se enmarca en el contexto de los Señal de contenidos, un framework que Cloudflare había anunciado durante su última Birthday Week. Este sistema permite a cualquiera expresar sus preferencias respecto al uso de su contenido después de su acceso. Cloudflare prevé ofrecer opciones para definir políticas personalizadas de Content Signals en el futuro.

Las preocupaciones del mundo SEO sobre el cloaking

Esta innovación no genera unanimidad en la comunidad de posicionamiento orgánico. La principal queja concierne el riesgo de facilitar el cloaking, una práctica de SEO black hat que consiste en ofrecer contenido diferente a los robots de indexación y a los usuarios humanos.

Al transmitirse la cabecera Accept: text/markdown al servidor de origen, se vuelve técnicamente posible para los propietarios de sitios inyectar instrucciones ocultas o datos modificados destinados únicamente a las IA. Esta posibilidad representa una brecha potencial en los principios de transparencia que rigen la web.

Las reacciones de Google y Microsoft

Los gigantes de la búsqueda, en particular Google y Bing, han tomado rápidamente una posición en contra de esta práctica. John Mueller, de Google, se pregunta abiertamente sobre la pertinencia de este enfoque: « Los LLM se han entrenado en páginas web clásicas desde el principio, las han leído y analizado. Parece evidente que no tienen ningún problema en procesar HTML. ¿Por qué querrían ver una página que ningún usuario ve? Y si verifican la equivalencia, ¿por qué no usar el HTML? ».

Fabrice Canel, de Microsoft, adopta una postura aún más firme al advertir que Bing rastreará de todas formas ambas versiones, HTML y Markdown, para verificar su similitud. Esta declaración sugiere que los motores de búsqueda podrían establecer mecanismos de control para detectar posibles discrepancias entre las versiones servidas a los distintos tipos de visitantes.

Disponibilidad inmediata en versión beta

Para activar Markdown for Agents, los clientes deben acceder al panel de Cloudflare, seleccionar su cuenta y su zona, y luego activar el botón Markdown for Agents en Quick Actions. La funcionalidad está disponible desde hoy en versión beta sin coste adicional para los planes Pro, Business y Enterprise, así como para los clientes de SSL for SaaS.

Cloudflare también ofrece otros métodos para convertir documentos a Markdown para los desarrolladores que construyen sistemas de IA que requieren una conversión arbitraria de documentos fuera de Cloudflare. Workers AI ofrece una función AI.toMarkdown() que soporta varios tipos de documentos, no solo HTML, así como la sintetización. La API REST Browser Rendering /markdown permite la conversión a Markdown si necesita renderizar una página dinámica o una aplicación en un navegador real antes de convertirla.

Un seguimiento de los usos a través de Cloudflare Radar

Anticipando una evolución en la forma en que los sistemas de IA navegan por la web, Cloudflare Radar ahora incluye unos iInformación sobre los tipos de contenido para el tráfico de bots y crawlers de IA. Estos datos están disponibles globalmente en la página AI Insights y en las páginas de información individuales de cada bot.

La nueva dimensión y filtro content_type muestra la distribución de los tipos de contenido devueltos a los agentes y crawlers de IA, agrupados por categoría de tipo MIME. También es posible visualizar las solicitudes para Markdown filtradas por agente o crawler específico, como OAI-Searchbot, el crawler utilizado por OpenAI para alimentar la búsqueda de ChatGPT. Estos nuevos datos permitirán seguir la evolución del consumo de contenido web por parte de los bots, crawlers y agentes de IA a lo largo del tiempo.

El artículo «Cloudflare ofrece una conversión automática de HTML a Markdown para los agentes de IA» fue publicado en el sitio Abondance.