AI watermarking y provenance: detección de contenido generado por IA

El AI watermarking agrupa el conjunto de técnicas que permiten marcar contenido generado por inteligencia artificial (texto, imagen, audio, vídeo) y verificar después su origen con cierto grado de confianza. La disciplina ha pasado de tema académico minoritario a requisito operativo en 2026, empujada por tres fuerzas convergentes: la madurez de los modelos generativos que producen contenido casi indistinguible del humano, la expansión del fraude basado en deepfakes contra empresas y procesos electorales, y la entrada en aplicación del artículo 50 del EU AI Act, que introduce obligaciones explícitas de marcado e información para proveedores y deployers de sistemas de IA generativa. Para una organización que produce o consume contenido digital en flujos críticos, entender qué se puede marcar, con qué garantías y dónde están los límites se ha vuelto una cuestión de gobernanza, no solo técnica.

Lo esencial

El AI watermarking marca contenido generado por IA con señales recuperables que permiten verificar origen y manipulación.

Los estándares principales en 2026 son C2PA (firma criptográfica de metadatos) y SynthID de Google (perturbaciones imperceptibles en píxeles, audio y tokens de texto).

El EU AI Act art. 50 obliga a marcar output de IA generativa e informar a usuarios cuando interactúan con chatbots o ven contenido sintético.

Las técnicas de remoción son triviales en muchos casos (recompresión, paráfrasis, recorte), por lo que el watermarking no resuelve el problema de confianza por sí solo.

La estrategia razonable combina marcado preventivo, detección forense por IA, cadenas de custodia y políticas internas claras sobre uso de contenido sintético.

Por qué el watermarking de IA importa en 2026

Tres fenómenos han desplazado el watermarking desde la curiosidad académica hacia la obligación operativa.

El primero es el fraude basado en deepfakes. Las transferencias autorizadas por videollamadas falsificadas, las suplantaciones de voz de directivos y las campañas de desinformación con imágenes y audios sintéticos han pasado de excepciones llamativas a patrones recurrentes documentados por equipos de respuesta a incidentes. Cuando un atacante puede producir un vídeo verosímil de un CFO ordenando una operación, la defensa estructural pasa por verificar autenticidad del contenido en origen, no solo de la identidad de quien lo envía.

El segundo es la integridad informativa y electoral. En 2024 y 2025 se documentaron ciclos electorales con incidentes de audio sintético y deepfakes que circularon durante horas o días antes de ser desmentidos. La preocupación regulatoria ha llevado a coaliciones de empresas y gobiernos a acelerar la adopción de credenciales de contenido y marcado obligatorio en ámbitos sensibles.

El tercero es la autenticidad de marca y propiedad intelectual. Empresas con identidad visual fuerte, agencias de prensa y plataformas de comercio electrónico necesitan distinguir contenido propio firmado de imágenes generadas por terceros que imitan su estética. Sin watermarking ni firma criptográfica, una imagen virilizada con la estética de la marca es indistinguible de una pieza oficial.

A esto se suma el encaje regulatorio. El EU AI Act, en su artículo 50, establece obligaciones específicas: los proveedores de sistemas de IA generativa deben asegurar que la salida sea marcable como sintética y los deployers que muestran contenido generado por IA a usuarios deben informar de su naturaleza.

Estándares principales en 2026

El ecosistema converge alrededor de dos enfoques complementarios.

C2PA (Coalition for Content Provenance and Authenticity) es una iniciativa abierta liderada inicialmente por Adobe, Microsoft, BBC, Intel y otras organizaciones, a la que se han sumado OpenAI, Google, Meta y un número creciente de fabricantes de cámaras y plataformas. Su modelo se basa en metadatos firmados criptográficamente que viajan con el archivo: cada actor en la cadena añade una atestación firmada con su clave, formando un historial verificable. C2PA no detecta manipulaciones por sí mismo: detecta ausencia o rotura de la cadena de credenciales.

Content Credentials es la marca comercial bajo la que Adobe y socios despliegan C2PA en herramientas de usuario final (Photoshop, Firefly, cámaras Leica y Sony, plataformas como LinkedIn).

Google SynthID es el sistema de marcado propio de Google, presentado en 2023 para imágenes generadas con Imagen y extendido a audio (Lyria), vídeo y texto generado por modelos Gemini. Introduce perturbaciones imperceptibles en píxeles, espectro de audio o distribución estadística de tokens, recuperables por un detector entrenado. A diferencia de C2PA, no requiere metadatos: el watermark vive en la propia señal.

IPTC Photo Metadata es el estándar histórico de prensa para metadatos descriptivos en imágenes. Ha incorporado campos específicos para indicar origen sintético o asistido por IA, complementario a C2PA en flujos editoriales.

Existen además experimentos de OpenAI, Anthropic y Meta con watermarking estadístico para texto, sin despliegue masivo aún en producción.

Técnicas técnicas por tipo de contenido

Cada modalidad de contenido tiene físicas distintas y tolera técnicas distintas.

Watermarks estadísticos en texto LLM

La técnica más estudiada modifica ligeramente la distribución de probabilidad sobre el vocabulario antes del muestreo. Los tokens se dividen pseudoaleatoriamente en "verde" y "rojo" según una semilla derivada del contexto, y el modelo se sesga para preferir tokens verdes. Un detector con la misma semilla cuenta la proporción de verdes en un texto sospechoso y, si supera el umbral esperado por azar, declara origen sintético con cierto p-value. Funciona razonablemente en textos largos y limpios, pero degrada con paráfrasis fuerte, traducción y edición humana significativa.

Perturbación a nivel de píxel en imagen

SynthID y técnicas equivalentes incorporan en la imagen un patrón de baja amplitud distribuido por el espectro de frecuencias. No es visible al ojo y sobrevive a recompresión JPEG moderada, redimensionado y recorte parcial. Un detector entrenado lo recupera con probabilidad estadística, no determinista, lo que se traduce en respuestas con grado de confianza.

Watermarks espectrales en audio

En audio sintético, las técnicas modulan componentes inaudibles del espectro o introducen patrones psicoacústicos imperceptibles. SynthID Audio, AudioSeal de Meta y otras propuestas usan variantes de esta idea. La robustez frente a re-encoding (paso a MP3 con bitrate bajo, conversión analógica y recaptura) es limitada y depende del diseño concreto.

Firma criptográfica de metadatos

C2PA no toca la señal del contenido. Calcula un hash de la imagen, audio o vídeo, lo combina con metadatos descriptivos (autor, herramienta, fecha, transformaciones aplicadas) y firma el bloque con un certificado X.509 emitido por una autoridad de confianza. La cadena se incrusta en el archivo (XMP en imágenes, contenedores específicos en vídeo y audio). Cualquier modificación posterior rompe la firma a menos que el editor añada su propia atestación, preservando la trazabilidad.

Robustez frente a ataques de remoción

Ningún watermarking actual es robusto contra un adversario motivado y técnicamente competente.

En texto, paráfrasis con otro modelo, reordenación de frases o edición humana ligera reducen la señal estadística hasta hacerla indetectable. Traducir el texto a otro idioma y volverlo a traducir suele bastar.

En imagen, la recompresión a JPEG con calidad baja, el rescalado agresivo, el recorte significativo y la regeneración con modelos image-to-image degradan el watermark. Una imagen pasada por un segundo modelo generativo pierde habitualmente las marcas del primero.

En audio y vídeo, la recaptura (reproducir el contenido y grabarlo con micrófono o cámara), la transcodificación entre formatos y el procesamiento creativo eliminan o degradan severamente los watermarks. Las técnicas perceptuales tienen mejor robustez que las puramente esteganográficas, pero el techo sigue siendo bajo frente a un atacante decidido.

La firma criptográfica C2PA es robusta en su núcleo (la firma no se puede falsificar sin la clave privada), pero es trivial de eliminar: basta con stripping de metadatos o re-encoding en una plataforma que no preserve la cadena. Su valor consiste en demostrar autenticidad cuando la cadena está presente, no en garantizar detección cuando alguien la elimina deliberadamente.

La conclusión honesta es que el watermarking actual reduce el fraude oportunista y la confusión accidental, no detiene a un actor con objetivos claros.

Detección sin watermark: análisis forense

Cuando el contenido no llega marcado, queda la vía forense: análisis del propio archivo en busca de indicios de generación sintética.

En imagen, los detectores buscan anomalías de textura (patrones repetitivos en piel, ojos, fondos), inconsistencias geométricas (perspectivas, sombras, reflejos no coherentes), artefactos en frecuencias específicas que los modelos generativos tienden a introducir y firmas estadísticas del muestreo. Herramientas como Hive Moderation, Deepware Scanner y la línea de Intel FakeCatcher (análisis de señales fisiológicas como pulso visible en píxeles) ofrecen detección probabilística.

En vídeo, se añade el análisis temporal: parpadeos no naturales, sincronización labial imperfecta, micromovimientos faciales ausentes o inconsistentes entre fotogramas. El reto operativo es la latencia: un análisis profundo de un vídeo largo no es viable en tiempo real para moderación masiva.

En audio, los detectores buscan artefactos espectrales típicos de síntesis neuronal, falta de microvariaciones de voz humana real y desajustes en respiración o pausas. La precisión varía según familia de modelo y degrada cuando el atacante usa post-procesado para enmascarar.

En texto, la detección por IA tiene tasa de falsos positivos y negativos significativa. Herramientas comerciales fallan tanto al clasificar como sintético texto humano editado como al pasar por humano texto generado por modelos recientes con prompt cuidado. Académicamente se considera un problema no resuelto en el caso general.

EU AI Act artículo 50: obligaciones reales

El artículo 50 introduce dos obligaciones diferenciadas que conviene leer con cuidado.

La primera es de transparencia hacia el usuario. Cuando un sistema de IA interactúa con personas físicas (chatbots, asistentes de voz), el deployer debe asegurar que esas personas sepan que están interactuando con una IA, salvo excepciones acotadas (sistemas autorizados por ley para detección, investigación, etc.). Es una obligación de información explícita, con independencia del watermarking técnico.

La segunda es de marcado de contenido sintético. Los proveedores de sistemas de IA generativa deben asegurar que los outputs (texto, imagen, audio, vídeo) sean marcables como artificialmente generados o manipulados en formato legible por máquina y, cuando sea técnicamente posible, detectable. Los deployers que generen deep fakes deben informar al público, con excepciones para uso artístico claramente identificado y casos autorizados legalmente.

Las definiciones técnicas precisas se concretan vía actos de ejecución y estándares armonizados, en los que C2PA y propuestas equivalentes son referencias naturales. Para los modelos de propósito general con riesgo sistémico, el AI Act añade obligaciones más amplias de gestión de riesgo, evaluación adversarial y reporting.

Las sanciones pueden alcanzar porcentajes significativos del volumen de negocio mundial anual del operador, en función del tipo de incumplimiento.

Implementación en empresa: dónde aplica realmente

Más allá del cumplimiento, hay tres familias de casos en los que el watermarking aporta valor operativo concreto.

Contenido corporativo de marca. Imágenes, vídeos y materiales generados por equipos internos o agencias se firman con C2PA al exportar, incorporando autor, herramienta y, si aplica, indicación de uso de IA generativa en alguna fase. La cadena de credenciales viaja con el archivo y permite a socios, clientes y plataformas verificar autenticidad.

Chatbots y asistentes de atención al cliente. La obligación de transparencia del artículo 50 se materializa con disclosure explícito en la primera interacción y marcado de transcripciones cuando se entregan a usuarios o autoridades.

Marketing assets, contenido editorial y comunicaciones oficiales. Las imágenes generadas con modelos como Imagen, DALL-E o Midjourney pueden marcarse en origen vía SynthID donde el proveedor lo soporta, y firmarse adicionalmente con C2PA al integrarse en la cadena editorial.

En todos los casos, la implementación implica decisiones de proceso: política interna sobre cuándo y cómo usar IA generativa, formación del equipo en disclosure correcto, configuración de herramientas para preservar cadenas C2PA al exportar y verificación periódica de que los flujos no pierden metadatos por reencoding agresivo.

Casos de uso defensivos

Protección de marca. Empresas con identidad visual reconocible utilizan SynthID y detectores forenses para identificar contenido externo que imita su estética o combina su logo con materiales sintéticos. La detección no es perfecta, pero acelera respuesta y permite priorizar takedown.

Verificación de noticias y prensa. Agencias como AFP, BBC y otras redacciones que han adoptado C2PA en sus flujos pueden firmar contenido propio y verificar credenciales en material de terceros antes de publicar.

Cadena de custodia legal. En investigaciones internas y procedimientos judiciales, la firma C2PA aplicada al recoger evidencia (capturas, vídeos, fotografías) refuerza la trazabilidad. No sustituye a procedimientos formales de evidencia digital, pero añade una capa de verificabilidad.

Monitorización electoral y comunicación institucional. Gobiernos y observadores monitorizan circulación de deepfakes en periodos sensibles y firman comunicaciones oficiales con credenciales verificables, de modo que la ausencia de firma en una pieza atribuida a una institución es ya indicio de manipulación.

Limitaciones honestas que conviene asumir

El watermarking actual no es robusto contra un adversario motivado. Las técnicas de remoción son trivialmente accesibles y un atacante con intención puede neutralizar las marcas con herramientas públicas. Pretender lo contrario lleva a decisiones erróneas de gobernanza.

El watermarking no resuelve el problema de confianza fundamental. Aunque un detector confirme que una imagen no contiene watermark conocido, eso no implica que sea auténtica: puede haber sido generada con un modelo sin watermarking, capturada con cámara real o tener marcas removidas. La ausencia de marca no es prueba de autenticidad humana.

El watermarking en texto funciona mal en el caso general. La pérdida de señal con paráfrasis y la dificultad de aplicar marcado sin degradar calidad lo mantiene en estado experimental. Las APIs comerciales de los principales proveedores no marcan texto por defecto en 2026.

La interoperabilidad entre estándares sigue limitada. No todas las plataformas y CDN preservan metadatos en sus pipelines. Imágenes publicadas en redes sociales pierden frecuentemente sus credenciales.

Una estrategia razonable combina marcado preventivo donde aporte valor, detección forense complementaria, políticas internas claras sobre uso de IA generativa y procesos de verificación fuera de banda para decisiones críticas (confirmación por canal independiente antes de transferencias, autorizaciones por palabra clave acordada).

Preguntas frecuentes

¿SynthID es efectivo al 100%?

No. Ofrece detección probabilística sobre contenido generado con modelos de Google que lo aplican. No detecta contenido producido con otros modelos, su robustez se degrada con transformaciones agresivas y un atacante puede neutralizarlo con procesamiento adicional. Es útil como capa adicional, no como prueba forense definitiva.

¿C2PA está adoptado de verdad?

La adopción crece pero es desigual. Adobe, Microsoft, Google, Meta, OpenAI, BBC, Leica, Sony y un número creciente de plataformas y fabricantes lo integran. Muchas redes sociales y CDN no preservan los metadatos en sus pipelines, por lo que la cadena se pierde con frecuencia al publicar. Es razonable esperar mayor cobertura efectiva en los próximos años.

¿Mi chatbot necesita watermark por ley?

El artículo 50 del EU AI Act exige informar al usuario de que está interactuando con una IA, salvo excepciones. El marcado técnico aplica más a contenido sintético (imágenes, audio, vídeo, texto extenso) que a la conversación interactiva en sí. Para chatbots, lo crítico es el disclosure explícito y el registro de la naturaleza sintética cuando se exporta o entrega a terceros.

¿La detección de deepfakes es viable hoy?

Existen herramientas con precisión razonable en escenarios controlados y con modelos generadores conocidos. No es solución infalible: la tasa de error sigue siendo significativa, especialmente cuando el atacante usa modelos recientes y post-procesado. Conviene tratarla como señal probabilística, no como prueba.

¿El watermarking en texto LLM funciona en producción?

En estado actual, no de forma general. Los esquemas estadísticos publicados degradan con paráfrasis y edición humana. Ningún proveedor mayoritario aplica watermarking por defecto en su API de texto en 2026.

¿Qué multa hay por incumplir el EU AI Act art. 50?

El régimen sancionador del AI Act contempla multas en porcentajes del volumen de negocio mundial anual, escalables según el tipo de incumplimiento. Las cifras exactas se publican en el propio reglamento y se aplican junto con sanciones nacionales complementarias previstas por cada Estado miembro.

Recursos relacionados

Estrategia de content provenance con Secra

En Secra ayudamos a organizaciones a diseñar e implantar estrategias de content provenance que combinan marcado preventivo (C2PA en flujos editoriales y de marca, SynthID donde el proveedor lo permite), detección forense para contenido externo y procesos internos de verificación adaptados a sectores con exposición a fraude por deepfake (banca, seguros, medios, sector público). Cubrimos el encaje con el artículo 50 del EU AI Act y la integración con políticas de IA generativa corporativas.

Si su organización está definiendo gobernanza de IA generativa o necesita una evaluación de exposición a fraude por contenido sintético, puede contactarnos en secra.es/contacto para una conversación inicial y definir alcance.

Sobre el autor

Equipo de Secra Solutions

Ethical hackers certificados OSCP, OSEP, OSWE, CRTO, CRTL y CARTE, con más de 7 años de experiencia en ciberseguridad ofensiva. Autores de los CVE-2025-40652 y CVE-2023-3512.

Conoce al equipo →Nuestra investigación →

Compartir artículo