Threat Intelligence
deepfake
voice cloning
BEC

Qué es un deepfake: amenazas para empresas y defensa en 2026

Qué es deepfake en empresas: BEC con voz IA, video CEO falso, casos Arup 25M$, detección biométrica y políticas anti-fraude por canal.

Secra8 de junio de 202615 min de lectura

Un deepfake es contenido sintético, vídeo, audio o imagen, generado por modelos de inteligencia artificial que imitan a una persona real con una verosimilitud creciente. La técnica nació en círculos académicos y de investigación, ha pasado por una fase de uso lúdico y desinformativo y, en 2026, se ha consolidado como una categoría propia de fraude empresarial. La diferencia con respecto a otros vectores de suplantación es que el contenido no se forja documentalmente ni se manipula a posteriori: se genera de cero con la cara, la voz o el cuerpo de la persona objetivo, en muchos casos en tiempo real durante una videollamada. Para una organización moderna, en la que las decisiones críticas se autorizan por canales remotos, esto cambia la base sobre la que se construye la confianza operativa.

Lo esencial

  • Un deepfake es contenido sintético (vídeo, audio, imagen) generado por IA que imita a personas reales con calidad creciente.
  • El caso Arup Hong Kong 2024 supuso la transferencia de unos 25 millones de dólares tras una videollamada con varios directivos falsificados.
  • Los vectores principales son fraude de CEO con voz clonada, suplantación en videollamada, bypass de KYC remoto, desinformación de marca y fraude en entrevistas de empleo.
  • La detección técnica (liveness, FakeCatcher, Pindrop) ayuda, pero no sustituye a políticas de verificación fuera de banda y aprobación multipersonal.
  • El artículo 50 del EU AI Act obliga a marcar contenido sintético y a informar al público cuando se exhibe un deepfake, con excepciones acotadas.

Estado del arte generativo en 2026

La calidad de los modelos generativos ha cruzado, en varias modalidades, el umbral en el que el humano promedio no distingue real de sintético sin ayuda técnica.

En clonación de voz, herramientas como ElevenLabs permiten generar voces personalizadas a partir de muestras cortas, del orden de pocos segundos en escenarios favorables, replicando entonación y acento con alta fidelidad. El uso legítimo abarca doblaje, accesibilidad y producción multimedia, pero el mismo motor sirve a un atacante que dispone de muestras públicas (entrevistas, conferencias, vídeos corporativos) de la persona objetivo.

En vídeo sintético, plataformas como HeyGen, Synthesia, Runway y OpenAI Sora producen avatares hablantes y secuencias completas a partir de texto, imagen o vídeo de referencia. Generar un avatar plausible de una persona concreta sincronizado con un guion arbitrario ya no requiere conocimientos técnicos profundos.

En deepfake facial en tiempo real, herramientas open source y suites comerciales reemplazan un rostro durante una videollamada con latencia baja, manteniendo expresiones del operador detrás. Los artefactos que delataban estas piezas en 2021 (parpadeos extraños, bordes inestables, iluminación inconsistente) se han reducido a niveles que solo un observador entrenado detecta con fiabilidad. A esto se suman avances en generación de imagen (Midjourney, DALL-E, Imagen, Stable Diffusion XL) que producen retratos fotorrealistas de personas inexistentes o de personas reales en contextos arbitrarios.

Casos empresariales documentados

Conviene fijarse en casos concretos sin caer en la espectacularización, porque marcan los patrones reales que están utilizando los atacantes.

El caso más citado es la filial de Arup en Hong Kong, en 2024. Un empleado del área financiera participó en una videollamada en la que aparecían varios directivos de la compañía, incluido el director financiero. Tras la reunión, autorizó una serie de transferencias por un total cercano a 25 millones de dólares. Según la investigación posterior, todos los interlocutores de la llamada eran deepfakes generados por los atacantes a partir de material público y comunicaciones previas suplantadas. La firma confirmó el incidente públicamente y se ha convertido en referencia obligatoria al hablar de fraude por deepfake en entornos corporativos.

En 2019, una empresa energética británica fue víctima de un fraude de aproximadamente 220.000 euros cuando un atacante utilizó voz sintética para suplantar al consejero delegado alemán de la matriz y ordenar una transferencia urgente al CEO de la filial en Reino Unido. El caso es uno de los primeros documentados de fraude de CEO con voz clonada y mostró que el patrón funcionaba incluso con tecnología de clonación notablemente más limitada que la actual.

En 2024, un intento de fraude contra Ferrari fue detectado por un directivo que, durante una llamada en la que su interlocutor utilizaba voz sintetizada del CEO, formuló una pregunta personal cuya respuesta el atacante no podía conocer. El intento se abortó. Este caso es relevante porque muestra que las verificaciones humanas de bajo coste, bien insertadas en el flujo, pueden interrumpir un ataque que la tecnología sola no detecta.

A estos ejemplos se suman variantes recurrentes de BEC (Business Email Compromise) potenciadas con audio: el atacante combina correo suplantado con una llamada de seguimiento en la que la voz clonada del directivo refuerza la urgencia. La combinación resulta significativamente más efectiva que el BEC clásico solo por correo.

Tipos de ataque empresarial

Los vectores que aprovechan deepfake en entornos corporativos se agrupan en familias relativamente estables.

  • Fraude de CEO con voz clonada (vishing potenciado). El atacante llama a una persona con capacidad de autorización financiera o administrativa, suplantando a un directivo, y solicita una operación urgente bajo pretexto de confidencialidad. La voz clonada elimina la fricción habitual de un correo sospechoso.
  • Suplantación en videoconferencia. Reuniones de Zoom, Teams o Meet en las que uno o varios participantes son deepfakes en tiempo real. El caso Arup encaja en esta categoría. La autoridad visual de ver varios rostros conocidos refuerza la presión sobre la víctima.
  • Bypass de verificación de identidad remota (KYC). Entidades financieras, fintech y plataformas de criptoactivos verifican identidad mediante captura facial y prueba de vida. Atacantes utilizan deepfakes y herramientas de inyección de vídeo para superar pruebas que dependen únicamente de un selfie o de un vídeo grabado.
  • Desinformación dirigida contra marca o directivo. Vídeos y audios fabricados en los que un CEO anuncia decisiones falsas (inversión en activos especulativos, declaraciones polémicas) o en los que una marca aparece asociada a productos o conductas inventadas. El daño reputacional opera incluso si el deepfake se desmiente en horas.
  • Fraude en procesos de contratación. Candidatos que se entrevistan por videollamada utilizando deepfake para enmascarar a un operador real distinto del que aparece en el currículum, con motivaciones que van desde encubrir falta de competencias hasta operaciones de infiltración por actores estatales o grupos de ransomware. Hay casos públicos asociados a operadores norcoreanos.
  • Extorsión con contenido sintético. Generación de imágenes o vídeos comprometedores falsos para presionar a directivos o empleados, con derivadas sexualizadas (sextorsión sintética) que han crecido como categoría específica.

Por qué las empresas son objetivo natural

Varios factores convergen para hacer del entorno empresarial un objetivo prioritario.

Las decisiones críticas se canalizan a través de autoridad jerárquica y urgencia. El reflejo profesional de obedecer una instrucción directa de un superior bajo presión temporal es la palanca que un deepfake bien construido explota.

La operativa remota y distribuida es ya estándar. Videollamadas, contrataciones íntegramente remotas, firmas digitales y autorizaciones por canales electrónicos forman parte del día a día. El espacio físico, que actuaba como filtro de confianza implícito, ha desaparecido en buena parte de los flujos.

El KYC remoto se ha generalizado en banca, seguros, telecomunicaciones y servicios públicos. Cada uno de estos procesos es un punto donde un deepfake puede intentar abrir una cuenta o capturar un beneficio económico.

Las operaciones de M&A y negociaciones confidenciales son terreno especialmente sensible: información asimétrica, prisas y gran impacto económico amplifican el valor potencial de una suplantación exitosa. A esto se suma el material público abundante de la mayoría de directivos (entrevistas, conferencias, vídeos corporativos): cuanto mayor es la exposición pública, más fácil es entrenar modelos sobre su voz y su rostro.

Detección técnica

El panorama de herramientas de detección ha madurado, pero ninguna ofrece garantía absoluta.

En liveness biométrica, las soluciones modernas combinan análisis de movimiento, retos activos (girar la cabeza, parpadear bajo demanda), análisis de profundidad y detección de inyección de vídeo. Vendors como iProov, Onfido, Veriff e Incode aplican capas de detección pasiva (sin requerir acción del usuario) y activa (con prueba explícita) que elevan significativamente la barrera frente a deepfakes simples.

En análisis de vídeo, herramientas como Intel FakeCatcher se basan en señales fisiológicas, como el pulso detectable en cambios sutiles de coloración de la piel (PPG remoto), que los modelos generativos típicamente no reproducen. Microsoft Video Authenticator, Sensity, Deepware Scanner y Reality Defender ofrecen análisis basado en aprendizaje automático sobre artefactos típicos de generación.

En audio, Pindrop, Pindrop Pulse y Reality Defender Voice analizan características acústicas y patrones que distinguen voz natural de voz sintetizada. Su precisión depende del modelo generador y se degrada cuando el atacante introduce ruido, compresión o post-procesado.

Para análisis forense post-incidente, los equipos especializados aplican análisis de frecuencias, búsqueda de artefactos de compresión, comparación con bases de muestras conocidas y verificación de metadatos cuando existen. El forense aporta evidencia útil en investigación, pero no resuelve la detección en tiempo real.

Conviene tener una expectativa honesta: las tasas de falso positivo y falso negativo siguen siendo significativas, especialmente frente a modelos recientes y atacantes que aplican post-procesado para enmascarar.

Detección humana: señales de alerta

Más allá de las herramientas técnicas, hay un conjunto de señales que un equipo entrenado puede identificar y que han demostrado ser efectivas en casos reales.

  • Urgencia inusual combinada con instrucciones de saltarse el procedimiento habitual. La presión temporal artificial es el rasgo más constante en fraudes basados en suplantación.
  • Mismatch de canal: una petición que normalmente llega por correo aparece por voz, o al revés. Si un CEO nunca llama para ordenar transferencias y de pronto lo hace, la anomalía pesa más que la autoridad aparente.
  • Inconsistencias en detalles personales que el atacante no podría conocer: referencias a conversaciones recientes, datos familiares, anécdotas internas. La pregunta de Ferrari es el ejemplo arquetípico.
  • Pequeños desajustes en vídeo: sincronización labial imperfecta, iluminación que no varía como cabría esperar con el movimiento, parpadeo irregular, bordes inestables alrededor del rostro al girar la cabeza.
  • Pequeños desajustes en audio: respiración ausente o regular en exceso, transiciones bruscas entre frases, prosodia ligeramente artificial bajo emoción.
  • Negativa a verificación adicional. Un interlocutor legítimo aceptará casi siempre una llamada de devolución o una verificación por segundo canal. Un atacante intentará desactivar esa verificación con argumentos de urgencia o confidencialidad.

Entrenar a los equipos en estas señales no garantiza detección, pero combinada con políticas estructurales reduce significativamente la probabilidad de éxito de un ataque.

Defensas organizacionales

La defensa eficaz no descansa en intentar detectar cada deepfake sino en cambiar los procesos para que la simple verosimilitud visual o auditiva deje de ser suficiente para autorizar una decisión crítica.

  • Verificación fuera de banda obligatoria para operaciones por encima de umbrales definidos. Una transferencia superior a un importe acordado requiere callback a un número conocido y registrado, no al número desde el que llegó la petición. La política se documenta y se hace explícita a los firmantes autorizados.
  • Palabras clave preacordadas entre directivos para conversaciones sensibles. Una palabra o frase acordada en privado, rotada periódicamente, que el interlocutor legítimo conoce y un atacante razonable no.
  • Aprobación multipersonal con dos o más firmas para operaciones financieras relevantes. El segundo aprobador opera con visibilidad completa y autoridad para detener la operación sin penalización.
  • Programa de concienciación específico para deepfake. Más allá del phishing clásico, formaciones con ejemplos reales y simulacros que incluyan vídeo y voz sintética para que el equipo experimente la verosimilitud del fenómeno.
  • Liveness biométrica robusta en KYC, con detección de inyección de vídeo y combinación de pruebas activas y pasivas. Selección de proveedor con benchmarks públicos y revisión periódica.
  • Monitorización de marca y directivos mediante servicios como Sensity, BrandBastion o equivalentes, para detectar circulación de deepfakes que mencionen a la compañía o a personas clave, especialmente en periodos sensibles (resultados, IPO, anuncios estratégicos).
  • Política de información pública moderada para directivos con mayor exposición a riesgo, equilibrando comunicación corporativa legítima con conciencia de que cada minuto de audio y vídeo público es materia prima para entrenamiento.

EU AI Act, artículo 50

El reglamento europeo de inteligencia artificial introduce obligaciones específicas relevantes en este ámbito. El artículo 50 distingue dos planos.

El primero es transparencia hacia el usuario cuando interactúa con una IA: chatbots, asistentes de voz y similares deben informar de su naturaleza, salvo excepciones acotadas (sistemas autorizados por ley para investigación o detección, por ejemplo). Esta obligación recae sobre el deployer del sistema.

El segundo es marcado de contenido sintético. Los proveedores de sistemas de IA generativa deben asegurar que la salida sea marcable como sintética en formato legible por máquina y, cuando sea técnicamente posible, detectable. Los deployers que generan deep fakes y los exhiben al público deben informar de su naturaleza, con excepciones acotadas para uso artístico claramente identificado y para casos autorizados legalmente.

La definición y los detalles técnicos se concretan vía actos de ejecución y estándares armonizados, donde iniciativas como C2PA y SynthID son referencias naturales. La supervisión la coordina la EU AI Office, junto con las autoridades nacionales designadas por cada Estado miembro. El régimen sancionador del AI Act prevé multas en porcentajes del volumen de negocio mundial anual, escalables según el tipo de incumplimiento.

Para una empresa europea, la implicación práctica es doble: revisar cualquier producto propio que utilice IA generativa para asegurar marcado y disclosure correctos, y considerar estos elementos en la diligencia debida sobre proveedores de IA cuyas salidas se incorporan a flujos corporativos.

Impacto por sector

El patrón general se manifiesta con peculiaridades por industria.

En servicios financieros, el vector dominante es el fraude por transferencia, ya sea por suplantación de directivo o por bypass de KYC en alta de cuentas. La presión regulatoria sobre liveness biométrica y autenticación reforzada ha crecido de manera significativa.

En sector legal, han aparecido testimonios sintéticos en grabaciones presentadas como evidencia y vídeos atribuidos a partes que no los emitieron. La cadena de custodia digital se ha vuelto pieza central de la diligencia procesal.

En medios y comunicación, el reto es la circulación viral de deepfakes en periodos sensibles (procesos electorales, crisis corporativas) y la necesidad de verificación previa a publicación. La adopción de C2PA en redacciones grandes responde a esta presión.

En entretenimiento y sector público, el fraude alrededor de talento, la generación no autorizada de contenido con imagen de personas reconocibles y la suplantación de autoridades en comunicaciones oficiales han impulsado litigios, demandas de regulación específica y pilotos de firma criptográfica de comunicaciones institucionales.

Preguntas frecuentes

¿Es realista pensar que mi empresa puede ser objetivo de un deepfake?

Si la organización maneja transferencias significativas, opera con clientes remotos, contrata personal en formato totalmente remoto o tiene directivos con presencia pública moderada, el riesgo existe y ha sido explotado en compañías de tamaños y sectores muy diversos. El coste técnico para el atacante ha bajado lo suficiente como para no exigir ya un objetivo de primer nivel.

¿La política de callback no resulta molesta para los directivos?

Bien diseñada, no. El callback solo se aplica por encima de umbrales acordados y se ejecuta sobre números preestablecidos, lo que añade segundos a un proceso que ya consume minutos. La alternativa, autorizar una transferencia millonaria sin verificación, es desproporcionada en cualquier comparación razonable. Los directivos serios entienden y apoyan la política.

¿La detección técnica de deepfakes funciona al 100%?

No. Las mejores herramientas alcanzan tasas de acierto altas en condiciones controladas con modelos conocidos, pero la precisión se degrada con modelos recientes, post-procesado adversarial y compresión agresiva. La detección debe tratarse como capa adicional, nunca como prueba definitiva.

¿Las multas del EU AI Act se aplican de verdad?

El reglamento ya está en aplicación progresiva, con la entrada plena de varios bloques en 2026, y prevé multas en porcentajes del volumen de negocio mundial anual escaladas por tipo de incumplimiento. La supervisión se reparte entre la EU AI Office y las autoridades nacionales designadas, con casos pioneros previstos en los próximos ciclos.

¿Es cierto que con tres segundos de audio se puede clonar una voz?

Las herramientas más avanzadas anuncian clonación con muestras muy cortas y obtienen resultados aceptables en demostraciones controladas. La calidad real depende del contenido y mejora con más material. Para un atacante motivado, conseguir minutos de voz limpia de un directivo público es habitualmente trivial. La barrera práctica es ya muy baja.

¿Mi seguro cubre el fraude por deepfake?

Las pólizas de ciber y de fraude electrónico están actualizándose para clarificar la cobertura de incidentes basados en suplantación por IA. Algunas exclusiones tradicionales (instrucciones aparentemente autorizadas, errores internos) podrían dejar fuera incidentes de este tipo si no se revisa el texto. Conviene revisar la póliza con el corredor y conservar evidencia de la formación impartida.

Recursos relacionados

Preparación anti-deepfake con Secra

En Secra ayudamos a organizaciones a evaluar su exposición a fraude por deepfake y a diseñar el conjunto de medidas que reducen el riesgo a niveles asumibles: políticas de verificación fuera de banda calibradas por importe y operación, programas de concienciación con simulacros específicos de voz y vídeo sintético, revisión de proveedores de KYC y liveness, despliegue de monitorización de marca para detección temprana y encaje con el artículo 50 del EU AI Act. Trabajamos desde la perspectiva de incidentes reales documentados, no de escenarios hipotéticos.

Solicita una evaluación inicial y planifica con nosotros la estrategia anti-deepfake adaptada a tu organización.

Sobre el autor

Equipo de Secra Solutions

Ethical hackers certificados OSCP, OSEP, OSWE, CRTO, CRTL y CARTE, con más de 7 años de experiencia en ciberseguridad ofensiva. Autores de los CVE-2025-40652 y CVE-2023-3512.

Compartir artículo