Qué es vishing: ataques por voz contra empresas en 2026

El vishing, contracción de voice phishing, es el engaño telefónico utilizado para obtener credenciales, autorizaciones operativas o cualquier acción que el atacante no podría conseguir por canales más auditables. Lo que en los años 2000 era una variante minoritaria del phishing por correo, asociada al fraude bancario, ha vuelto al primer plano de las amenazas empresariales entre 2023 y 2026. El teléfono ha demostrado ser el canal con menos fricción cuando los atacantes quieren saltarse controles modernos de MFA, mover dinero rápido o pedir un reseteo de credenciales a un help desk distraído. Casos como MGM Resorts 2023 son ya material obligatorio en programas de concienciación serios.

Lo esencial

El vishing es el uso del canal telefónico para suplantar identidad y empujar a la víctima a entregar credenciales o saltarse procedimientos.

Su resurgir entre 2023 y 2026 se explica por clonación de voz con IA, fatiga de MFA que empuja al fraude contra help desk y trabajo remoto que ha reducido la verificación presencial.

Casos como MGM, Caesars, Twilio o Cisco muestran que el patrón es replicable y muy rentable.

La cadena típica de Scattered Spider va de OSINT en LinkedIn a vishing al help desk, reseteo de MFA, acceso corporativo y ransomware.

La defensa robusta combina controles técnicos (STIR/SHAKEN, biometría de voz, lookup APIs) con políticas de help desk y verificación fuera de banda obligatoria para acciones críticas.

Por qué el vishing está creciendo en 2026

Los equipos de respuesta a incidentes reportan crecimiento sostenido del vishing, especialmente en su variante dirigida a empleados con acceso privilegiado. Tres factores estructurales lo explican.

El primero es la democratización de la clonación de voz con IA. ElevenLabs, Resemble AI o motores open source equivalentes permiten generar una voz convincente a partir de muestras cortas. El atacante obtiene material público (resultados, conferencia, entrevista), lo procesa en una herramienta comercial y dispone de una voz que el oyente promedio identifica con el directivo objetivo.

El segundo es la fatiga de MFA y el empuje hacia el fraude contra help desk. A medida que se ha desplegado autenticación multifactor, los atacantes han redirigido el esfuerzo hacia el eslabón humano que puede resetear ese segundo factor. Una llamada bien construida puede provocar el reseteo de MFA y la entrega de un código que abre la puerta a la red corporativa.

El tercero es la reducción de la verificación presencial asociada al trabajo remoto. En una oficina, una solicitud sospechosa podía verificarse en un pasillo. Con plantilla distribuida, esa verificación implícita ha desaparecido y la voz al otro lado del teléfono pasa a ser, con frecuencia, la única señal disponible. A esto se suma una consideración táctica: el teléfono deja menos rastro forense que el correo.

Tipos de vishing empresarial

Las modalidades que se observan con regularidad se agrupan en familias bastante estables.

CEO fraud por voz. El atacante llama a una persona con capacidad de autorización financiera, suplantando a un directivo, y solicita una transferencia urgente bajo pretexto de confidencialidad. La voz clonada elimina la fricción que generaría un correo cuestionado y la presión jerárquica empuja a saltar pasos de verificación habituales.
Suplantación al help desk (help desk impersonation). La modalidad estrella de 2023 a 2026 en intrusiones a gran escala. El atacante llama al servicio interno de TI haciéndose pasar por un empleado, con datos básicos obtenidos en LinkedIn (cargo, jefe, oficina). Solicita reseteo de contraseña, MFA o dispositivo de confianza. Si el procedimiento no incluye verificación robusta, el atacante obtiene acceso inicial sin explotar ninguna vulnerabilidad técnica.
Fraude bancario simulado. Una llamada que aparenta proceder de la entidad financiera solicita verificar movimientos sospechosos y confirmar credenciales o códigos. Frecuente en tesorería de pymes, donde el responsable financiero suele ser también firmante de transferencias.
Soporte técnico fraudulento (tech support scam). El atacante contacta proactivamente alegando una incidencia técnica y solicita acceso remoto mediante herramientas legítimas (AnyDesk, TeamViewer, Quick Assist). Una vez dentro, instala persistencia o exfiltra credenciales del navegador.
Falso reclutador con deepfake en entrevista. Relevante en infiltración por actores estatales o grupos especializados. El operador real participa por videollamada con un avatar deepfake, supera la entrevista y, una vez incorporado en remoto, opera como insider plantado.

Estas familias no son excluyentes: en operaciones complejas, los atacantes encadenan vishing al help desk para acceso inicial, CEO fraud por voz para mover fondos y suplantación de soporte para mantener persistencia.

Casos públicos documentados

Conviene mirar a casos concretos para entender cómo encaja la teoría con la práctica, sin glamorizar al atacante.

El más citado en formaciones ejecutivas es MGM Resorts, septiembre de 2023. Scattered Spider (UNC3944 en informes de Mandiant) obtuvo acceso inicial mediante vishing al help desk: identificaron a un empleado vía LinkedIn, llamaron al servicio de TI haciéndose pasar por él y consiguieron un reseteo de credenciales y MFA. El acceso derivó en despliegue de ransomware (con afiliados de ALPHV/BlackCat) que dejó fuera de servicio durante días sistemas de hotel, casino y operaciones digitales. MGM cifró el impacto en torno a 100 millones de dólares y optó por no pagar el rescate.

Semanas antes, Caesars Entertainment sufrió un incidente atribuido al mismo grupo, con vector inicial similar. Según comunicaciones a reguladores, la compañía optó por pagar cerca de 15 millones de dólares para acelerar la contención.

En 2022, Twilio reconoció una intrusión que combinaba smishing y vishing dirigido a empleados, en el marco de la campaña conocida como 0ktapus, afectando en cascada a clientes que dependían de Twilio para autenticación. También en 2022, Cisco reportó una intrusión iniciada con robo de credenciales personales, vishing y MFA fatigue, publicando un análisis técnico detallado. En el mismo periodo, Cloudflare detectó y bloqueó un intento similar al de Twilio: el postmortem mostró que FIDO2, acceso condicional y verificación cruzada entre equipos detuvieron el ataque en fase temprana, en contraste con organizaciones que dependían solo de TOTP.

El patrón común no es una técnica novedosa, sino el uso disciplinado de canales con baja trazabilidad y la explotación de procesos de help desk diseñados para resolver incidencias rápido, no para resistir ingeniería social experta.

Cadena de ataque típica de Scattered Spider

La secuencia que aparece de forma repetida en investigaciones públicas tiene estructura reconocible. La fase inicial es reconocimiento sobre fuentes abiertas, especialmente LinkedIn: el atacante identifica empleados con cargos relevantes, estructura jerárquica, ubicación y eventos recientes que pueden servir como pretexto. Información complementaria llega de filtraciones previas y directorios obtenidos en intrusiones anteriores.

Sigue el contacto telefónico al help desk. El atacante llama haciéndose pasar por el empleado seleccionado, combinando urgencia (viaje, presentación inmediata) con argumento técnico verosímil (pérdida de MFA, cambio reciente de número). Si el procedimiento permite verificación con datos públicos, supera el filtro. El help desk procede a resetear el factor MFA, registrando un nuevo dispositivo del atacante como autenticador. Con credenciales del empleado y el nuevo segundo factor, el operador autentica y entra a la red corporativa.

A partir de ahí, la operación sigue líneas conocidas: enumeración interna, escalada de privilegios, búsqueda de activos críticos (AD, plataformas de identidad, hipervisores, backup), exfiltración y, según motivación, despliegue de ransomware. En esta cadena no aparece ninguna vulnerabilidad CVE como vector inicial: todo depende de una llamada telefónica y un procedimiento de verificación insuficiente.

Clonación de voz con IA en detalle

Las herramientas comerciales actuales permiten clonar una voz a partir de muestras cortas. ElevenLabs anuncia clonación instantánea con audio de pocos segundos en condiciones favorables; Resemble AI y motores equivalentes ofrecen capacidades similares. La barrera de entrada es baja en coste y conocimiento técnico.

El material de entrenamiento de un CEO público es prácticamente ilimitado: resultados trimestrales, conferencias grabadas, podcasts, entrevistas, vídeos corporativos. Cuanto más expuesta es la persona, más fácil es construir una voz sintética convincente y ajustarla a estilos concretos (presentación formal, conversación distendida, situación de presión).

La detección biométrica en tiempo real es una capa útil pero limitada. Pindrop o NICE Actimize aplican análisis de características acústicas que distinguen voz natural de sintetizada. Su precisión es mejor en líneas controladas y se degrada con ruido, compresión o reproducción por altavoz. Una consideración subestimada es la interacción en directo: las herramientas actuales soportan generación con latencia compatible con conversación, lo que permite mantener una llamada bidireccional respondiendo a preguntas. La asunción de que el deepfake de voz solo sirve para mensajes pregrabados ya no es válida.

Defensas técnicas

El conjunto de controles técnicos disponibles ha madurado y conviene desplegarlo con criterio.

Verificación de Caller ID con STIR/SHAKEN. Estándares de firma criptográfica de identificación de llamadas, desplegados en operadores de varios países. No eliminan el spoofing pero reducen la facilidad de falsificar el número de origen y permiten al operador clasificar llamadas con atestación parcial o nula.
Biometría de voz para autenticación de alto valor. Pindrop, NICE, Nuance y proveedores similares verifican al hablante frente a una plantilla registrada. Útil en banca privada, atención a clientes de alto valor y autorización de operaciones críticas, siempre como capa dentro de un esquema multifactor.
Procedimiento estricto de reseteo de MFA en el help desk. Sin atajos: verificación con segundo canal independiente, callback al número conocido del empleado registrado en RR. HH., y aprobación del responsable jerárquico para reseteo de dispositivos de confianza.
Verificación presencial obligatoria para acciones Tier 0. Reseteo de credenciales con acceso a Active Directory, plataformas de identidad o sistemas críticos no se ejecuta por canal remoto: presencia física, videoconferencia con verificación documental o equivalente robusto.
Number Lookup APIs. Twilio Lookup, Vonage Number Insight y similares clasifican números entrantes y detectan patrones asociados a spoofing (números recientemente activados, líneas VoIP no asignadas a operadores legítimos, líneas con histórico de fraude).
Programa continuo de simulación de vishing. La simulación de phishing por correo es práctica habitual; la de vishing, mucho menos. Programas que llamen periódicamente a empleados con escenarios realistas, midiendo respuesta y formando in situ, reducen significativamente la tasa de éxito en intentos reales.

Defensas organizacionales

Los controles técnicos no sustituyen al diseño de procesos. Las defensas eficaces comparten un patrón: eliminar la posibilidad de que una sola persona, bajo presión y con información parcial, autorice una acción crítica.

Script estricto del help desk. El operador nunca revela información de la cuenta al llamante. Toda solicitud sensible se atiende mediante callback a número registrado, no al número desde el que se recibió la llamada. El operador dispone de una matriz clara de qué acciones requieren qué nivel de verificación.
Política de reseteo de MFA con doble factor de verificación. Dos factores independientes (callback más confirmación documental, por ejemplo) y, para roles críticos, aprobación explícita del responsable jerárquico. Documentada, firmada y revisada periódicamente.
Formación rotativa con simulacros en vivo. Más allá del módulo anual, escenarios concretos de vishing ejecutados en periodos limitados, con feedback inmediato y métricas trazables. Especial atención a personal de help desk y empleados con acceso privilegiado.
Verificación fuera de banda para transferencias y cambios de cuenta de proveedor. Toda transferencia sobre umbral acordado, todo cambio de cuenta bancaria de proveedor y todo cambio de instrucciones de pago se confirma por canal independiente: llamada al número conocido, correo firmado, encuentro presencial cuando aplica. Sin excepciones, especialmente cuando el solicitante invoca urgencia.

Una práctica complementaria útil es habilitar un canal interno claro para que cualquier empleado pueda escalar una llamada sospechosa sin penalización, con compromiso explícito de no represaliar al que detiene un proceso por sospecha razonable.

Encaje regulatorio

El vishing toca varios marcos europeos y sectoriales. En RGPD, un incidente que derive en acceso no autorizado a datos personales activa las obligaciones de notificación al supervisor en 72 horas y, según riesgo, a los interesados afectados. La trazabilidad del incidente, la documentación de medidas de contención y la evidencia de formación previa son piezas clave del expediente.

En NIS2, las entidades esenciales e importantes deben reportar incidentes significativos en plazos escalonados (alerta temprana en 24 horas, notificación detallada en 72 horas, informe final en un mes). Un compromiso iniciado por vishing al help desk que derive en interrupción de servicios o exfiltración relevante encaja típicamente en el umbral de incidente significativo.

En PCI DSS 4.0, las obligaciones del capítulo 8 sobre autenticación y la formación de personal con acceso a entornos de datos de titulares de tarjeta son directamente relevantes; los procedimientos de help desk insuficientes son un hallazgo recurrente en evaluaciones recientes. En DORA, aplicable a entidades financieras y sus proveedores TIC críticos, los requisitos sobre operaciones resilientes y gestión de incidentes incluyen escenarios de ingeniería social, y los ejercicios TLPT bajo TIBER-EU incorporan vectores de vishing con creciente frecuencia.

Preguntas frecuentes

¿La biometría de voz es realmente segura?

Es una capa útil dentro de un esquema multifactor, no una solución por sí sola. La precisión es buena en líneas controladas y frente a intentos no sofisticados, pero se degrada frente a clonación de voz IA reciente. Su utilidad principal es elevar la fricción y aportar evidencia adicional combinada con verificación de canal y comportamiento.

¿Cómo se previene un escenario tipo MGM?

Reforzando tres piezas simultáneamente: procedimiento de reseteo de MFA con segundo factor de verificación independiente y aprobación jerárquica para roles críticos, segmentación que impida que el compromiso de una identidad operativa derive en acceso directo a hipervisores y sistemas de backup, y programa de simulación de vishing dirigido al help desk con métricas continuas. Reforzar solo una deja el camino abierto por las otras dos.

¿Los deepfakes de voz son detectables al 100%?

No. Las mejores herramientas obtienen tasas de acierto altas en condiciones controladas con modelos conocidos, pero la precisión cae frente a modelos recientes, post-procesado adversarial y compresión telefónica. Capa adicional de evidencia, nunca prueba definitiva.

¿Es legal simular vishing contra empleados?

Sí, con encuadre adecuado: programa de formación corporativo, base de legitimación en interés legítimo documentado, información previa a la plantilla sobre la existencia del programa (sin desvelar campañas concretas) y tratamiento confidencial de los resultados individuales. La representación legal conviene que esté informada en organizaciones donde aplica.

¿Hay que hacer callback siempre?

Para acciones críticas, sí. La política sensata define umbrales y categorías de acción que disparan la verificación obligatoria: transferencias por encima de un importe acordado, cambios de cuenta de proveedor, reseteos de MFA, accesos Tier 0, cambios en mandatos de domiciliación. Por debajo, una verificación más ligera puede ser suficiente. La clave es eliminar la discrecionalidad individual en las zonas críticas.

¿La clonación de voz con IA es legal?

Depende de jurisdicción, contexto y uso. Existen aplicaciones legítimas (doblaje, accesibilidad, producción multimedia con consentimiento). El uso para suplantar sin consentimiento, con propósito fraudulento o difamatorio, vulnera normativa de protección de datos, propiedad intelectual y, según el caso, derecho penal en buena parte de Europa. El artículo 50 del EU AI Act añade obligaciones de marcado y disclosure sobre contenido sintético.

Recursos relacionados

Programa anti-vishing con Secra

En Secra ayudamos a organizaciones a evaluar su exposición a vishing y a diseñar controles que reducen el riesgo a niveles asumibles: revisión de procedimientos de help desk y políticas de reseteo de MFA, programas de simulación con métricas trazables, despliegue de biometría de voz y lookup de números en flujos de alto valor, verificación fuera de banda para tesorería y encaje con NIS2, DORA, PCI DSS y RGPD. Trabajamos sobre incidentes documentados como MGM, Caesars, Twilio o Cisco para calibrar defensas a la operativa real.

Solicita una evaluación inicial y planifica con nosotros la estrategia anti-vishing adaptada a tu organización.

Sobre el autor

Equipo de Secra Solutions

Ethical hackers certificados OSCP, OSEP, OSWE, CRTO, CRTL y CARTE, con más de 7 años de experiencia en ciberseguridad ofensiva. Autores de los CVE-2025-40652 y CVE-2023-3512.

Conoce al equipo →Nuestra investigación →

Compartir artículo