DorkGPT: cómo la IA generativa está acelerando OSINT y Google Dorking

DorkGPT es la categoría de herramientas que usan modelos de lenguaje generativo para producir consultas Google Dork desde lenguaje natural. Bajo el capó suelen estar ChatGPT, Claude, Gemini o modelos open source. La más conocida públicamente lleva ese nombre y vive en dorkgpt.com, pero existen decenas de scripts y wrappers similares en GitHub. La idea es la misma: en lugar de aprender los operadores intitle:, inurl:, filetype:, site:, el usuario describe lo que busca y el modelo escribe el dork óptimo.

Esta entrada explica qué es DorkGPT en concreto, cómo funciona por dentro, qué casos de uso resuelve, en qué se queda corto frente a un analista experimentado, qué riesgos legales introduce y cómo defenderse del incremento de reconocimiento automatizado que estas herramientas están provocando.

Qué es DorkGPT

DorkGPT es un servicio web (y, por extensión, una categoría de tools) que aceptan una descripción en lenguaje natural ("encuentra paneles de administración expuestos de WordPress en dominios .es") y devuelven una o varias queries Google Dork optimizadas. La conversión la hace un LLM al que se le ha aportado un prompt sistema con la sintaxis y los patrones más usados de Google Dorking.

El producto público en dorkgpt.com no exige login en su versión básica y muestra ejemplos como:

"Buscar ficheros .env expuestos en GitHub" produce site:github.com filetype:env.
"Login de phpMyAdmin abiertos en dominios .es" produce site:.es intitle:"phpMyAdmin" "Welcome to phpMyAdmin".
"Documentos confidenciales filtrados de una empresa concreta" produce site:empresa.com filetype:pdf intext:"confidencial".

El operador solo refina el resultado y lanza la query manualmente en Google. La herramienta no automatiza la ejecución (lo que evitaría golpear el rate limit de Google y caer en el captcha), solo la generación.

Otras implementaciones similares: scripts CLI en Python que invocan APIs OpenAI, plugins de ChatGPT, GPTs personalizados y proyectos open source en GitHub etiquetados como "AI dork generator".

Cómo funciona por dentro

El núcleo es un prompt sistema que entrena al modelo en:

Sintaxis Google Dork: operadores site:, inurl:, intitle:, intext:, filetype:, cache:, link:, related:, numrange: y combinaciones.
Patrones GHDB: Google Hacking Database de Exploit-DB clasifica miles de dorks reutilizables por categorías (files containing passwords, sensitive directories, login portals, vulnerable servers).
Reglas de seguridad básica: rechazar peticiones explícitamente delictivas (búsqueda dirigida a explotación inmediata sin contexto profesional).

La mayoría de implementaciones añaden un wrapper que valida la query devuelta antes de mostrársela al usuario, descarta variantes que solo difieren en orden y limita el número de resultados a tres o cinco para no abrumar.

El valor real está en la consolidación, no en generar sintaxis válida: el modelo conoce, por entrenamiento, cuáles son los dorks que funcionan empíricamente y cuáles producen resultados ruidosos. Esa intuición la da el corpus de internet sobre el que se entrenó, no la creatividad del LLM.

Casos de uso legítimos

Los profesionales que usan DorkGPT u otros generadores hoy lo hacen mayormente en contextos legítimos.

Red Team y pentesting. Acelerar la fase de reconocimiento generando 20 variantes de dorks contra el dominio del cliente en minutos. La guía completa de Google Dorks para OSINT y reconocimiento cubre la base; DorkGPT acelera la combinatoria.
Threat intelligence. Buscar mentions, leaks, repos GitHub que contengan IoCs de campañas observadas.
Investigación periodística y due diligence. Localizar documentos públicos sobre una entidad o persona pública, contratos de la administración, expedientes de transparencia.
Bug bounty. Buscar variantes de subdominios, paneles olvidados y endpoints expuestos en programas con autorización formal.
Educación. Profesores y formadores generan ejemplos didácticos sin tener que memorizar la sintaxis.
Forense y respuesta a incidentes. Buscar muestras filtradas de código fuente del cliente tras una sospecha de fuga.

En todos los casos, la herramienta acelera trabajo que ya se haría a mano, no abre puertas nuevas a quien no las tenía antes.

Casos de uso preocupantes

DorkGPT también baja la barrera técnica para mal uso. Hechos verificables:

Generación de dorks orientados a ciudadanos privados sin marco legal. Pedir "busca el correo personal de [persona]" produce dorks legítimos que retornan información agregable que viola RGPD aunque cada dato sea técnicamente público.
Ingeniería social a escala. Combinado con un wrapper, un atacante semi-técnico puede recoger material para suplantación de identidad masiva en horas, alimentando campañas posteriores de phishing y pharming dirigidas.
Búsqueda dirigida de credenciales filtradas. Las brechas indexadas por Google (en sitios espejo o en archivos olvidados de pastebins) se localizan más rápido con dorks generados por IA que con búsqueda manual.
Reconocimiento previo a ransomware. Identificar empresas con paneles expuestos, software vulnerable, certificados caducos. Operadores de ransomware ya usan reconnaissance automatizado; DorkGPT lo democratiza al rango de afiliados con menos experiencia.

La tendencia general que vemos en investigaciones de seguridad ofensiva es que el reconocimiento automatizado por IA reduce el tiempo entre "atacante interesado" y "ataque preparado". La superficie de ataque sigue siendo la misma; lo que cambia es el coste de explorarla.

Limitaciones reales que tiene

DorkGPT no convierte a un novato en analista OSINT. Sus límites:

Sintaxis correcta no equivale a query útil. El modelo genera consultas válidas pero a veces irrelevantes para el contexto concreto del target.
Sesgos del entrenamiento. Los dorks que conoce mejor son los más documentados (ergo, los más usados, ergo, los que devuelven menos resultados nuevos).
No ejecuta consultas. El operador sigue golpeando contra el rate limit y el captcha de Google. Sin proxies, soluciones tipo SerpApi o paciencia, las primeras 30 búsquedas escalan a captcha en cualquier IP residencial.
No entiende infraestructura específica. Pedirle "encuentra subdominios de mi cliente que usen Cloudflare" da una query genérica que un humano refinaría con conocimiento previo (CDN-tag, ASN, certificados específicos).
Falsos positivos abundantes. La query devuelve cualquier cosa indexada que matche; el filtrado humano sigue siendo del 70% del trabajo.
Riesgo de prompt injection. En herramientas que aceptan input libre, un atacante puede inducir al modelo a generar dorks orientados a sus objetivos disfrazados de petición legítima.

La diferencia entre un Red Teamer experimentado y un usuario con DorkGPT no se cierra con la herramienta: el experimentado sabe qué pivotar, qué descartar y qué hipótesis montar; el principiante recibe queries que no sabe interpretar.

Aspectos legales en España y UE

Las consultas generadas por DorkGPT son las mismas que un humano podría escribir, así que el régimen legal es el mismo que el de Google Dorking clásico:

Acceso a información pública indexada: legal por sí mismo.
Aprovechamiento de descuidos de exposición (paneles abiertos, ficheros indexados por error): éticamente cuestionable y, en función del uso posterior, ilegal. Acceder a un panel de administración expuesto sin autorización entra en el artículo 197 bis del Código Penal español (intrusión informática).
Recolección de datos personales: aplica RGPD, LOPD-GDD. Aunque cada dato sea individualmente público, agregarlos para perfilar a una persona requiere base legal.
Investigaciones contra menores, víctimas o colectivos vulnerables: prohibidas salvo marco judicial específico.
Responsabilidad del proveedor del LLM: incipiente. Las plataformas comerciales (OpenAI, Anthropic, Google) tienen políticas que rechazan generación explícita para abuso, pero no validan el uso final.

Una empresa española que use DorkGPT en sus servicios profesionales necesita el mismo encuadre que para cualquier OSINT: contrato, autorización, minimización, retención corta, registro de actividad. Sin eso, la AEPD trata el resultado igual que si la información se hubiera obtenido por scraping manual.

Cómo defenderse

La defensa contra reconocimiento OSINT acelerado por IA es de higiene digital, no de detección activa. Es prácticamente imposible distinguir una query de Google escrita por humano de una generada por DorkGPT.

Acciones de mayor impacto:

Auditoría de superficie de ataque OSINT trimestral o semestral. Probar exactamente lo que un Red Team con DorkGPT encontraría.
Sanitización de subdominios olvidados, eliminación de paneles de administración expuestos al internet abierto.
Configuración correcta de robots.txt y noindex para directorios sensibles, sin asumir que esto es un control de acceso real (no lo es).
Auditoría de buckets S3, Azure Blob, Google Cloud Storage abiertos por configuración. La mitad de hallazgos críticos en Red Team siguen viniendo de aquí.
Sanitización de repos GitHub corporativos: secretos rotados, ramas viejas eliminadas, scanning continuo con tools como TruffleHog, Gitleaks.
WAF y rate limiting en endpoints de login para que la query "encuentra mi panel" del adversario no se traduzca rápido en credential stuffing efectivo. Detalle en la guía qué es un WAF.
Formación a empleados en exposición personal en redes sociales (foto del badge corporativo, captura de pantalla con datos sensibles).
Monitorización de leaks propios en pastebins, foros underground y repos públicos, con alertas tempranas.

Ningún control elimina el problema. La hipótesis correcta es que un atacante con IA generativa va a encontrar todo lo que esté indexado y poco protegido. La defensa es asumir esa hipótesis y trabajar para que lo encontrado no sea explotable.

Encaje con compliance

DorkGPT no aparece nominalmente en marcos regulatorios, pero el riesgo que materializa sí encaja en:

NIS2 (artículo 21). Gestión del riesgo de proveedores y de exposición. Una empresa con superficie OSINT amplia está aceptando un riesgo evitable.
DORA. Pruebas de resiliencia operacional digital, que incluyen TLPT y reconocimiento OSINT formal.
ISO 27001:2022 (control 5.7 threat intelligence, 5.10 acceptable use). Documenta la vigilancia continua sobre amenazas externas.
ENS Real Decreto 311/2022. Medidas op.exp.5 (gestión de cambios), op.exp.6 (protección frente a código dañino), op.exp.10 (protección de la información).

Auditar la huella OSINT de la organización con la misma intensidad que un atacante motivado es parte del control razonable de riesgo, no un lujo.

Preguntas frecuentes

¿DorkGPT es legal en España?

La herramienta sí. El uso depende del caso: generar dorks para auditar tu propia organización o un cliente que te ha autorizado por contrato es legal y profesional. Generar dorks para perseguir, investigar sin marco o vulnerar la privacidad de terceros sigue siendo ilegal aunque el "operador" sea una IA.

¿Sustituye DorkGPT a saber Google Dorking?

No, lo acelera. Un operador que entiende los operadores y sabe pivotar saca diez veces más valor de DorkGPT que uno que pega prompts en automático. Sigue mereciendo la pena leerse la guía de Google Dorks primero.

¿Qué herramientas usan los Red Teams profesionales hoy?

Combinaciones de Maltego para análisis gráfico (más detalle en la guía de Maltego para OSINT), SpiderFoot para automatización masiva, theHarvester para enumeración rápida, Shodan y Censys para superficie expuesta, Have I Been Pwned para credenciales filtradas, scripts custom y, sí, generadores tipo DorkGPT para acelerar la fase creativa de queries. Ningún equipo profesional depende solo de un wrapper sobre LLM.

¿Puede DorkGPT bypassar el captcha de Google?

No. La herramienta solo genera la query; quien la ejecuta es el usuario. Tras 20-30 búsquedas seguidas desde la misma IP, Google sirve captcha. Saltarlo programáticamente requiere proxies residenciales o servicios SERP de pago, lo que excede la herramienta y sus términos.

¿Cuál es el riesgo real para una pyme española?

Que su superficie de ataque (paneles olvidados, repos con secretos, buckets abiertos) sea más fácil y barata de explorar para atacantes oportunistas. La consecuencia real son ataques de ransomware o exfiltración a empresas que antes "no llamaban la atención". La respuesta correcta es auditoría OSINT periódica con alguien que use las mismas herramientas que el atacante.

¿Existen alternativas a DorkGPT con foco en privacidad?

Sí. Modelos open source como Llama, Mistral o Phi se pueden ejecutar localmente con un wrapper que reproduce la funcionalidad de DorkGPT sin exponer las consultas a un proveedor SaaS. Útil cuando la naturaleza de la investigación exige confidencialidad estricta (litigios, M&A, investigaciones internas).

Recursos relacionados

Google Dorks para OSINT y reconocimiento: la base que hay que dominar antes de delegar la generación a una IA.
Maltego para OSINT e investigación gráfica: el complemento natural cuando los dorks devuelven nodos que pivotar.
Red Team: guía para empresas: contexto donde el reconocimiento automatizado por IA encaja como fase 1.
Pentesting de infraestructura: cómo se traduce el OSINT acelerado en hallazgos técnicos.
Qué es un WAF: control de filtrado y rate limiting que reduce el daño si el atacante encuentra el endpoint.
Qué es ransomware: el escenario donde el reconocimiento automatizado se traduce con más frecuencia en incidente real.

Investigación OSINT con IA en Secra

En Secra integramos DorkGPT y modelos open source equivalentes en la fase de reconocimiento de cada Red Team y de cada ejercicio de auditoría OSINT, con el matiz importante de mantener trazabilidad: cada query generada por IA queda documentada con prompt, modelo y resultado, para que el cliente reciba un entregable auditable y no una caja negra. La IA acelera la generación; el analista humano sigue priorizando, validando y descartando. Si tu organización quiere medir cuánto encontraría un atacante motivado armado con IA generativa contra su huella digital actual, escríbenos a través de contacto o consulta nuestras publicaciones de investigación.

Sobre el autor

Equipo de Secra Solutions

Ethical hackers certificados OSCP, OSEP, OSWE, CRTO, CRTL y CARTE, con más de 7 años de experiencia en ciberseguridad ofensiva. Autores de los CVE-2025-40652 y CVE-2023-3512.

Conoce al equipo →Nuestra investigación →

Compartir artículo