miércoles, 13 agosto, 2025
InicioSociedadCrean un radar inteligente que convierte las vibraciones del móvil en palabras...

Crean un radar inteligente que convierte las vibraciones del móvil en palabras legibles

Un equipo de la universidad estatal de Pensilvania ha logrado transcribir fragmentos de llamadas sin escuchar el aire, sino leyendo a distancia el temblor del teléfono. Un avance brillante, pero también una advertencia de seguridad.

Lo que parecía imposible se ha hecho realidad: alguien habla por teléfono en un pasillo concurrido y, a tres metros de distancia, un dispositivo silencioso apunta hacia el móvil. Minutos después, fragmentos de esa conversación aparecen transcritos en una pantalla, pese al ruido ambiente y sin que ningún micrófono haya estado cerca.

Eso—con matices—es lo que ha conseguido WirelessTap, un sistema de investigación de la Universidad Estatal de Pensilvania que usa radar milimétrico y modelos avanzados de reconocimiento de voz (ASR, por sus siglas en inglés) para extraer y transcribir, parcialmente, lo que se dice en una llamada mediante las diminutas vibraciones del auricular del teléfono. Los resultados de esta investigación se han publicado en las Actas de WiSec 2025, la 18.ª Conferencia ACM sobre Seguridad y Privacidad en Redes Inalámbricas y Móviles, celebrada el a finales de junio en Arlington, Virginia, EE. UU.

La idea técnica es simple: cuando alguien habla al otro lado de la llamada, el altavoz de oído vibra, y esas vibraciones se propagan por el chasis con desplazamientos de micras, imperceptibles para nosotros, pero detectables por un radar mmWave comercial.

WirelessTap dirige un radar FMCW de 77–81GHz a la parte trasera del teléfono y mide, con precisión de fase, cómo “respira” su superficie. Al encadenar esas variaciones en el tiempo, obtiene una señal parecida a un audio: banda útil muy limitada y baja reducción de ruido promedio (SNR o Single Number Rating), pero con suficiente huella del habla para intentar reconocer palabras.

Papel de la IA

El radar en realidad no “escucha” voces: registra micromovimientos en la carcasa que se convierten en un “radar-audio” ininteligible para un humano o un micrófono. Ahí entra la IA: los investigadores adaptaron Whisper, un sistema abierto de reconocimiento automático del habla, creando primero datos sintéticos que imitan el espectro y ruido del radar-audio y afinándolo después con un pequeño conjunto real.

Con una eficiente tecnología de comunicación inalámbrica de largo alcance (LoRA), ajustaron alrededor del 1% de los parámetros del modelo, evitando reentrenarlo por completo y enseñándolo a “leer” patrones débiles y parciales hasta producir texto con precisión limitada, pero operativa. El comunicado de Penn State resume el resultado: transcripciones desde hasta 3m obtienen alrededor del 60% de acierto en vocabularios de hasta 10.000 palabras, suficiente para captar palabras clave o números con implicaciones de privacidad.

Luces y sombras

Los resultados son, no obstante, limitados. En laboratorio, WirelessTap transcribe oraciones completas con una precisión de palabras que alcanza el 59.25% de éxito a 50cm, pero que cae hasta el 2–4% a 300cm, con degradación acorde a la pérdida de SNR por distancia. Las tasas por carácter son más altas, como es habitual en ASR.

En pruebas con una persona sosteniendo el móvil contra la oreja, la señal útil queda casi sepultada por respiración, latidos y micromovimientos musculares, pero filtros y umbrales ad hoc permiten recuperar fragmentos que desvelan la oportunidad. Además, el equipo afronta y mitiga “alucinaciones” del modelo—repeticiones espurias—con detección y recortes basados en subsecuencias comunes, y muestra que la tasa de alucinación aumenta a medida que baja la SNR.

Referencia

Wireless-Tap: Automatic Transcription of Phone Calls Using Millimeter-Wave Radar Sensing. Suryoday Basak, Mahanth Gowda. WiSec 2025: 18th ACM Conference on Security and Privacy in Wireless and Mobile Networks, Pages 4 – 15. DOI:https://doi.org/10.1145/3734477.3734708

Conviene subrayarlo: no es una transcripción limpia ni comparable a asistentes de voz; se parece más bien a “leer los labios” con radar. Con un 30–60% de acierto en palabras, el sistema captura términos, cifras o partes del contexto y ese poco puede bastar para inferir información sensible si el atacante tiene pistas previas. Frente a un micrófono, el radar tiene una ventaja estratégica: no sufre el ruido ambiente del mismo modo, porque no oye el aire, sino que mide la vibración mecánica de la carcasa: donde la algarabía ciega a un micrófono, el radar sigue viendo el “latido” físico del teléfono.

Medidas preventivas

La precisión, de momento, es limitada y la configuración, aún de investigación, pero el trabajo anticipa escenarios plausibles conforme se miniaturicen sensores y mejoren antenas, potencias y anchos de banda, algo previsible a medio plazo. Aunque todavía no es un arma lista para desplegar, Wireless-Tap representa un nuevo vector de ataque que se beneficia de tres tendencias a la vez: mmWave baratos y ubicuos, modelos de IA cada vez más robustos y adaptables, y una sociedad que habla por teléfono en espacios compartidos.

Los autores proponen para la industria medidas defensivas ante esta nueva realidad: inyectar “ruido” mecánico con el motor de vibración, contravibraciones en el auricular, materiales y diseños que amortigüen la transmisión, o lógicas de firmware que alteren el patrón vibratorio ante señales sospechosas.

A nivel de usuarios, recomiendan evitar espacios con línea de vista cercana al teléfono en conversaciones sensibles; en entornos de alta seguridad, dejar móviles fuera o en bolsas de bloqueo, y tratar salas y dispositivos para amortiguar vibraciones.

Contexto: escuchas a distancia

WirelessTap se suma a una genealogía de escuchas remotas—micrófonos láser sobre ventanas, recuperación de vibraciones con cámaras, o el uso de sensores inerciales del propio teléfono—que explotan una misma verdad física: cuando suena una voz, algo vibra.

Y llega en un ecosistema donde el smartphone ya funciona como sensor cotidiano para perfilar hábitos y tendencias, con un mercado de datos que alimenta segmentación publicitaria y analítica de audiencias.

El nuevo riesgo es que, además, las propias vibraciones del dispositivo puedan delatar fragmentos de conversaciones en entornos ruidosos, sin nuestro consentimiento.

Más Noticias