El Dr. Ricardo Flores H., académico de la Facultad de Ingeniería, lidera una investigación publicada en IEEE Journal of Biomedical and Health Informatics, que combina voz y expresiones faciales para apoyar la detección temprana de la depresión.
Por: Carolina Vega Artigues, periodista Facultad de Ingeniería cvegaa@udec.cl
Imágenes: Gentileza Ricardo Flores H.
La salud mental es uno de los mayores desafíos de la humanidad. La Organización Mundial de la Salud (OMS) estima que más de mil millones de personas en el mundo padecen algún trastorno mental, siendo la ansiedad y la depresión los más frecuentes, presentes en todas las edades, países y niveles socioeconómicos. Según los informes World Mental Health Today y Mental Health Atlas 2024, estas enfermedades representan la segunda causa de discapacidad prolongada, reducen la calidad de vida y generan un enorme costo económico para los sistemas de salud y las familias.
El escenario en Chile no es distinto. Según la sexta versión del estudio “Monitor de Servicios de Salud de Ipsos 2024”, la salud mental es identificada como el principal problema de salud por un 69% de las personas consultadas y de acuerdo con el Termómetro de Salud Mental Achs-UC, lanzado en enero 2025, un 13,7% de los encuestados presenta síntomas moderados o severos de depresión, un aumento de 3,3 puntos porcentuales con respecto a abril de 2024. Datos del Ministerio de Salud arrojan que más de un millón de personas reciben actualmente atención en el sistema público por problemas de salud mental.
Frente a este panorama, surge la pregunta: ¿puede la ciencia y la tecnología aportar a soluciones más rápidas y efectivas? Desde dispositivos médicos innovadores hasta el uso de inteligencia artificial (IA), la tecnología se ha convertido en una aliada para complementar la labor de los especialistas y mejorar la detección temprana de cuadros de ansiedad y depresión.
WavFace: unir la voz y el rostro para detectar depresión
Es en este cruce entre salud mental e inteligencia artificial donde se sitúa la investigación del académico Ricardo Flores H., Doctor en Ciencia de Datos de Worcester Polytechnic Institute (WPI), Massachussets. Su reciente publicación, WavFace: A Multimodal Transformer-Based Model for Depression Screening, plantea un enfoque pionero: utilizar modelos de aprendizaje profundo para analizar voz y expresiones faciales de pacientes en entrevistas clínicas virtuales, emulando la forma en que los psicólogos observan y escuchan a sus consultantes.
“Este trabajo lo empecé en Estados Unidos, mientras finalizaba mi doctorado en un grupo de investigación en salud mental, y lo terminé en la Universidad de Concepción”, explica el Dr. Flores, profesor del Departamento de Ingeniería Informática y Ciencias de la Computación. La motivación surgió tras participar en el congreso Machine Learning for Healthcare en Carolina del Norte, donde recibió retroalimentación tanto de especialistas en inteligencia artificial como de médicos.
“Nos decían: el modelo funciona, pero le falta mirar al paciente. Ahí nació la idea de unir lo auditivo con lo visual, tal como lo hace un psicólogo: cuando escucha a un paciente, observa el tono de voz, los cambios en la expresión y cómo se combina todo eso. Yo traté de emular ese proceso”, recuerda.
De esa inspiración surge el nombre WavFace: Wav por la señal de audio y Face por las expresiones faciales.
Cómo funciona WavFace
El modelo utiliza algoritmos de inteligencia artificial pre entrenados para convertir tanto la voz como las expresiones faciales en representaciones matemáticas (llamadas embeddings). Luego, aplica capas de transformers y mecanismos de atención secuencial y espacial para identificar qué fragmentos de la entrevista son más relevantes.
“El modelo detecta señales en distintos momentos de la conversación. Puede ser un cambio en la voz o una expresión facial particular. No necesariamente ambos a la vez. Lo importante es que aprende a identificar lo que llama la atención, como lo haría un clínico”, explica el investigador.
Entrenado con una base de datos de cerca de 150 pacientes diagnosticados con depresión y ansiedad, WavFace logró diferenciar de manera preliminar entre pacientes con y sin depresión, alcanzando un 81% de precisión balanceada.
Aunque aún es un estudio preliminar, el potencial es claro. “Imagina que un paciente envía un video respondiendo algunas preguntas básicas. El modelo procesa el audio y las expresiones faciales y entrega un primer indicador. Esto no reemplaza al especialista, pero ayuda a priorizar: decidir a quién atender con más urgencia o a quién derivar”, señala Flores.
Además, su alcance va más allá de la depresión. “En autismo, por ejemplo, es muy útil analizar los patrones oculares. Hoy ese análisis lo hace un médico anotando si el niño mira hacia arriba o hacia el lado. Nuestro modelo puede automatizarlo y entregar reportes objetivos”, agrega.
Un trabajo colaborativo en la UdeC
Actualmente, el académico además explora el uso de datos fisiológicos mediante relojes inteligentes y registros de EEG para complementar el análisis multimodal, en colaboración con académicos y estudiantes de Ingeniería Civil Biomédica. “Queremos estudiar cómo se combinan la voz, las expresiones, el texto, el ritmo cardíaco y la actividad cerebral. Todo eso puede dar una visión más completa, por ejemplo, del bienestar estudiantil y de la salud mental en general”, afirma.
Según la OMS, la salud mental sigue siendo una de las áreas más desatendidas: en promedio, los países destinan menos del 2% de sus presupuestos de salud a este ámbito, con recursos insuficientes en la atención comunitaria. En ese escenario, investigaciones como la de Ricardo Flores cobran especial relevancia. WavFace no busca reemplazar a los especialistas, sino aportar una herramienta complementaria que permita priorizar pacientes, detectar tempranamente síntomas y optimizar recursos clínicos.
Last modified: 20 de mayo de 2026
