Así serán los deepfakes del futuro: con solo una foto pueden crear vídeos ultrarrealistas

Así serán los deepfakes del futuro: con solo una foto pueden crear vídeos ultrarrealistas

La preocupación alrededor de los deepfakes cada vez es mayor, unos vídeos capaces de colocar el rostro de una persona sobre otras escenas, de modo que diga o haga cosas que no son reales. La tecnología de Speaking Portrait promete llevar los deepfakes a un nuevo nivel.

La idea de Speaking Portrait es manejar el rostro de una persona como una marioneta a partir de una foto, sin apenas complicaciones técnicas. Se parte de la imagen, y se utiliza un vídeo de otro usuario desde el que se trasladan gestos y expresiones faciales.

La voz puede ser pregrabada, o generarse a partir de un texto, en un principio se soportan el inglés, español y japonés.

Este nuevo sistema ha sido creado por la empresa D-ID, que ya fue conocida por animar fotos antiguas con la app MyHeritage Deep Nostalgia, pero en este caso sus ambiciones son mayores que una app gratuita. Incluso se plantea usar sus deepfakes para crear presentadores de televisión virtuales y otros recursos audiovisuales.

La versión más básica del sistema se llama Single Portrait, solo necesita una foto para imitar las expresiones faciales de otra persona, incluyendo los movimientos de los labios. De esta forma, es sencillo simular que una persona ha realizado declaraciones falsas:

En el modo de Single Portrait se mantiene el fondo original, y pueden aparecer algunos errores. De todas formas, es muy realista y a primera vista el deepfake resulta indistinguible.

Otro ejemplo utiliza la conocida fotografía "Niña Afgana", donde Steve McCurry retrata a Sharbat Gula, y que con Speaking Portrait toma un cariz entre simpático e irrespetuoso:

La segunda modalidad es el denominado Trained Portrait, que exige grabar un vídeo de 10 minutos para entrenar la inteligencia artificial. De este modo la cabeza se puede colocar sobre un fondo transparente, e incluir algunas animaciones de cara o manos:

Los creadores de D-ID son conscientes del riesgo de los deepfakes a la hora de generar manipulación y noticias falsas, y creen que será necesario regular la tecnología de algún modo. Eso sí, en principio Speaking Portrait se concibe como un servicio para otras empresas, y por el momento no está disponible para los usuarios.

Usa algoritmos de inteligencia artificial diferentes a otros deepfakes, centrados en identificar las partes del rostro, lo que explica que el resultado sea superior, e incluso pueda generar vídeo Full HD de alta calidad si la foto original tiene bastante resolución.

Desde luego, los deepfakes serán una preocupación en el futuro, al tiempo que abren posibilidades inesperadas, como presentadores de informativos virtuales que dan las noticas de manera natural en base a un guion escrito.

  • Ver Comentarios