Cómo transcribir el audio de un vídeo a texto

Cómo transcribir el audio de un vídeo a texto

En algunas ocasiones necesitaremos transcribir a texto el audio de un vídeo, ya sea para crear subtítulos, analizar a fondo el contenido o compartirlo en un archivo de Word, PDF u otro formato de texto.

Gracias al reconocimiento de voz y a la inteligencia artificial el proceso es rápido, con una tasa de fallos cada vez menor. Transcribir un vídeo a texto manualmente es trabajoso, y exigiría una alta velocidad de mecanografiado.

En cambio, si un sistema extrae el audio de forma automática solo debemos releerlo y corregir los fallos, ahorrando mucho tiempo. Eso sí, las comas y puntos probablemente necesitaremos introducirlos a mano.

No existe un sistema perfecto para transcribir vídeos, pero vamos a ver un par de alternativas gratis que funcionan bien, y también servicios de pago, para que sea sencillo elegir la mejor opción de acuerdo a nuestras necesidades.

Documentos de Google Drive, una opción sencilla

El reconocimiento de voz de Google es muy bueno, pero no lo ofrece en ninguna herramienta que permita subir un vídeo y transcribir su contenido. Algunos desarrolladores sí integran esa posibilidad en sus apps, pero Google les cobra por el servicio, así que el usuario debe pagar también.

Existe un "truco" interesante, que consiste en usar Documentos de Google (desde Google Drive en un ordenador) para que escuche el audio y lo pase a texto.

El reconocimiento no es preciso si el micrófono tiene que escuchar desde unos altavoces reproduciendo el vídeo, pero primero veremos el procedimiento básico y luego aprenderemos a usar un complemento que lo mejora en gran medida.

  1. Hemos de crear un nuevo documento usando el navegador Google Chrome en un ordenador, con otros navegadores no funcionará:

Web: Nuevo documento en Google Drive

  1. En el menú superior buscamos "Herramientas" y escogemos "Dictado por voz":

Imagen - Cómo transcribir el audio de un vídeo a texto

  1. Para comenzar a grabar debemos pulsar en el micrófono que aparecerá en una ventana del documento:

Imagen - Cómo transcribir el audio de un vídeo a texto

  1. Si nunca hemos dado acceso al micrófono a Documentos de Google en el navegador (algo bastante probable) pulsaremos en "Permitir" en la ventana emergente:

Imagen - Cómo transcribir el audio de un vídeo a texto

  1. Ahora ya podremos reproducir el vídeo (en los altavoces del ordenador u otro dispositivo) para que se vaya plasmando en el documento:

Imagen - Cómo transcribir el audio de un vídeo a texto

La función de dictado funciona bien con la propia voz, pero usando un vídeo falla bastante. Así que vamos a explicar cómo usar un complemento que enviará el audio del vídeo directamente a la entrada de sonido, sin pasar por los altavoces, lo que mejorará el resultado.

Mejora el dictado por voz con VB-Cable

Reproducir el vídeo y que el micrófono capture el audio de los altavoces supone una pérdida importante de calidad. La alternativa es utilizar este driver o controlador que "engaña" al sistema para transferir el sonido de manera interna y sin perder calidad.

  1. Descarga VB-Cable para Windows

descarga

  1. Extraemos el fichero ZIP a una carpeta, por defecto Windows lo permite hacer, pero también existen otras aplicaciones para descomprimir archivos de terceros.
  2. Buscamos el archivo "VBCABLE_Setup_64.exe" y pulsamos con el botón derecho del ratón, luego escogemos "Ejecutar como administrador":

Imagen - Cómo transcribir el audio de un vídeo a texto

  1. Si tuviéramos un ordenador antiguo, con una versión de Windows 32 bits, pulsaremos en "VBCABLE_Setup.exe", pues el instalador de 64 bits no será compatible.
  2. Confirmamos que queremos que la app haga cambios en Windows, y ahora se abrirá el instalador, donde solo hemos de pulsar en "Install driver":

Imagen - Cómo transcribir el audio de un vídeo a texto

  1. Confirmamos que queremos instalar el driver y luego reiniciamos:

Imagen - Cómo transcribir el audio de un vídeo a texto

  1. Ahora iremos a los ajustes de Windows para comprobar que tanto el micrófono como el altavoz están a cargo del nuevo software, accediendo a esta ruta:

Configuración -> Sistema -> Sonido

  1. En el apartado de "Elige el dispositivo de salida" debe aparecer "CABLE Input (VB-Audio Virtual cable)":

Imagen - Cómo transcribir el audio de un vídeo a texto

  1. En el apartado de "Elige el dispositivo de entrada" debe aparecer "CABLE Output (VB-Audio Virtual cable)":

Imagen - Cómo transcribir el audio de un vídeo a texto

  1. El resultado es que cualquier audio que reproduzca el equipo se irá directamente a la entrada de sonido, sin pasar por los altavoces o auriculares.
  2. Ahora debemos reproducir el vídeo (que no se oirá por los altavoces) y comenzar el dictado por voz en Documentos de Google, que será muchísimo más exacto.

Al terminar el proceso hay que volver a seleccionar los altavoces y el micrófono de la tarjeta de sonido del PC, de lo contrario no escucharemos nada.

YouTube genera el texto de todos los vídeos

Si el vídeo que queremos transcribir está en YouTube lo tendremos mucho más fácil, pues incluye un sistema automático que convierte el audio a texto para generar los subtítulos. Y con lo popular que es YouTube, no sería raro que el contenido esté subido a esa plataforma.

Si el creador ha elaborado los subtítulos de forma manual serán de mayor calidad, de lo contrario los generará la inteligencia artificial. El canal puede desactivar la conversión a texto del audio si lo desea, pero no es algo muy habitual, pues ayuda a las personas que no hablan bien el idioma o sufren limitaciones auditivas.

Una vez aclarado cómo funciona, veamos el paso a paso:

  1. Abrimos el vídeo de YouTube en su versión de escritorio (ordenador) y pulsamos el menú de tres puntos bajo el vídeo, a la derecha:

Imagen - Cómo transcribir el audio de un vídeo a texto

  1. Elegiremos la opción de "Abrir transcripción" que aparece en un menú desplegable:

Imagen - Cómo transcribir el audio de un vídeo a texto

  1. A la derecha se abrirá una nueva ventana con la transcripción del audio:

Imagen - Cómo transcribir el audio de un vídeo a texto

  1. Solo tenemos que seleccionar la parte que nos interese (o el texto completo) con el ratón, y mediante el menú del botón derecho elegimos "Copiar" para luego pegarlo en un email, Word o cualquier otro programa:

Imagen - Cómo transcribir el audio de un vídeo a texto

  1. Desde el menú de tres puntos en la zona superior derecha podemos pulsar en "Activar/desactivar marcas de tiempo", es decir, el indicativo de minutos y segundos de cada frase del vídeo:

Imagen - Cómo transcribir el audio de un vídeo a texto

Por último, debemos tener en cuenta que YouTube tarda un poco en transcribir cada vídeo desde que es subido. Si no nos aparecen los subtítulos automáticos en una subida reciente vale la pena intentarlo unas horas después, para ver si están listos.

Transcripción con la accesibilidad de Android

A partir de Android 11 el sistema operativo incluye la posibilidad de generar subtítulos de todo el audio que reproduzcamos, incluyendo vídeo, notas de voz, podcasts, llamadas y otros elementos.

Con este sistema no podremos transcribir el contenido a un archivo de texto, pero es una función lo suficientemente atractiva como para tenerla en cuenta.

En el caso de Android 11 y posteriores, se pueden activar los subtítulos en un icono bajo el control de volumen:

Imagen - Cómo transcribir el audio de un vídeo a texto

Por desgracia, esta función solo está disponible en inglés por el momento, y no en todos los móviles. Google la soporta en sus móviles Pixel, pero el resto de las marcas deciden por su cuenta si incluirla. En cualquier caso, será muy útil a medida que se amplíen sus prestaciones.

Otras opciones para transcribir vídeo

Ninguna de las alternativas anteriores es perfecta, así que presentamos otras opciones. Ya explicamos cómo transcribir videollamadas a texto, y en este caso también sería viable utilizar la app Traducción instantánea de Google para nuestro objetivo.

Si vamos a transcribir desde el inglés, una buena alternativa es Otter.ai. Es un servicio de pago, pero que en su plan gratuito incluye 10 horas de transcripción, así que representa una alternativa si trabajamos con audio en inglés.

Por último, Happy Scribe es una plataforma que permite transcribir y traducir contenido multimedia, que nos servirá si estamos dispuestos a pagar sus precios, que no son nada baratos.

Aunque varían dependiendo de la duración del audio a transcribir, en general rondan los 10 dólares por hora. Un precio elevado, más pensado para empresas que para un uso personal.

Sin olvidar que existen herramientas específicas si queremos transcribir un audio a texto, aunque casi todas requieren bastante intervención humana.

A pesar de que la tecnología ha avanzado muchísimo en el reconocimiento de voz, transcribir un vídeo a texto sigue teniendo cierta dificultad. La tarea exige bastante procesamiento, y ya vemos que las opciones disponibles no son del todo perfectas, aunque nos ayudarán bastante.

Cómo convertir los audios de WhatsApp en texto

  • Ver Comentarios