De audio a texto: las mejores herramientas para transcribir en tiempo real

La simpleza de una acción a veces no permite apreciar la complejidad que esconde. Eso es lo que sucede cuando decimos algo y automáticamente se transforma en texto gracias a las muchas herramientas que hay para la transcripción en tiempo real.

El desarrollo de la Inteligencia Artificial (IA) fue dando a los micrófonos de los dispositivos una capacidad de entendimiento inédito, aunque la mayor parte del tiempo creamos que solo nos escuchan para espiarnos y vendernos publicidad, algo que no es lejano a la realidad.

El servicio de pasar audio a texto no es nuevo, pero la pandemia le da un impulso y lo diversifica.

Desde tomar notas en una reunión virtual a tomar clases online, la necesidad de ahorrar tiempo se ha vuelto esencial y nos ha descubierto un mundo que no sabíamos teníamos tan a mano.

Escuchar y escribir

Usar nuestra voz para manejar dispositivos está dejando de ser una tendencia para ser una norma. Un rápido repaso nos muestra que en casa hay al menos un par de aparatos que puede escucharnos y con suerte, obedecernos.

Microsoft acaba de lanzar una nueva herramienta capaz de proporcionar transcripciones y traducciones de voz en tiempo real y eso nos da excusa para repasar los mejores servicios disponibles y que tienen el plus de ser gratuitos.

Microsoft Group Transcribe

Este es el recién llegado. La compañía lanzó este servicio esta semana para proporcionar transcripciones y traducciones de voz en tiempo real, y que solicita la ayuda de los usuarios para hacer la IA más inclusiva.

Apunta a aquellos que deben tomar notas en una reunión y utiliza los micrófonos de todos los dispositivos involucrados para realizar la tarea. En otras palabras, en una reunión entre cinco personas, el servicio utiliza los micrófonos de los cinco dispositivos involucrados para obtener una mejor transcripción pero también identificación para saber quién dijo cada cosa.

Microsoft Group Transcribe es una de las herramientas para pasar audios a textos y dictado de voz en tiempo real.

Según Microsoft, constituye una “nueva forma de mejorar la inteligencia artificial del habla y el lenguaje”.

Por el momento sólo está disponible para dispositivos con iOS, que es el sistema operativo de Apple, pero pronto llegará a Android. Está disponible en español y otros 80 idiomas, lo que permite tomar conversaciones en distintos idiomas y traducirlos en tiempo real.

Servicios de Google

Ofrecer un servicio de calidad requiere tecnología y dinero, dos cosas que Google tiene de sobra. Por eso la empresa actualiza constantemente su servicio de transcripción que se encuentra en varias herramientas pero especialmente en tres: Traductor, Google Docs y Gboard. La función es similar en todos: hablar y que la app lo transforme en texto.

En el Traductor, por ejemplo, permite tres funciones simultáneas: hablar, transcribir y traducir en tiempo real, ya sea palabras o frases.

Gboard permite para pasar audios a textos y dictado de voz en tiempo real.

Algo similar sucede con Gboard, que es el teclado de Google para móviles. Actualmente todos los teclados de los celulares pueden habilitar el micrófono para dictar un texto, pero este tiene el extra de los servicios de Google.

El tercer lugar donde se puede encontrar es en el procesador de texto Google Docs. Con habilitar el micrófono del celular o la computadora, ya podemos hablar y que lo transforme en texto. Sin embargo, lo que funciona bien en las otras apps de Google aquí encuentra fallas. El servicio está limitado a frases cortas y no está diseñado para un dictado de larga duración.

Dictation, SpeechTexter y TalkTyper

Estos tres servicios tienen dos puntos fuertes en común: son muy sencillos de usar y no requieren instalar nada porque funcionan en la web. Eso sí, ambas ventajas tienen su contraparte porque su simpleza hace que no cuente con muchas herramientas y solo funcionan en Google Chrome.

Dictation es la más simple: hablás y la herramienta escribe. Sólo hay que dar permiso al micrófono y ya se puede comenzar. Su interfaz roza el minimalismo y se agradece. Sólo tiene un desplegable para elegir idioma y un formato similar a una hoja de papel donde escribe lo dictado. Permite dictar también los signos de interrogación y es muy eficiente incluso si hablamos muy rápido.

Dictation es un servicio web simple y minimalista.

SpeechTexter entiende perfectamente el dictado y es veloz. Aunque no comprenda las interjecciones le podemos decir cuál signo de puntuación queremos y lo escribirá. Tiene varios idiomas disponibles y solo hay que elegir el que queremos usar. Tiene un botón de inicio para el dictado, la guía para pronunciar los signos de puntuación y un procesador de texto básico.

TalkTyper es 100% en español y totalmente gratuita. Entiende a la perfección lo que decimos aunque también falla a la hora de comprender las expresiones al hablar. Pero es un problema menor en comparación a sus dos grandes ventajas: es la herramienta más sencilla y funciona sin instalar nada. Sólo hay que hablar y el texto transcrito se puede descargar, compartir en redes o imprimir.

Transcripción offline

Hay servicios que permiten subir un archivo de audio y un software lo transcribe. O sea, no admiten el dictado de voz. Uno de ellos es Bear File converter, que transforma en texto un audio en mp3. Durante un tiempo fue una gran opción pero no es 100% eficaz. Aunque la web admite varios formatos de audio, muchos usuarios aseguran que no siempre funciona. La alternativa que varios toman para la misma tarea es subir el audio a YouTube con una imagen para transformarlo en video y utilizar el servicio de transcripción de la plataforma. YouTube tampoco tiene gran precisión pero siempre funciona y entrega un texto legible y editable.

Entrenamiento o espionaje

Para que una inteligencia pueda entendernos hay que entrenarla. Con esa excusa Google, Apple, Amazon y Microsoft comenzaron hace unos años a grabar fragmentos de audios de sus usuarios cuando hablaban por teléfono o conversaban cerca del teléfono. ¿El problema? Era espionaje ilegal y una violación de la intimidad.

Todas las empresas se justifcaron alegando buenas intenciones pero la escasa claridad del proceso las forzó a modificar esa conducta. Google explicó en un comunicado que “los fragmentos de audio no se asocian con las cuentas de usuario como parte del proceso de revisión”. Amazon también salió a aclarar: “Solo se revisa una parte extremadamente pequeña de las conversaciones. Esta iniciativa nos ayuda a mejorar el lenguaje natural de la máquina, así como la comprensión de nuestro asistente”.

El problema de estas explicaciones fue que aparecieron después de ser reveladas las tácticas y con los cuestionamientos acumulándose.

Este escándalo estalló en 2019 pero la práctica empresarial llevaba ya unos años. Tras la polémica el entrenamiento siguió pero esta vez solo con consentimiento del usuario y con regulaciones internacionales que obligaban a no asociar ningún dato personal a una voz y a borrar el archivo después de cierto periodo de tiempo.

Tenemos algo para ofrecerte

Con tu suscripción navegás sin límites, accedés a contenidos exclusivos y mucho más. ¡También podés sumar Los Andes Pass para ahorrar en cientos de comercios!

VER PROMOS DE SUSCRIPCIÓN