Si durante la primera mitad del siglo XX la tecnología apenas se movía a pie, no hay dudas que a partir de la segunda mitad comenzó a correr. Y ni hablar de la velocidad que ha tomado en pleno siglo XXI, donde prácticamente vuela.
Si alguien hubiese planteado siquiera en el año 1900 la posibilidad de hablar con una máquina -y no como parte del argumento de una novela de ciencia ficción-, hubiese resultado desquiciado.
Pero lo cierto es que en la actualidad los smartphones ya han incorporado la posibilidad del control por voz (con sus limitaciones). Y ahora científicos están trabajando no sólo en la posibilidad de perfeccionar esto, sino incluso en la de llevarlo a ordenadores domésticos, soñando con un hipotético “diálogo” entre el ser humano y la computadora.
“La búsqueda de Google hoy se está basando en una impresionante estructura que permite que sea el mismo buscador el que brinde las respuestas, en lugar de dar como resultados solamente páginas.
Hoy escribimos qué idioma se habla en Nigeria -por ejemplo-, y en lugar de dar un link Google ya muestra toda la información sobre Nigeria, capital, población e idioma", destacó a Los Andes Agustín Gravano, profesor del Departamento de Computación de la UBA e investigador del Conicet.
“Estos avances llevan a que hoy la computadora pueda, además de buscar páginas, responder y dar información. Y creo que falta muy poco para que esa búsqueda se pueda hacer también por medio del habla. El escollo principal es que la tecnología pueda detectar el dominio, el tema del que está hablando la persona. Cuando el universo es acotado, el sistema de reconocimiento de habla funciona muy bien. Es esa detección de cambio de tema en la computadora lo que no se puede hacer de forma muy rápida”, analiza el experto argentino.
Gravano es parte del grupo de Procesamiento del Habla y del Laboratorio de Inteligencia Artificial Aplicada del Conicet, equipo que está investigando sobre la temática.
Entre nosotros
Tal vez RAy Bradbury no soñó al momento de darle vida a sus "Crónicas marcianas" que las escenas futuristas se centrarían en la Tierra y en los primeros años del segundo milenio.
Ya en los ‘70, desarrolladores e investigadores de todo el mundo comenzaron a trabajar detrás de una idea que parecía imposible: hacer hablar a una computadora. Así fueron surgiendo distintos softwares, que se fueron perfeccionando también.
Dragon se transformó, tal vez, en el programa más emblemático de reconocimiento de voz y de dictado para convertir las palabras en texto escrito. Estas herramientas cumplieron (y cumplen además) un rol fundamental en la integración de aquellas personas que tienen alguna discapacidad visual o verbal.
Pero, tanto en sus ediciones beta o en las más avanzadas, el principal obstáculo ha sido siempre uno: la prosodia. Es decir, el “cómo” se dicen las cosas, teniendo en cuenta los elementos fónicos de una expresión así como los acentos, los tonos y la entonación.
“Dialogar con una computadora es mucho más complejo de lo que se puede llegar a pensar. Porque uno aprende a hablar de chico, y después le sale naturalmente. Pero a nivel tecnología recién están empezando a aparecer tímidamente algunas aplicaciones, y no falta quien se pregunta: ¿cómo puede ser que estemos aún en pañales?”, se explayó Gravano.
Para el investigador, los principales escollos para poder “quitar” esos pañales son dos. Por un lado, la cualidad de reconocimiento de habla: “Se ha logrado que se entienda la palabra suelta, pero no así la secuencia de palabras, o sea, el mensaje. Hace cinco años recién se le empezó a encontrar la vuelta a este tema, pero se sigue investigando.
De hecho, el escollo del reconocimiento del habla ya se burló, y salvo cuando hay ruido de fondo, en buenas condiciones de audio la palabra se identifica”. El otro escollo tiene que ver con el sentido común: “Por ejemplo, cuando una persona habla con otra persona está permanentemente razonando y usando la lógica y el sentido común. Y para cada cosa que decimos, hay implícitas otras tantas difíciles de decodificar. Eso es lo que hay que ‘enseñarle’ a la máquina”, indicó.
El desafío
Teniendo en cuenta lo que ya se ha avanzado en el reconocimiento de cada palabra y en el campo de la inteligencia artificial (Google, por ejemplo, nos ofrece -además de la solicitada- información aproximada de forma directa por las dudas de que nuestra consulta también tenga que ver con esto), el camino a seguir ahora tiene que ver con la facultad de que la computadora entienda también el "cómo" decimos un mensaje.
“El escollo actual es el de lograr que la computadora entienda de qué está hablando la persona. Cuando el dominio es acotado y predefinido y se habla por ejemplo de fútbol, hay palabras que ya se identifican. Allí el reconocimiento de habla funciona muy bien, ya que al estar dentro de un ámbito específico, la máquina trabaja en ese dominio limitado y va a ser simple. Lo que hace falta es lograr ampliar ese universo, para que la propia máquina pueda identificar por su cuenta de que se está hablando. Y ese cambio de se puede lograr de una forma rápida”, sostuvo Gravano.
Un típico caso del reconocimiento dentro de un dominio limitado es el de la app para celulares Shazaam, que permite identificar canciones con sólo escuchar unos pocos fragmentos.
“Una vez que se logre esto en plenitud, la revolución va a ser gradual. Porque no va a reemplaza a lo táctil, al teclado o al mouse, sino que lo va a complementar. Donde sí puede llegar a darse un fuerte cambio es en atención al cliente (call centers), ya que la automatización de procesos podría llevar a que no haya personas trabajando en estos temas”, sintetizó el experto de la UBA y el Conicet.
"Her", la película que lo hizo posible
El tema del “diálogo” con las computadoras y de la incidencia de la tecnología en la vida rutinaria fue magníficamente abordado por Spike Jonze en la película “Her” (Ella), del año 2013.
En este caso se plantea ya no sólo una conversación sino más bien una relación amorosa entre el protagonista (a quien le da vida Joaquin Phoenix) y un sistema operativo informático (una voz que se identifica como Samantha), tanto en su celular como en su computadora.
En la historia, el protagonista y sus dispositivos entablan una relación íntima y el software no sólo reconoce su voz, sino que puede percibir sus sentimientos (o al menos esto es lo que se entiende), justamente a partir de cómo los expresa Phoenix.
Si bien la historia está basada en un escenario futuro, queda bien en claro que es uno nada lejano y prueba que, como canta el Indio Solari, “el futuro llegó hace rato”.