Diagnostrum

Simple Mobile Health

Procesamiento de voz: ¿estamos cerca de las nuevas App de reconocimiento de voz?

Posted by on Oct 7, 2015 | 0 comments

Procesamiento de voz: ¿estamos cerca de las nuevas App de reconocimiento de voz?

El CEO de Expects Labs, Tim Tuttle, tiene una visión para la voz. En una charla en la Conferencia DATAVERSITY® Smart Data 2015, Tuttle detalla la historia reciente de procesamiento de voz y cómo el campo ha avanzado a una velocidad vertiginosa.

Con experiencia en el MIT y Bell Labs, Tuttle ha visto el surgimiento de la voz de primera mano. Hace apenas unos años, dice, los tipos de tecnología puestas en Siri y Cortana eran torpes en el mejor de los casos; incluso años después de que El coche fantástico explorara el concepto mismo de una voz electrónica incorpórea manteniendo una conversación con un ser humano, la gente no había realmente descubierto la manera de hacer estas voces “inteligentes” de una manera práctica.

“En ese entonces, los problemas parecían muy fuera de nuestro alcance”, dice Tuttle. “(Procesamiento de voz) costaba un brazo y una pierna, y los resultados eran mediocres.”……

Ahora, es una historia diferente. Tomando nota de que el reconocimiento por voz está ahora en todos los sistemas principales operativos móviles, Tuttle tiene una serie de predicciones para la voz: una significativa, asegura que en tan sólo un año y medio a partir de ahora, las computadoras serán “mejores” en la comprensión del habla que los humanos.

“La inteligencia artificial ha descifrado el código de la voz”, dice Tuttle, quien agregó que en 2018, los expertos esperan ver más de tres billones de dispositivos equipados con micrófonos, y sólo alrededor del 5% de ellos equipados con un teclado. Ya, Tuttle dice, las encuestas de las interacciones en línea están descubriendo que la voz cuenta con el 10% de todas las búsquedas, con informes de Apple que reflejan más de un billón de consultas de voz por semana a través de su plataforma de Siri.

Eso, dice Tuttle, dará lugar a cambios importantes en cómo los desarrolladores e ingenieros trabajan. Promocionando una “experiencia de voz sin fricción” que se convertirá en el santo grial del desarrollo de aplicaciones, Tuttle dice que no se trata sólo de ser “más rápido que escribir”, aunque empíricamente, la voz es más rápida. Sacando el reconocimiento de voz fuera del nicho de “manos libres”, y promocionándolo como una forma superior de interacción de la tecnología, Tuttle cree vamos a aceptar colectivamente el reconocimiento de voz como el predeterminado para la mayoría de los servicios.

“Lo vemos funcionando en todos los dispositivos, dentro de cada aplicación, y en cada hogar y la oficina”, dice Tuttle.

Más difícil de lo que parece

Entonces, ¿qué está impidiendo a las empresas subirse al carro y conseguir tales estados-del-arte, en lugar de soluciones de voz de próxima-generación? Según Tuttle, hay una serie de grandes desafíos a los que las empresas tienen que hacer frente cuando se aventuran en la voz por primera vez. Uno es la creación de un gráfico de conocimiento personalizado que contiene todas esas piezas vitales de los datos relacionados con productos, marcas, servicios y más, un conjunto de datos masivo que ha de aplicarse al marco para el motor de la voz. Más allá de eso, los desarrolladores tienen que crear modelos de comprensión del lenguaje natural que pueden tomar todos los datos y encontrar la manera de aplicarlo mediante la manipulación de elementos de los conjuntos de datos proporcionados. Como si eso no fuera suficiente, también está el problema de encontrar las respuestas correctas para las preguntas que los usuarios plantean, que, dice Tuttle, se reduce a una “un problema de recuperación de información”. Todo esto, a ser posible, hay que lograrlo con muy baja latencia, lo que sólo añade presión sobre los equipos de desarrollo.

Voice-Processing 2

La baja latencia es un problema particular debido a la agilidad en que se ha de conseguir. Como Tuttle señala, mostrando pruebas de comparación de los usuarios individuales que hacen ambas búsquedas de voz y texto, la voz se supone que es rápida, y eso es una parte importante de su atractivo; cada atascamiento y cada tartamudeo requiere un tiempo extra fuera del sprint que se supone que ocurrirá a raíz de una acción del usuario. Puede parecer injusto para los desarrolladores que tienen situarse en la primera línea de estos proyectos, que además de dominar los vastos “troves” de los datos significativos que constituyen aplicaciones de preguntas y respuestas, también tienen que entregarlo a más o menos la velocidad de la luz. Pero en el mercado de hoy, ésa es la manera que es.

La mayoría de las empresas no van a tener las horas de personal, experiencia técnica y recursos generales para manejar todo esto, y por eso Tuttle ve la plataforma MindMeld de su compañía proporcionando una experiencia de “intermediario” crítica que pondrá las soluciones de voz al alcance de la empresa de menor promedio. Al proporcionar economías de escala y las inversiones especializadas, estos terceros podrían teóricamente ser capaces de introducir a los clientes en el amplio mundo del Procesamiento del Lenguaje Natural, disminuyendo el precio de este billete de oro.

Cinco pasos para el éxito de la voz

Al relatar cómo funciona el servicio MindMeld, Tuttle menciona cinco pasos críticos para el logro de una solución de voz. La primera, es la creación de la gráfica de conocimiento, que Tuttle dice que puede hacerse parcialmente a través de la extracción de datos, con cosas como las tecnologías avanzadas de arrastre y Link-ups a bases de datos internas. El almacén de datos, Tuttle señala, es esencial: es el contenido en el que las “operaciones” del modelo de voz va a trabajar, las cosas reales de las que se habla, y los tipos de información en particular sobre los que los usuarios van a preguntar.

Luego está el trabajo de construir un modelo preciso de Procesamiento del Lenguaje Natural, que Tuttle dice que se sirve mejor por “sistemas de aprendizaje de máquina a gran escala” que conseguirán automáticamente mejorar en el procesamiento del lenguaje según vayan siendo utilizadas. Cuando los desarrolladores introducen una serie de preguntas de ejemplo en la interfaz, la tecnología de mapas sitúa los elementos en la gráfica de conocimiento, para llegar, finalmente, a ser más inteligente en el servicio a los usuarios.

“Esto hace que sea posible que anotadores humanos no expertos creen los conjuntos de datos necesarios… con una simple herramienta basada en la web” dice Tuttle, poniendo de relieve la idea de que tal interfaz realmente ayuda a cerrar la brecha para alguien que no es experto en el campo del procesamiento del habla.

En cuanto a la búsqueda de la respuesta correcta, de acuerdo con Tuttle, la solución para este paso se asemeja esencialmente motores de búsqueda. Tecnologías de la necesidad de crear listas de millones de posibles respuestas, y la puntuación de acuerdo a la relevancia, para recoger los mejores cada vez. Esto por sí solo requiere su propia potencia de procesamiento significativa, junto con los sistemas de triaje algorítmicos que tienen que ser cuidadosamente construida y mantenida.

En cuanto a la búsqueda de la respuesta correcta, de acuerdo con Tuttle, la solución para este paso se asemeja esencialmente a los motores de búsqueda. Las tecnologías necesitan crear listas de millones de posibles respuestas, y puntuarlas de acuerdo a la relevancia, para recoger las mejores cada vez. Esto por sí solo requiere su propia potencia de procesamiento significativa, junto con los sistemas de triaje algorítmicos que tienen que ser cuidadosamente construidos y mantenidos.

Además de todo lo anterior, las empresas tendrán que conectar su solución en una interfaz móvil, así esos usuarios pueden simplemente hablar al micrófono de su teléfono inteligente y tener el flujo de datos dentro y fuera de la aplicación que lo está usando. Para este paso, Tuttle recomienda el uso de los kits de desarrollo de software disponibles para plataformas individuales.

El último paso es la construcción de la interfaz de usuario de acuerdo con su propósito. Repasando los usos más probables para las nuevas soluciones de voz que veremos en su futuro, Tuttle habla sobre la televisión inteligente y sistemas de domótica, donde aplicaciones de voz sobre temas específicos permitirán a los usuarios navegar por un mundo virtual para obtener la información exacta que necesitan, desde sus refrigeradores, televisores o tostadoras.

Las soluciones de voz pueden ayudar con ingredientes que faltan en una receta, ayudarle a encontrar un programa de televisión en particular o película para ver, o traer más funcionalidad a pequeños dispositivos portátiles tales como rastreadores de fitness.

“Estas tecnologías están trabajando muy bien actualmente”, dijo Tuttle. “Esperemos realmente que una gran voz llegue a aplicaciones cercanas a ti”. La promesa de esta nueva funcionalidad va a impactar en muchas cosas. Puede cambiar el rostro del Internet de las cosas, ejercer presión sobre las empresas de software, y crear algunos de esos eventos de despliegue de productos épicos por los que la gente acampa. Puede buscar más voz para que rebote en el horizonte próximamente.

Fuente: dataversity.net

No te pierdas esta otras publicaciones:

Un Gel abre el camino para la impresión en 3D de los órganos biológicos

Presentado nuevo dispositivo para dar voz a las víctimas de parálisis

0 Comments

Trackbacks/Pingbacks

  1. ¿Saltarte el doctor e ir a tu Smartphone? Dr. Topol | Diagnostrum - [...] Procesamiento de voz: ¿estamos cerca de las nuevas App de reconocimiento de voz? [...]

Submit a Comment

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *