Diseño: lo que es importante para el futuro de las interfaces de voz

Diseño: lo que es importante para el futuro de las interfaces de voz

Hace un par de días, me compré un Amazon Echo. El dispositivo hace un trabajo impresionante al mostrarme cuán limitadas son las interfaces de voz actuales. Eso necesita cambiar.

Asistente de voz de hoy

«No estoy seguro.» «no se eso«Ese tipo de falta de idea es lo que escucho de Alexa, el asistente de voz de Amazon Echo, la mayor parte del tiempo. Esto puede ser insatisfactorio, pero básicamente, es solo un problema de la base de conocimiento disponible. Agregue más sustancia al backend de Alexa, y este tipo de respuestas serán mucho menos comunes, por lo que no quiero seguir centrándome en la falta de conocimiento en este artículo.

Pretty Box, mejor utilizado como altavoz. (Foto: Amazonas)

Aquí, solo quiero mencionar que el Asistente de Google gana cualquier competencia en ese sentido. Siri tiene una tasa de error igualmente horrible, aunque Siri es la tecnología más antigua de las tres, por lo que, en teoría, debería ser la más avanzada.

La detección de voz funciona perfectamente bien

El problema real con Alexa y todos los demás asistentes de voz es diferente. No se trata de lo que solía ser el mayor problema, la detección de voz en sí misma. Gracias a las conexiones rápidas a la nube y a la potencia informática suficiente, la detección en sí es casi perfecta. Incluso la diferenciación de diferentes idiomas en una oración ya no es un problema para la tecnología. El próximo gran sitio de construcción que limita el éxito de la tecnología de voz en forma de interfaces conversacionales es el concepto de conversación en sí mismo. Honestamente, debo admitir que usar mi Echo no se parece mucho a una conversación.

La interacción se parece al MS DOS de los años ochenta

Alexa me recuerda a los primeros MS DOS. Como si estuviera usando líneas de comando, saco una oración tras otra de la delgada lata. Siempre comienzo mis comandos con la palabra «Alexa». El Echo no responde a otras solicitudes. Sin «Alexa», no pasa mucho. Esto es diferente para algunas habilidades externas. Lo admito, pero la funcionalidad básica no es fluida en absoluto.

Seguro que es Bonito. ¿Y mencioné que la música suena realmente bien? (Foto: Amazonas)

Tampoco puedo hablar como quiero. Alexa necesita que una oración se pronuncie como ella quiere. De lo contrario, simplemente no entenderá el comando. Los desarrolladores han preparado algunas variantes alternativas para la entrada típica. Pero aún necesita conocerlos para que Alexa responda. Esto es bastante nerd, y muy parecido a un juguete. Supongo que hay una razón por la que configurar un temporizador es una de las funciones de Echo más utilizadas.

El asistente de voz del mañana

En este artículo sobre t3n, presenté Interfaces conversacionales como los sistemas de diálogo del futuro. En este y este artículo en Noupe, analicé la narración como el elemento de diseño más importante de las generaciones futuras. Calculé que el tiempo hasta el cambio del diseño puramente visual al orientado a la voz sería de unos diez años. Mirando a Alexa, es posible que quiera corregirme a 15 años. Al menos… Volvamos al gran problema mencionado anteriormente en el diseño conversacional a través de controles de voz. Procesos complejos, como la compra de un producto que puede configurarse con diferentes opciones, no pueden ser atendidos dada la estrategia de uso común. Aquí, se necesita una conversación real con la tecnología para lograr cualquier resultado. El asistente de voz tiene que poder provocar la conversión. Por lo menos no debería ser un obstáculo para ese objetivo. En el mejor de los casos, apoya positivamente el proceso. Todavía tengo que encontrar ese asistente de voz que me mantenga motivado y dedicado. Crear ese asistente será mucho trabajo para los diseñadores. Es algo similar a diseñar un formulario más largo. Ambos vienen con el peligro de que el usuario salga en cualquier momento. Las tasas de cancelación determinadas de las estrategias comunes del carrito de la compra lo demuestran. También es importante construir una conexión entre el usuario y el sistema. En el nivel más bajo, esta conexión comienza cuando el sistema no consulta datos que ya conoce.

El contexto es el rey: el asistente de voz necesita una memoria a corto plazo (al menos)

Imaginemos hablar de Paul del departamento de recursos humanos con un colega. Después del primer par de oraciones, solo usaremos «él, él» para hablar de Paul, sin señalar nunca que todavía estamos hablando de Paul. A lo largo de la conversación, construiremos un contexto que asumimos que se conoce en las siguientes oraciones. De esta manera, incluso entendemos sutiles insinuaciones. Diez minutos después, probablemente hemos olvidado nuestra conversación sobre Paul.

Hasta ahora, los asistentes de voz se parecen más a los sistemas de información, como enciclopedias o diccionarios. (Foto: Google)

Transferido al asistente de voz, esto significaría que necesita algún tipo de memoria a corto plazo para poder manejar la información y el contexto de manera productiva durante un tiempo limitado. Con Siri y el Asistente de Google, ya podemos ver las primeras etapas de esto, cuando se trata de enviar un mensaje de WhatsApp, por ejemplo. Aquí, el asistente nos guía a través del proceso.

Simple, Determinado, Confiable: El Asistente de Voz Perfecto

Hablando de orientación: este aspecto es un factor importante en el diseño del diálogo. Siempre hablamos de la guía del usuario, pero en su mayoría nos referimos a las rutas de clic que se colocaron de manera más o menos inteligente. Con una tecnología de voz, podemos cultivar una guía real. Puedo ver una gran ventaja en eso. Con todo eso, las interfaces de voz deben seguir siendo fáciles de controlar. De hecho, las interfaces de voz solo tienen sentido a largo plazo si siempre presentan las opciones más fáciles. De lo contrario, los usuarios siempre buscarán la otra alternativa más fácil. Con el tiempo, tendremos que renunciar a los comandos de activación. Después de todo, comenzar cada oración con «Alexa,…» no es natural. En cambio, el asistente tendría que ser capaz de saber cuándo se le pregunta por el contexto. Soy muy consciente del aspecto de la ley de protección de datos de esta declaración, y tendría que ser atendido. Incluso después de todas las mejoras abordadas, el asistente de voz solo puede convertirse en un verdadero compañero si se embarca en nosotros. Para hacerlo, tendría que aprender y aceptar nuestras peculiaridades. De lo contrario, seguirá siendo la fuente de información sintética que es ahora. Rara vez confiamos en él, y somos incluso más reservados que en un sitio web. Hemos conocido este último durante casi un cuarto de siglo, por lo que simplemente lo conocemos mejor que el algoritmo parlante.

¿Puedes seguirme?

Por último, pero no menos importante, un derrape masivo será el resultado del hecho de que el habla no es igual al texto. Un texto es siempre formal y definido. El habla tiene acentos, dialectos, sociolectos, una amplia variedad de opciones de articulación. ¿Puede la tienda online permitirse el lujo de obligar a los clientes potenciales a utilizar ese discurso formal cuando ese cliente potencial quiere hacer un pedido? «Claro», es lo que puedes decir, pero al final, este cliente potencial está solo frente a su computadora, y la decisión de si ordena o no es toda suya. Creo que tenemos que ajustar nuestra tecnología a las peculiaridades existentes de los humanos, en lugar de obligar a estos humanos a eliminar sus peculiaridades a favor de la tecnología. Como puede ver, hay un largo camino hasta la interfaz de voz real. Los asistentes de voz que usas hoy apenas se parecerán a las interfaces del futuro.

#Diseño #importante #para #futuro #las #interfaces #voz

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *