Diseño: lo que es importante para el futuro de las interfaces de voz

Diseño: lo que es importante para el futuro de las interfaces de voz

Hace un par de días, me compré un Amazon Echo. El dispositivo hace un trabajo impresionante al mostrarme cuán limitadas son las interfaces de voz de hoy. Eso necesita cambiar.

Asistente de voz de hoy

«No estoy seguro.«»No lo se.“Ese tipo de desorientación es lo que escucho de Alexa, la asistente de voz de Amazon Echo, la mayor parte del tiempo. Esto puede resultar insatisfactorio, pero básicamente es solo un problema de la base de conocimientos disponible. Agregue más sustancia al backend de Alexa, y este tipo de respuestas se volverá mucho menos común. Por lo tanto, no quiero seguir enfocándome en la falta de conocimiento en este artículo.

Pretty Box, se utiliza mejor como altavoz. (Foto: Amazon)

Aquí, solo quiero mencionar que el Asistente de Google gana cualquier competencia en ese sentido. Siri tiene una tasa de error igualmente horrible, aunque Siri es la tecnología más antigua de las tres, por lo que teóricamente debería ser la más avanzada.

La detección de voz funciona perfectamente bien

El problema real con Alexa y todos los demás asistentes de voz es diferente. No se trata de lo que solía ser el mayor problema, la detección de voz en sí misma. Gracias a las rápidas conexiones a la nube y la suficiente potencia informática, la detección en sí es casi perfecta. Incluso la diferenciación de diferentes idiomas en una frase ya no es un problema para la tecnología.

El próximo gran sitio de construcción que limita el éxito de la tecnología de voz en forma de interfaces conversacionales es el concepto de conversación en sí mismo. Honestamente, debo admitir que usar mi Echo no se parece realmente a una conversación.

La interacción se asemeja al MS DOS de los años ochenta

Alexa me recuerda a los primeros MS DOS. Como si estuviera usando líneas de comando, saco una oración tras otra de la delgada lata. Siempre comienzo mis comandos con la palabra «Alexa». El Echo no responde a otras solicitudes. Sin «Alexa», no hay mucho que hacer. Esto es diferente para algunas habilidades externas. Lo admito, pero la funcionalidad básica no es nada fluida.

Seguro que es bonito. ¿Y mencioné que la música suena realmente bien? (Foto: Amazon)

Tampoco puedo hablar como quiero. Alexa necesita que una oración se pronuncie de la manera que ella quiere. De lo contrario, simplemente no entenderá el comando. Los desarrolladores han preparado algunas variantes alternativas para entradas típicas. Pero aún necesita conocerlos para que Alexa responda. Esto es bastante nerd y muy parecido a un juguete. Supongo que hay una razón por la que configurar un temporizador es una de las funciones de eco más utilizadas.

El asistente de voz del mañana

En este artículo sobre t3n, presenté Interfaces conversacionales como los sistemas de diálogo del futuro. En este y este artículo de Noupe, analicé la narración como el elemento de diseño más importante de las generaciones futuras. Calculé que el tiempo hasta el cambio de un diseño puramente visual a uno orientado a la voz sería de unos diez años. Mirando a Alexa, es posible que quiera corregirme a los 15 años. Por lo menos…

Volvamos al gran problema mencionado anteriormente en el diseño conversacional a través de controles de voz. Los procesos complejos, como la compra de un producto que se puede configurar con diferentes opciones, no pueden ser atendidos dada la estrategia de uso común. Aquí, se necesita una conversación real con la tecnología para lograr resultados. El asistente de voz debe poder provocar la conversión. Por lo menos, no debería ser un obstáculo para ese objetivo. En el mejor de los casos, apoya positivamente el proceso.

Todavía tengo que encontrarme con ese asistente de voz que me mantenga motivado y dedicado. Crear ese asistente supondrá mucho trabajo para los diseñadores. Es algo similar a diseñar una forma más larga. Ambos conllevan el peligro de que el usuario se salga en cualquier momento. Las tasas de cancelación determinadas de las estrategias habituales de carritos de la compra lo demuestran. También es importante crear una conexión entre el usuario y el sistema. En el nivel más bajo, esta conexión comienza cuando el sistema no consulta los datos que ya conoce.

El contexto es el rey: el asistente de voz necesita una memoria a corto plazo (al menos)

Imaginemos hablar de Paul del departamento de recursos humanos con un colega. Después de las primeras dos oraciones, solo usaremos «él, él» para hablar de Paul, sin señalar nunca que todavía estamos hablando de Paul. A lo largo de la conversación, crearemos un contexto que asumimos que se conoce en las siguientes oraciones. De esta manera, incluso entendemos las insinuaciones sutiles. Diez minutos después, probablemente hayamos olvidado nuestra conversación sobre Paul.

Hasta ahora, los asistentes de voz se parecen más a sistemas de información, como enciclopedias o diccionarios. (Foto: Google)

Transferido al asistente de voz, esto significaría que necesitaba algún tipo de memoria a corto plazo para poder manejar la información y el contexto de manera productiva durante un tiempo limitado. Con Siri y el Asistente de Google, ya podemos ver las primeras etapas de esto, cuando se trata de enviar un mensaje de WhatsApp, por ejemplo. Aquí, el asistente nos guía a través del proceso.

Simple, decidido, confiable: el asistente de voz perfecto

Hablando de orientación: este aspecto es un factor importante en el diseño del diálogo. Siempre hablamos de orientación al usuario, pero sobre todo nos referimos a rutas de clic que se colocaron de manera más o menos inteligente. Con una tecnología de voz, podemos cultivar una guía real. Puedo ver una gran ventaja en eso.

Con todo eso, las interfaces de voz deben seguir siendo fáciles de controlar. De hecho, las interfaces de voz solo tienen sentido a largo plazo si siempre presentan las opciones más fáciles. De lo contrario, los usuarios siempre buscarán la otra alternativa más sencilla. Con el tiempo, tendremos que renunciar a los comandos de activación. Después de todo, comenzar cada oración con «Alexa, …» no es natural. En cambio, el asistente debería poder saber cuándo se le pregunta desde el contexto. Soy muy consciente del aspecto de la ley de protección de datos de esta declaración, y debería ser atendido.

Incluso después de todas las mejoras abordadas, el asistente de voz solo puede convertirse en un verdadero compañero si se embarca en nosotros. Para hacerlo, tendría que aprender y abrazar nuestras peculiaridades. De lo contrario, seguirá siendo la fuente de información sintética que es ahora. Rara vez confiamos en él y somos incluso más reservados que en un sitio web. Conocemos este último desde hace casi un cuarto de siglo, por lo que simplemente lo conocemos mejor que el algoritmo parlante.

¿Puedes seguirme?

Por último, pero no menos importante, un patinazo masivo será el resultado del hecho de que el habla no es igual al texto. Un texto siempre es formal y definido. El habla tiene acentos, dialectos, sociolectos, una amplia variedad de opciones de articulación. ¿Puede la tienda en línea permitirse el lujo de obligar a los clientes potenciales a utilizar ese discurso formal cuando ese cliente potencial quiere hacer un pedido? “Claro”, es lo que puedes decir, pero al final, este potencial cliente está solo frente a su computadora, y la decisión de si ordena o no es de él. Creo que tenemos que ajustar nuestra tecnología a las peculiaridades existentes de los humanos, en lugar de obligar a estos humanos a eliminar sus peculiaridades a favor de la tecnología.

Como puede ver, hay un largo camino hacia la interfaz de voz real. Los asistentes de voz que usa hoy apenas se parecerán a las interfaces del futuro.

#Diseño #importante #para #futuro #las #interfaces #voz

Publicaciones Similares

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *