Alexa, ¿cómo funciona siri? El control por voz explicó

Vídeo: siri control por voz sin usar ningun boton

Podemos hablar con casi todos nuestros aparatos ahora, pero exactamente ¿Cómo funciona? Cuando le preguntas “¿Qué canción es esto?” O decir “Llamar a mamá”, un milagro de la tecnología moderna está sucediendo. Y si bien parece que está a la vanguardia, esta idea de hablar con los dispositivos se remonta a décadas - casi tan lejos como mochilas propulsoras de la ciencia ficción!

Hoy en día, la mayor parte de la atención prestada a la computación vocal está en los teléfonos inteligentes. Apple, Amazon, Microsoft y Google están en la parte superior de la cadena, ofreciendo cada uno su propia manera de hablar con la electrónica. Usted conoce lo que son: Siri, Alexa, Cortana, y los sin nombre “Ok, Google” ser. Lo que plantea una gran pregunta ...

¿Cómo funciona un dispositivo de tomar las palabras habladas y los convierten en comandos que pueda entender? En esencia, se trata de coincidencia de patrones y hacer predicciones basadas en esos patrones. Más específicamente, el reconocimiento de voz es una tarea compleja y viene de Modelado acústico y lenguaje de Modelado.

Modelado acústico: Las formas de onda & móviles

forma de onda

Vídeo: Crestron se integra con el Control por Voz de Alexa

Modelado acústico es el proceso de tomar una forma de onda de expresión y analizarla utilizando modelos estadísticos. El método más común para esto es Ocultos de Markov Modelado, que se utiliza en lo que se llama Pronunciación de modelado para romper el discurso en sus partes componentes llamados teléfonos (que no debe confundirse con los dispositivos de teléfono real). Microsoft ha sido investigador principal en este campo durante muchos años.

Ocultos de Markov Modelado: Probabilidad Unidos

Ocultos de Markov modelado es un modelo matemático de predicción, donde el estado actual se determina mediante el análisis de la salida. Wikipedia tiene un gran ejemplo usando dos amigos.

Imaginemos dos amigos - Local Friend y amigo a distancia - que viven en diferentes ciudades. Amigo local quiere averiguar lo que el clima es como donde vive amigo a distancia, pero amigo a distancia sólo quiere hablar de lo que hizo ese día: caminar, hacer compras o limpio. La probabilidad de cada actividad en función de tiempo del día.

Ocultos de Markov Modelado

Haga de cuenta que esta es la única información disponible. Con él, amigo local puede encontrar tendencias en cómo el tiempo cambia de día en día, y el uso de estas tendencias, se puede empezar a hacer conjeturas acerca de lo que el tiempo de hoy se basa en la actividad de su amiga ayer. (Se puede ver un diagrama del sistema anterior).

Si quieres un ejemplo más complejo, echa un vistazo a este ejemplo en Matlab. En reconocimiento de voz, este modelo esencialmente compara cada parte de la forma de onda en contra de lo que viene antes y lo que viene después, y en contra de un diccionario de formas de onda de averiguar lo que se dice.

Esencialmente, si usted hace un sonido “th”, que va a comprobar que el sonido contra los sonidos más probables que por lo general vienen antes y después de ella. Tal vez eso significa que la comprobación contra el sonido “e”, la “a” de sonido, y así sucesivamente. Cuando el patrón coincide correctamente, entonces tiene toda la palabra. Esta es una simplificación excesiva, pero se puede ver toda la explicación de Microsoft aquí.

Modeling Language: Más que sonido

Modelado acústico va un largo camino en ayudar a su equipo a entender, pero ¿qué pasa con los homónimos y las variaciones regionales en la pronunciación? Ahí es donde Lenguaje de Modelado entra en juego. Google ha impulsado una gran cantidad de investigación en esta área, principalmente a través del uso de N-gramo Modelado.

Cuando Google está tratando de entender su discurso, lo hace basado en modelos derivados de su banco masivo de voz de búsqueda de YouTube y transcripciones. Todas esas leyendas vídeo hilarante equivocadas en realidad han ayudado a Google a evolucionar sus diccionarios. Además, se utilizan los difuntos GOOG-411 para recoger información sobre cómo hablan las personas.

shutterstock_70757203

Todo esto recogida lenguaje creado una amplia gama de pronunciaciones y dialectos, lo que hizo una robusta diccionario de palabras y cómo suenan. Esto permite que para los partidos que tienen una tasa de error reducido en gran medida de coincidencia de fuerza bruta basado en probabilidades primas. Usted puede leer un breve artículo que describe sus métodos aquí.

Mientras que Google es una empresa líder en este campo, existen otros modelos matemáticos están desarrollando, incluyendo los modelos de espacio continuo y modelos de lenguaje de posición, que son las técnicas más avanzadas que nacen de la investigación en inteligencia artificial. Estos métodos se basan en replicar el tipo de razonamiento lo hacen los humanos cuando se escucha el uno al otro. Estos son mucho más avanzada tanto en términos de la tecnología detrás de ellos, sino también la de matemáticas y de programación necesarios para trazar estos modelos.

N-Gram Modelado: Probabilidad de memoria Cumple

trabajos de modelado N-gram basa en probabilidades, pero utiliza un diccionario existente de palabras para crear un árbol de ramificación de posibilidades, que se alisó entonces a cabo en aras de la eficiencia. En cierto modo, esto significa que N-gramo Modelado elimina una gran cantidad de la incertidumbre en la antes mencionada Hidden Markov Modeling.

Como se señaló anteriormente, la fuerza de este método viene de tener un gran diccionario de palabras y uso, no sólo primitiva sonidos. Esto le da al programa la capacidad de distinguir la diferencia entre homófonos, así como “beat” y “remolacha”. Es contextual, lo que significa que cuando se habla acerca de las puntuaciones de la noche anterior, el programa no está tirando hacia arriba palabras sobre sopa de remolacha.

Pero estos modelos en realidad no son los mejores para el lenguaje, debido principalmente a problemas con probabilidades de palabras en frases más largas. A medida que agrega más palabras para una frase, este modelo se hace un poco fuera ya que es improbable que han cargado todo lo necesario para su pensamiento completo sus primeras palabras.

Sin embargo, es simple y fácil de implementar, por lo que es un gran partido para una compañía como Google que disfruta lanzando servidores a problemas computacionales. Usted puede hacer la lectura adicional de N-gramo Modelieng en la Universidad de Washington, o se puede ver una conferencia en Coursera.

Gritando a las nubes: Aplicaciones & dispositivos

Cualquier persona que utiliza Siri sabe la frustración de una conexión de red lenta. Esto se debe a sus comandos a Siri se envían a través de la red para ser decodificado por Apple. Cortana para el teléfono de Windows también requiere una conexión de red para que funcione correctamente. Por el contrario, sin embargo, Echo de Amazon es sólo un altavoz Bluetooth sin Internet.

¿Por qué la diferencia? Debido a Siri y Cortana necesitan servidores de alta resistencia para decodificar su discurso. Podría ser hecho en su teléfono o tableta? Claro, pero matarías a su rendimiento y duración de la batería en el proceso. Simplemente tiene más sentido para descargar el procesamiento de máquinas dedicadas.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

Vídeo: SkyRover Voice Command de COLORBABY | Tutorial control por voz

Piénsalo de esta manera: el comando es un coche atascado en el barro. Probablemente se podría empujar hacia fuera usted mismo con suficiente tiempo y esfuerzo, pero tomará horas y te dejan agotado. En su lugar, se llama a la asistencia en carretera y tirar de su coche a cabo en tan sólo unos minutos. La desventaja es que usted tiene que hacer la llamada y esperar a que ellos, pero aún así es más rápido y menos complicado.

modelos de escritorio como Nuance tienden a utilizar los recursos locales debido al hardware más potente. Después de todo, en las palabras de Steve Jobs, el escritorio es un camión. (Lo cual hace que sea un poco tonto que OS X está utilizando servidores para su procesamiento.) Así que cuando se necesita para procesar el lenguaje y la voz, ya está lo suficientemente bien equipado para manejar la situación por sí mismo.

Por otro lado, Android permite a los desarrolladores incluir el reconocimiento de voz sin conexión en sus aplicaciones. Google le gusta ir por delante de la tecnología, y se puede apostar las otras plataformas ganarán esta capacidad ya que su hardware se vuelve más poderoso. A nadie le gusta que cuando el pobre cobertura o mala recepción lobotomizes su dispositivo.

Comience utilizando comandos de voz Ahora

Ahora que ya conoce los conceptos fundamentales, que debe jugar con los diferentes dispositivos. Probar el nuevo Dictado por voz en Google Docs. Como si el paquete Office Web no era ya lo suficientemente potente, control de voz le permite dictar y dar formato a sus documentos por completo. Esto amplía la tecnología de gran alcance que ya diseñados para Chrome y Android.Cómo voz Typing es el nuevo mejor característica de Google DocsCómo voz Typing es el nuevo mejor característica de Google DocsEl reconocimiento de voz ha mejorado a pasos agigantados en los últimos años. A principios de esta semana, Google introdujo finalmente la voz tecleando en Google Docs. Pero, ¿es bueno? ¡Vamos a averiguar!Lee mas

Otras ideas incluyen la creación de su Mac para usar los comandos de voz y la creación de su Amazon Echo con checkout automatizado. Vive en el futuro y abrazar a hablar con sus artilugios - incluso si sólo está pidiendo más toallas de papel. Si eres un adicto a teléfonos inteligentes, también tenemos tutoriales para Siri, Cortana, y Androide.

¿Cuál es su uso preferido de control de voz? Háganos saber en los comentarios.

Artículos Relacionados