Reconocimiento de voz para un sistema de interacción humano máquina orientado a personas con limitaciones motrices
Resumen
El desarrollo de este trabajo de grado se basa en la problemática que afrontan las personas con limitaciones motrices al momento de conectarse con el mundo vía Internet, ya que no les es posible utilizar el mouse y teclado de una forma tradicional, en este orden de ideas, este trabajo de grado generó aportes en esta temática desarrollando una interfaz que permite la interacción entre una persona con limitaciones motrices y la aplicación WhatsApp Desktop mediante comandos de voz.
El trabajo de grado utilizó un método Inductivo, teniendo un enfoque cualitativo, con alcances exploratorios, explicativos y experimentales. En el cual se realizó una investigación sobre sistemas afines que empleen señales de voz para el comando de interfaces humano-máquina, identificando técnicas y experimentos utilizadas en la comunidad científica. Con base en la información extraída, se definió la aplicación WhatsApp Desktop como instrumento de pruebas para implementar la interfaz, se diseñaron los componentes software que permiten una navegación básica en la aplicación y posteriormente se implementaron los algoritmos de procesamiento de voz e interacción con el sistema operativo del computador utilizando lenguaje Python.
Los alcances y limitaciones de la interfaz fueron cuantificados mediante pruebas y encuestas a un grupo de siete personas. Inicialmente se caracterizó la familiarización de los usuarios con Internet, la aplicación WhatsApp y sistemas de reconocimiento de voz. Posteriormente se realizó un conjunto de tres pruebas; la primera prueba evaluó el desempeño del sistema para reconocer un conjunto de 26 comandos donde cada usuario pronunció cada comando de forma independiente tres veces, evaluando un total de 546 comandos y obteniendo un porcentaje de acierto total del 91.76%.
La segunda prueba evaluó el desempeño del sistema para reconocer dictados, para esto se definió un dictado de 29 palabras el cual cada uno de los siete usuarios pronunció tres veces, evaluando un total de 609 palabras en dictado y obteniendo un porcentaje de acierto de 93%.
La tercera prueba evaluó el desempeño de la interfaz directamente sobre la aplicación WhatsApp Desktop, para esto se diseñó un protocolo de pruebas que combina comandos con dictados y permite al usuario abrir la aplicación, seleccionar un contacto y enviar un mensaje. Esta prueba fue repetida tres veces por cada uno de los siete usuarios y obtuvo un porcentaje de acierto del 91.16%.
Finalmente, se realizó una encuesta para cuantificar la percepción de los usuarios luego de interactuar con la interfaz desarrollada, en general un 40.6% y un 23.2% de los sujetos de prueba están de acuerdo y totalmente de acuerdo en que la interfaz es una herramienta útil y mejora en la calidad de vida de personas con limitaciones motrices. De igual manera, manifestaron como trabajo futuro la necesidad de integrar signos de puntuación y tildes para una mejor calidad del texto enviado como mensaje.
Abstract
The development of this degree work is based on the problems faced by people with motor limitations when connecting to the world via the Internet, since it is not possible for them to use the mouse and keyboard in a traditional way. In this order of ideas, this degree work generated contributions in this area by developing an interface that allows interaction between a person with motor limitations and the WhatsApp Desktop application through voice commands.
The degree work used an inductive method, taking a qualitative approach, with exploratory, explanatory and experimental scopes. In which research was conducted on related systems that use voice signals to command human-machine interfaces, identifying techniques and experiments used in the scientific community. Based on the information extracted, the WhatsApp Desktop application was defined as a test instrument to implement the interface, the software components that allow basic navigation in the application were designed and later the algorithms for voice processing and interaction with the computer operating system were implemented using Python language.
The scope and limitations of the interface were quantified through tests and surveys of a group of seven people. Initially, users' familiarization with the Internet, the WhatsApp application and speech recognition systems was characterized. Subsequently, a set of three tests were performed; the first test evaluated the system's performance in recognizing a set of 26 commands where each user independently pronounced each command three times, evaluating a total of 546 commands and obtaining a total success rate of 91.76%. The second test evaluated the performance of the system to recognize dictations. For this purpose, a dictation of 29 words was defined, which each of the seven users pronounced three times, evaluating a total of 609 words in dictation and obtaining a 93% success rate.
The third test evaluated the performance of the interface directly on the WhatsApp Desktop application. For this, a test protocol was designed that combines commands with dictations and allows the user to open the application, select a contact and send a message. This test was repeated three times by each of the seven users and obtained a 91.16% success rate.
Finally, a survey was conducted to quantify the users' perception after interacting with the developed interface. In general, 40.6% and 23.2% of the test subjects agree and totally agree that the interface is a useful tool and improves the quality of life of people with motor limitations. Similarly, they expressed as future work the need to integrate punctuation marks and accents for better quality of the text sent as a message.