Text this: Implementación de un sistema multimodal que se enfoque en manipular, tomar y agarrar objetos en un ambiente controlado a través de instrucciones de voz y reconocimiento de objetos