Text this: Descripción de escenas por medio de aprendizaje profundo