Procesamiento de videos para la extracción de segmentos de tiempo y asignación para audio descripción

El informe describe una técnica que llamamos "diarización inversa" en el módulo de audio descripción para la empresa de Dicapta que sería utilizado para encontrar los espacios vacíos en la señal de audio de un video, que luego se pueden asignar para la Audio Descripción. La técnica se basa...

Full description

Autores:
Forero Zapata, Santiago
Tipo de recurso:
Trabajo de grado de pregrado
Fecha de publicación:
2023
Institución:
Universidad Militar Nueva Granada
Repositorio:
Repositorio UMNG
Idioma:
spa
OAI Identifier:
oai:repository.unimilitar.edu.co:10654/45747
Acceso en línea:
http://hdl.handle.net/10654/45747
Palabra clave:
VIDEOS
CINTAS DE VIDEO - EDICION
description audio
diarization
frequency
accessibility
audio processing
audio descripción
diarizacion
frecuencia
accesibilidad
procesamineto de audio
Rights
openAccess
License
http://creativecommons.org/licenses/by-nc-nd/4.0/
Description
Summary:El informe describe una técnica que llamamos "diarización inversa" en el módulo de audio descripción para la empresa de Dicapta que sería utilizado para encontrar los espacios vacíos en la señal de audio de un video, que luego se pueden asignar para la Audio Descripción. La técnica se basa en los resultados de la diarización de voz, que es un proceso que divide la señal de audio en partes que contienen voz. Una vez que se ha llevado a cabo la diarización de voz, la diarización inversa se utiliza para encontrar los segmentos donde no hay voz. Para llevar a cabo la diarización inversa, se necesitan archivos RTTM (Rich Transcription Time Marked) que contienen información detallada sobre la diarización como el tiempo inicial y final de cada hablante. Es importante tener en cuenta la precisión de la diarización de habla y la calidad de la señal de audio para obtener resultados precisos. Por lo tanto, es esencial ajustar contar con un video y audio procesado de la mejor manera para obtener los mejores resultados. El texto también describe las técnicas de procesamiento de audio utilizadas por la biblioteca Pyannote para llevar a cabo la diarización de habla. Estas técnicas incluyen la extracción de características acústicas, la detección de actividad vocal, la detección de cambios de locutor, la representación de turnos de habla y la agrupación de los turnos de cada locutor. Estas técnicas son esenciales para la diarización del habla y la diarización inversa. Para concluir, la diarización inversa es una técnica importante para encontrar los espacios vacíos en la señal de audio de un video para asignar Audio Descripción. Se basa en los resultados de la diarización de habla y se deben ajustar los parámetros adecuados para obtener los mejores resultados. La calidad de la señal de audio también es importante para obtener resultados precisos. Las técnicas de procesamiento de audio utilizadas por la biblioteca Pyannote son esenciales para la diarización de habla y la diarización inversa.