Método para composição de closed-captions com parâmetros tipográficos representando visualmente qualidades acústicas
Tecnologia para legendagem de conteúdo audiovisual auxilia na compreensão dos aspectos subjetivos da fala
Representar visualmente as qualidades acústicas da fala. Este é o objetivo de um método para composição de closed-captions – as legendas que transcrevem a voz dos falantes em conteúdo audiovisual – criada por pesquisadores da Faculdade da Engenharia Elétrica e de Computação da Unicamp. A tecnologia visa permitir a compreensão das dimensões subjetivas da comunicação sonora, por meio da extração de parâmetros prosódicos de cada sílaba do áudio da fala de entrada.
Ela foi desenvolvida com a intensão de facilitar a apreensão do conteúdo por indivíduos com déficit auditivo, em processo de alfabetização ou de aprendizado de outro idioma. Isso porque a comunicação oral não ocorre apenas por meio da informação objetiva transmitida pela voz, mas também pela prosódia, que é o modo como as palavras são articuladas e que podem indicar ironia, sarcasmo, tristeza, entre outras características, variando de acordo com a origem do falante, bem como sua idade, gênero e estado de espírito.
A invenção busca capturar elementos acústicos da fala de modo que o espectador consiga perceber os aspectos da prosódia mesmo sem acesso ao áudio, interpretando sozinho as emoções. Dessa forma, ela não imprime uma interpretação específica a esses elementos e nem busca eliminar a ambiguidade da fala, mas fornece subsídios para que o público consiga lidar melhor com essas propriedades.
A partir do áudio de uma fala e de um arquivo texto com sua transcrição, o método obtém a transcrição temporalizada desse áudio com informações sobre a segmentação da fala em sílabas. Tal procedimento ocorre por meio de inspeção visual em um software especializado em processamento de áudio ou de aplicativos de segmentação automática, modulando parâmetros tipográficos em fontes já existentes no mercado, com um modelo de mapeamento prosódico-tipográfico alternativo.
As representações visuais utilizadas são intuitivas e funcionam mesmo que o público desconheça um modelo formal de prosódia. Além disso, elas são facilmente adaptáveis a contextos em que as closed-captions são tipicamente aplicadas e permitem que as modulações sejam animadas de maneira síncrona com as modulações prosódicas nas vozes das personagens no vídeo.