Novas tecnologias apoiam pesquisas da Fale sobre a língua falada
Laboratório dedicado a estudos da linguagem fornece material inédito para investigações em diversas áreas
A fala varia conforme a ação ou o comportamento que a ela serve de contexto. Um professor que dá uma aula, um motorista que discute no trânsito, uma criança que brinca se expressam de modos diferentes. “Quando muda a ação, muda radicalmente a estrutura da fala. Não depende tanto se a pessoa é jovem ou idosa, mais ou menos culta, se vem do Norte ou do Sul do país”, afirma a professora Heliana Mello, coordenadora, com o professor Tommaso Raso, do Laboratório de Estudos Empíricos e Experimentais da Linguagem (Leel), vinculado à Faculdade de Letras da UFMG.
A equipe do laboratório estuda a fala espontânea em diferentes situações comunicativas, com falantes distintos e variadas formas de interação. De acordo com os coordenadores, a linguística sempre deu mais atenção à escrita e à fala selecionada (entrevistas, bate-papos, monólogos). Portanto, as conclusões eram tiradas de observações limitadas em termos de tipologias de comunicação. “A linguística de corpus, metodologia que usamos, é mais avançada para o estudo da escrita. No caso da fala, sofreu com limites tecnológicos e com a falta de consciência de que ela é diferente. A autonomia da fala como objeto de estudo é relativamente recente”, comenta Tommaso Raso.
O projeto em que está envolvida a equipe do Leel – cerca de 20 pesquisadores, entre professores, doutorandos, mestrandos e bolsistas de iniciação científica – foi iniciado em 2007, com coleta e tratamento de dados para a formação de corpora. Cinco anos depois foi publicado o primeiro livro, C-Oral-Brasil I – Corpus de referência do português falado informal. Em 2018, será lançado o segundo volume, destinado a tratar da fala que se observa na mídia, nas conversas ao telefone e em situações formais, em contexto natural (face a face). A iniciativa foi abordada em reportagem da edição 2005 do Boletim UFMG.
O estudo da fala revela numerosos aspectos, incluindo a presença do silêncio. A cultura brasileira é marcada por pouco silêncio, diferentemente do que ocorre nos países nórdicos. O silêncio é menos tolerado nas conversas telefônicas, por exemplo, que numa partida de futebol. Em situações como essa, a comunicação pode ser mantida por meio de ações não verbais, e o silêncio é mais tolerado.
Precisão
De acordo com Tommaso Raso, é crucial para as pesquisas do grupo manter alto nível de precisão metodológica: “Atingimos elevado grau de confiabilidade, que se deve em grande medida à metodologia de coleta e tratamento. Lidamos com grandes conjuntos de dados processáveis computacionalmente e submetidos a técnicas estatísticas.”
Novas tecnologias possibilitaram evolução significativa dos procedimentos, segundo os pesquisadores. Hoje, é possível alinhar som e texto, para ouvir e ler o material ao mesmo tempo. As gravações são de altíssima fidelidade, e microfones de lapela e transmissão de sinais via rádio conferem naturalidade e mobilidade ao registro de situações cotidianas.
Os pesquisadores têm à sua disposição softwares – como o WinPitch e o Praat – que fazem análise superfina dos aspectos acústicos, tanto segmentais (segmentos são os sons que compõem as palavras) quanto prosódicos (prosódia é tudo que é relacionado à melodia, ao tempo e à intensidade com as quais os segmentos são realizados). “Ninguém tem mais dúvida de que a prosódia é fundamental para a linguagem. Você pode dizer ‘João’ para chamar alguém, para fazer uma pergunta, para mostrar surpresa, entre muitas alternativas. A acionalidade da fala é elemento crucial”, diz Heliana Mello.
Os coordenadores do Leel enfatizam que a construção de um corpus de fala é um processo longo e custoso, que exige uma equipe grande e bem treinada. O empreendimento inclui planejamento, gravação, transcrição (10 minutos de fala resultam, em média, em 60 minutos de trabalho), segmentação, revisão. Cada áudio é transcrito e revisado pelo menos quatro vezes. E o trabalho só é considerado concluído quando se atinge índice inferior a 5% de erros. Vale ressaltar que um profissional não pode trabalhar por muito tempo sem interrupção, ou perde a capacidade de manter a atenção necessária. “Segmentar é agrupar em unidades entonacionais, o que requer treinamento, pois na fala esse processo é inconsciente”, explica Heliana Mello.
Material inédito
O Laboratório de Estudos Empíricos e Experimentais da Linguagem fornece material inédito para pesquisas e documentação da fala. “São textos analisados sempre em interface com a prosódia, em perspectiva acional”, salienta Tommaso.
Os resultados obtidos pelos pesquisadores do Leel têm servido para projeto da USP, que produz corpora do português de Angola e do quimbundo (língua nativa do mesmo país). O grupo da UFMG também vai participar da produção de corpus da fala de esquizofrênicos, na comparação com pessoas saudáveis, como forma de apoio a diagnósticos.
Os coordenadores lembram ainda que os corpora são insumos importantes para o desenvolvimento de tecnologias de reconhecimento automático e produção de fala por máquinas, como robôs. Atualmente, o Leel colabora com grupo da Unicamp na concepção de software sofisticado com essa finalidade.
“Também estamos desenvolvendo uma plataforma de buscas que propiciará a pesquisadores do mundo inteiro a utilização gratuita de nossos corpora, com possibilidade de download de áudios”, anuncia Tommaso Raso.