Sistema ajuda computadores a entender e interpretar a linguagem humana
Tese premiada pela Capes e pela UFMG é tema do episódio desta semana do programa ‘Aqui tem ciência’, da Rádio UFMG Educativa
Processamento de linguagem natural (PLN) é uma vertente da inteligência artificial (IA) que ajuda computadores a entender, interpretar e manipular a linguagem humana. A capacidade de representar palavras de maneira significativa e eficiente é crucial para as aplicações de PLN, pois isso afeta de forma significativa os métodos de machine learning (aprendizado de máquina)
O cientista de dados Felipe Augusto Resende Viegas projetou uma nova representação de documentos que agrupa palavras semanticamente relacionadas, as CluWords, para mitigar interpretações equivocadas de sentenças que podem prejudicar o aprendizado de máquina. O estudo, realizado no Programa de Pós-graduação em Ciência da Computação da UFMG, foi o vencedor do Prêmio Capes de Tese 2024, promovido pela Comissão de Aperfeiçoamento de Pessoal de Nível Superior, e do Grande Prêmio UFMG de Teses.
Estado da arte
Conceitualmente, as CluWords são construídas por meio de sistemas de filtragem e esquemas de ponderação, mecanismos para remover ruídos da mensagem. A solução desenvolvida constrói uma representação de dados mais específica com base em componentes capazes de melhorar a eficácia na detecção de tópicos relevantes.
Os experimentos demonstram que as CluWords são o estado da arte em modelagem de tópicos (busca de termos que representam determinado texto) e modelagem de tópicos hierárquicos (afunilamento dos tópicos, de forma ainda mais detalhada). No contexto da análise de sentimento, abordagem que analisa a polaridade dos textos, os testes mostram que a filtragem e a ponderação são capazes de mitigar erros na atribuição de sentido às palavras.
A pesquisa evidencia que as CluWords auxiliam no processo de acessar, analisar e extrair as informações relacionadas a textos que são usadas pelos computadores quando precisam processar a linguagem humana, como em chatbots ou no ChatGPT, programas computacionais que simulam conversas, propiciando que as pessoas interajam com dispositivos digitais.
Saiba mais sobre a pesquisa no novo episódio do Aqui tem ciência:
Raio-x da pesquisa
Título: On the role of semantic word clusters – CluWords – in natural language processing (NLP) tasks
O que é: tese que descreve uma nova representação de documentos chamada CluWords, método para aprendizado de máquina que agrupa palavras semanticamente relacionadas, a fim de mitigar ruídos semânticos.
Autor: Felipe Augusto Resende Viegas
Programa de Pós-graduação: Ciência da Computação
Orientador: Marcos André Gonçalves
Coorientador: Leonardo Chaves Dutra da Rocha
Ano de defesa: 2023
O episódio 190 do Aqui tem ciência tem produção e apresentação de Júlia Rhaine, edição de Alessandra Ribeiro e trabalhos técnicos de Cláudio Zazá. O programa é uma pílula radiofônica sobre estudos realizados na UFMG e abrange todas as áreas do conhecimento. A cada semana, a equipe da emissora apresenta os resultados de uma pesquisa desenvolvida na Universidade. O programa vai ao ar na frequência 104,5 FM e na página da emissora, às segundas, às 11h, com reprises às sextas, às 20h, e pode ser ouvido também em plataformas de áudio como Spotify e Amazon Music.