Pesquisa propõe abordagens para garantir justiça em decisões apoiadas em bases de dados
Ferramentas usadas para contratações, empréstimos e até sentenças criminais têm vieses que podem prejudicar segmentos sociais; Bruna Seewald estudou o tema no mestrado em Ciência da Computação
Nos últimos anos, ferramentas baseadas em dados e que auxiliam em processos de tomada de decisão têm sido usadas para contratação, concessão de empréstimos bancários e até proferimento de sentenças na justiça criminal. Essas decisões afetam significativamente a vida das pessoas, o que provoca preocupação crescente quanto ao efeito de vieses que interferem nos resultados produzidos por essas ferramentas. Uma parcela da comunidade de aprendizado de máquina está focada em problemas relativos a justiça, culpabilidade, transparência e ética relacionadas a esses sistemas.
Em sua pesquisa de mestrado, defendida em dezembro de 2021, no Programa de Pós-graduação em Ciência da Computação da UFMG, Bruna Seewald propõe, em abordagem inédita, a aplicação de conceitos de justiça a modelos de análise de sobrevivência, um método estatístico que indica a probabilidade, no tempo, de um evento ocorrer.
“Ainda que os algoritmos de aprendizado de máquina auxiliem na tomada de decisão em contextos socioeconômicos, os modelos treinados por esses algoritmos não são perfeitos, isto é, erros podem ocorrer”, afirma a pesquisadora. “Um algoritmo pode condenar uma pessoa inocente por vieses raciais. Por isso, o uso das ferramentas deve implicar a responsabilidade de reportar, explicar ou justificar decisões algorítmicas, assim como mitigar qualquer impacto negativo ou potencial prejuízo à sociedade“, continua Bruna, que foi orientada pelo professor Flavio Vinicius Diniz de Figueiredo.
O estudo apresentou três possíveis abordagens de aplicabilidade de conceitos de justiça em modelos de análise de sobrevivência. A primeira focou na disparidade das curvas de sobrevivência observadas nos dados quando comparadas com previsões, denominada divergência em paridade demográfica. Foram utilizados, segundo a pesquisadora, o método de Kaplan-Meier para as curvas empíricas e o modelo de Cox para as curvas preditas. A segunda abordagem, denominada discriminação causal, consistiu na realização de um cálculo do c-index (índice de concordância, métrica que avalia predições feitas por algoritmos em modelos de análise de sobrevivência) no qual foram alterados os dados do grupo de interesse estudado.
“Por fim, propusemos uma métrica nova, chamada de justiça de filas, na qual comparamos cenários hipotéticos de duas pessoas sendo julgadas por um modelo de aprendizado de máquina ao mesmo tempo. Essas abordagens foram testadas em três bases de dados, com contextos diferentes: Mimic-III, Rossi e Compas. A primeira é uma base médica, e as demais, criminais. O intuito foi analisar a justiça sob diferentes aspectos. Além disso, foram usados algoritmos do modelo de Cox e variações com aprendizado profundo para fazer as predições e os cálculos das métricas envolvendo o c-index”, descreve Bruna.
Influência da variável raça
A pesquisadora relata que, na métrica de justiça de filas para a base Rossi, foram identificados dois casos de injustiça em que o erro prejudicou os grupos de pessoas não casadas e o grupo de pessoas que não receberam financiamento, já que a reincidência prevista pelo modelo deveria ocorrer antes para esses grupos. “Apesar de não ter sido encontrado viés quando considerada a variável raça, a análise exploratória mostrou que ela influencia o risco de ocorrência do evento, neste caso, a reincidência.
No caso da métrica de justiça de filas para a base Compas, foram identificados casos de injustiça em três das quatro situações propostas. Nesses casos, o erro prejudicou mais o grupo de pessoas negras, uma vez que a reincidência prevista pelo modelo deveria ocorrer antes para esse grupo. Esse resultado está em concordância, de acordo com a pesquisadora, com os achados da análise original feita pelos integrantes do ProPublica, coletivo de jornalistas que se dedicou a analisar profundamente essa base.
“Em todas as bases, apareceram situações com vieses, o que mostra que as abordagens propostas são um caminho para a aplicabilidade de conceitos de justiça em modelos de análise de sobrevivência. Em particular, a métrica de justiça de filas mostrou-se bem promissora, conseguindo identificar casos de injustiça em todas as bases selecionadas”, diz Bruna Seewald.
No que diz respeito ao uso de bases da área médica, de acordo com Bruna, foram encontradas diferenças que precisam ser esclarecidas, já que ainda não é totalmente compreensível como pesquisadores conseguem quantificar justiça em serviços de saúde. Também é essencial, salienta Bruna, garantir que essas bases sejam alimentadas com dados mais diversos e representativos, para que as comparações sejam mais robustas e confiáveis. “Esse tipo de avaliação é crucial para evitar que as ferramentas que utilizam modelos de aprendizado de máquina perpetuem injustiças sociais e históricas. Uma sugestão para trabalhos futuros é testar bases de outros contextos, por exemplo, bases de empréstimo bancário e contratação de pessoas, o que vai ampliar o conjunto de resultados.
Oportunidades para inovação
A pesquisadora afirma que há espaço para melhorias na própria métrica de justiça de filas, com vistas a facilitar o entendimento. “Num estágio mais avançado, será possível aplicar técnicas para mitigar os vieses encontrados nessas bases, até gerando novas ferramentas. Em suma, o estudo mostrou que ainda há muitas oportunidades para pesquisa e inovações na área”.
Um dos resultados do estudo foi a construção de um protótipo que pode se transformar em uma ferramenta útil para as empresas e para a sociedade, que reduza ou mesmo elimine injustiças em campos como saúde, segurança e finanças. Bruna Seewald explica que, porque se trata de um estudo pioneiro, houve dificuldades para encontrar literatura e, ao mesmo tempo, no Brasil, acessar os dados. “A computação é uma grande aliada para as diversas áreas, e essa pesquisa propõe melhorias para as bases de dados que constroem o aprendizado de máquinas, tornando o sistema mais justo. Pretendo seguir com o estudo e construir, com base no protótipo que criamos, uma ferramenta efetiva e apta para ser posta em prática”, conclui.
Dissertação: Uma proposta de conceitos de justiça aplicados a modelos de análise de sobrevivência
Autora: Bruna Roberta Seewald da Silva
Orientador: Flavio Vinicius Diniz de Figueiredo
Defesa: dezembro de 2021, no Programa de Pós-graduação em Ciência da Computação da UFMG