Gustavo Schainberg S. Babo
Continuando nossa discussão da semana anterior, discute-se agora o fator precisão. a) Precisão Os algoritmos não são funcionais até serem ligados com bases de dados, que quanto maiores e melhores forem, mais precisos serão os resultados entregues. Todavia, as diferenças de precisão de um modelo também podem gerar vieses em algoritmos e precisamos entender melhor como isso funciona.
Foram várias as situações que geraram consequências pela falta de precisão, como na utilização da tecnologia de reconhecimento facial, que foi menos precisa ao reconhecer mulheres negras, confundiu 28 congressistas americanos com detentos, ou até mesmo não reconheceu o tom de pele negro.
As diferenças de precisão após o treinamento de um modelo podem se dar por diferentes formas. Por exemplo, ao utilizar uma base de dados online, como o ImageNet, que contém mais de 14 milhões de imagens, assim como o Google Imagens, o Google Notícias e o Wikipédia.
Essas bases de dados costumam ser muito desproporcionais. O ImageNet, por exemplo, é composto por mais de 45% dos dados oriundos dos Estados Unidos, embora o país represente apenas 4% da população mundial. Paralelamente, a China e a Índia juntas contribuem com apenas 3% dos dados, embora esses países representem 36% da população mundial.
Com isso, a falta de geodiversidade é um problema para alcançar a precisão e a qualidade de uma análise positiva. Por esse motivo, se for utilizado um banco de imagens como esse para treinar um algoritmo de visão computacional, ele vai rotular uma fotografia de uma noiva americana tradicional vestida de branco como "noiva", "vestido", "mulher" e "casamento", já uma fotografia de uma noiva do norte da Índia, como "arte performática" e “fantasia”.
Por mais que seja fácil confundir esse tipo de construção de viés com a Representatividade - item b -, existem diferenças, uma vez que o aumento da precisão de um algoritmo não é resultado somente do volume de dados, mas sim de outros fatores como variedade, veracidade, velocidade e valor.
Na verdade, esses fatores são conhecidos como os 5 Vs do Big Data. Contudo, infelizmente, muitos times de tecnologia consideram apenas os 3 Vs, volume, velocidade e variedade, e isso pode agravar ainda mais as diferenças de precisão e gerar discriminações não intencionais.
b) Seleção de Features
Uma outra possibilidade da criação de um viés algorítmico que analisaremos é pela escolha de features. Essa é a etapa em que são escolhidos os atributos que serão analisados pelo algoritmo. Se o conjunto de fatores escolhidos não são representativos, amplos e neutros, também geram variações estatísticas que beneficiam certos grupos, ou seja, geram vieses.
A discriminação por escolhas de features erradas acontece por diversos motivos, como a herança dos preconceitos do próprio desenvolvedor, assim como pela imprudência, negligência, descuido, desconhecimento ou ingenuidade ao construir um algoritmo.
Além disso, observa-se, que é praticamente impossível coletar todos os atributos de um assunto ou levar em consideração todos os fatores em um modelo. A complexidade dos indivíduos e da sociedade jamais será reduzida à representações algorítmicas e escolhas de atributos. Assim sendo, os vieses gerados nessa etapa podem ser ocasionados simplesmente pelo raciocínio estatístico, ou seja, o indivíduo pode estar seguindo diversos critérios sólidos para criar um algoritmo não enviesado, mas mesmo assim pode ser injusto porque isso não significa que as features escolhidas são corretas ao minimizarem a realidade.
Outrossim, uma série de outros fatores organizacionais e técnicos podem também desencadear na escolha de atributos que geram discriminações, como por exemplo, as exigências para a viabilização do desenvolvimento de um algoritmo, que frequentemente baseiam-se em reduzir os atributos escolhidos, a fim de exigir menos demandas computacionais e, consequentemente, menos custos.
Contudo, como mencionado, os dados já são “representações redutoras de um objeto ou um fenômeno do mundo real infinitamente mais específico” e tentar minimizar os atributos escolhidos ao máximo pode agravar ainda mais a geração de vieses dessa redução de uma situação real para um algoritmo. Paralelamente, atributos em excesso aumentam os riscos envolvidos e a probabilidade das discriminações acontecerem. Encontrar o equilíbrio pode ser uma tarefa extremamente difícil.
Por fim, ainda existe um último equívoco que colabora para que essa etapa seja um grande risco relacionado à discriminações algorítmicas. Trata-se do fato que a maioria dos times preocupam-se demasiadamente com a fase de Tunning, ou seja, em otimizar o desempenho dos sistemas, melhorando a performance e a precisão. Com isso, sobra pouco empenho com a coleta dos dados e a seleção de features, que além dos riscos, também são etapas importantes para a performance do modelo.
É importante destacar também que nem sempre os atributos iniciais são claros em suas discriminações. Pode-se ocultar, por exemplo, a sexualidade de um indivíduo. Contudo, ao escolher features como gênero, estado civil e nome do cônjuge, é possível que em um próximo cruzamento de dados, os algoritmos opacos criem variáveis para sexualidade, ou na verdade variáveis X e Y que representem isso.
Uma das soluções para essa modalidade de discriminação algorítmica, além das melhorias com cuidado e atenção na fase de escolha de atributos, é o aumento da representatividade nas equipes de desenvolvimento. Várias pesquisas apontam para uma verdadeira crise de diversidade no setor de Inteligência Artificial. Um olhar sobre um algoritmo por uma equipe que representa melhor a sociedade e as suas assimetrias, definitivamente, minimiza as principais possibilidades para a escolha de atributos discriminatórios. c) Overfitting / Sobreajuste Vamos analisar agora uma última possibilidade de discriminação algorítmica através do Overfitting (ou Sobreajuste). Esse é um termo usado em estatística para descrever quando um modelo se ajusta muito bem ao conjunto de dados anteriormente observado, mas que se mostra ineficaz para prever novos resultados.
Assim sendo, um modelo Overfitting pode apresentar alta precisão quando testado, mas ele não é uma boa representação da realidade. Dessa forma, por mais que o algoritmo pareça bom, ele pode estar gerando vieses mascarados pela precisão e pelo desempenho.
É possível verificar vários exemplos de correlações absurdas, como consumo de queijo per capita (EUA) e o número de pessoas que morreram enroladas no próprio lençol com 94% de correlação ou os gastos de pesquisa científica, tecnológica e espacial dos EUA comparados com a taxa de suicídios com a correlação de 99%.
Esses exemplos absurdos demonstram com clareza que correlações não podem ser interpretadas por causalidades, porque não necessariamente condizem com a realidade e, quando decisões são tomadas baseadas nessas falsas causalidades, as possibilidades de discriminações são infinitas. O consumo de queijo certamente não interfere no número de pessoas mortas enroladas no próprio lençol, assim como a cor da pele ou o gênero também não indicam a reincidência de um presidiário ou a capacidade para ocupar uma vaga de emprego.
3) Perspectivas e Regulação
No Brasil, possuímos diversas citações no ordenamento jurídico que defendem a não discriminação. Seria o caso do princípio da não discriminação (art. 3º, inciso IV, da Constituição Federal), o princípio da igualdade formal (art. 5º da Carta Magna), a Convenção sobre os Direitos das Pessoas com Deficiência (art. 2º e art. 5º), a Lei Brasileira de Inclusão (art. 4º), a Lei Geral de Proteção de Dados (art. 6º, IX), dentre outros.
Entretanto, por mais que as legislações proíbam a discriminação, pode ser extremamente difícil descobrir se os seres humanos cometeram atos discriminatórios ou não. Isso porque as pessoas podem dissimular-se ou até, em muitos casos, nem saberem que cometeram ou sofreram um ato discriminatório.
Assim sendo, um juíz pode estar sendo racista em seus julgamentos, um recrutador pode estar sendo machista em suas contratações e a polícia pode estar cometendo preconceito social no seu trabalho. Entre vários outros exemplos, podemos afirmar que a discriminação na sociedade é opaca e ocorre, na maioria das vezes, de forma tão institucionalizada e enraizada, que dificilmente é punida.
Ao reproduzir os dados da sociedade preconceituosa em uma máquina ou ao descuidar sobre as várias outras possibilidades que um algoritmo pode ser discriminatório descritas nesse texto, a tecnologia pode perpetuar desigualdades e inclusive agrava-las por meio do feedback loop. Todavia, identificar a discriminação algorítmica não é tão impossível como muitos afirmam. Certamente os algoritmos não são decifráveis. Afinal, não se pode determinar o que um algoritmo fará ao ler um código. Isso é mais do que uma limitação cognitiva, é uma impossibilidade matemática, pois para saber o que um algoritmo fará, é preciso executá-lo.
A grande questão é que para avaliar a existência de uma discriminação, não é preciso decifrar algoritmos, realizar a leitura dos códigos, abrir os segredos empresariais ou desvendar os inúmeros mistérios da polêmica black box dos modelos de Inteligência Artificial. Para isso, basta examinar os dados fornecidos ao algoritmo e investigar as saídas que ele entrega.
Assim sendo, podemos afirmar que os algoritmos são sim opacos e a ausência de mecanismos de discordâncias, reclamações, revisões e transparência possuem inúmeras consequências negativas. Contudo sua opacidade não impede de examinar a sua construção ou experimentar o seu comportamento, a fim de identificar uma discriminação ou não. Em contrapartida, a discriminação que ocorre apenas entre seres humanos, é sim difícil de identificar e analisar os comportamentos preconceituosos.
Dessa forma, além de ser mais fácil examinar uma discriminação realizada pela tecnologia, a maioria dos vieses algorítmicos também podem ser combatidos com ajustes técnicos e estatísticos. Já para combater a discriminação que ocorre entre os seres humanos, é preciso muito mais do que isso. Ou seja, corrigir os preconceito da sociedade é mais difícil e complexo do que corrigir os preconceitos da tecnologia.
Portanto, a discriminação por algoritmos pode ser mais facilmente descoberta e corrigida. Inclusive, os algoritmos podem ajudar a reduzir a discriminação, principalmente se bem regulados ou se forem estruturados padrões de mercado.
Todavia, alguns cuidados são extremamente necessários para que uma regulamentação não seja prejudicial. Um exemplo negativo de uma regulação seria se nela fosse exigido que um algoritmo siga uma arquitetura específica, com uma complexidade ou com algum mecanismo pré-estabelecido. Isso essencialmente torna reguladores e legisladores árbitros do design algorítmico, u ma função que os reguladores têm menos probabilidade de serem proficientes do que os desenvolvedores de IA, mas que relutam em executar.
Uma outra problemática que um sistema complexo de regulamentação poderia ocasionar é o aumento da barreira de entrada no mercado da Inteligência Artificial. Afinal, impor custos adicionais para um projeto de compliance faria com que apenas grandes empresas poderiam se dar ao luxo de cumprir as novas regras.
Para tanto, a regulação de algoritmos em relação à temática da discriminação deve ser objetiva e específica, sem a intenção de regular outros aspectos da IA que podem ser equivocada. Regular a discriminação algorítmica não é o mesmo do que regular algoritmos. Pode ser necessário apenas, por exemplo, regular a extensão das empresas que podem externalizar os riscos através da IA, os cuidados no desenvolvimento algorítmico que devem ser tomados para evitar e remediar discriminações ou restrições para a conduta dos modelos. Essas regulações podem acontecer através de uma agência administrativa que promulgue regras granulares ou imponha requisitos.
Conclusão
Portanto, verifica-se que existem diversas maneiras de ocorrer uma discriminação algorítmica. Ao classificá-las, o artigo alcançou o seu objetivo de demonstrar que os vieses são gerados de formas muito além da utilização das bases de dados com preconceitos diretos herdados da sociedade, como também por diferenças de representação. de precisão, pela seleção de features ou pelo sobreajuste.
Muito diferente do normalmente considerado por muitos pesquisadores, os vieses algorítmicos, embora tecnicamente complexos, também podem ser relativamente simples para serem identificados e solucionados. Inclusive, bem mais rapidamente do que consertar vieses cognitivos ou preconceitos institucionalizados. Contudo, certamente é necessário a adoção de boas práticas para desenvolver algoritmos com maior nível de equidade e com tratamentos éticos. Sem isso, as consequências podem ser imprevisíveis e inimagináveis.
Para isso, regulamentações e boas práticas do mercado pode auxiliar na definição esses padrões, o nível de equidade que queremos e um conceito de boa sociedade da IA aceitável. É fundamental que todos os stakeholders estejam alinhados com os cuidados mínimos necessários para mitigar a probabilidade da discriminação algorítmica, reduzir os impactos gerados e impulsionar a pesquisa e o uso do conhecimento técnico para combater essa problemática.
Por fim, vale lembrar que a regulamentação da discriminação algorítmica não deve depender da regulamentação da inteligência artificial. Sabemos que o nível de transparência e accountability de legislações para a IA está envolto de polêmicas discussões sobre a aceitabilidade, a eficiência e a viabilidade das medidas. Contudo, os esforços podem ser substancialmente menores para termos empresas mais responsáveis e desenvolvedores mais conscientes para construírem modelos que preocupam-se em não gerar preconceitos.