20 de jun. de 20234 min de leitura

Modelos aprendidos a partir de dados: mínimo que o profissional de Direito deve saber

Atualizado: 21 de jun. de 2023

Grupo de Estudos em Direito e Tecnologia da Universidade Federal de Minas Gerais – DTEC - UFMG

Data: 11/04/2023

Relatores: Fernanda Mara Cruz e Giovanni Triginelli

Relatório

Antes de adentrarmos nos modelos de aprendizagem a partir de dados se faz necessário trazer conceitos essenciais à exposição: inteligência artificial e machine learning.

A inteligência artificial, apesar da ausência consensual firme quanto a conceituação, pode ser definida como o estudo dos agentes que percebem o mundo ao redor, elaboram planos, tomam decisões para atingir seus objetivos. Sua atuação pode ser dirigida entre vários campos como visão computacional, robótica, machine learning e processamento de linguagem natural.

Apresentam-se como tipos da inteligência artificial a (i) estreita ou limitada, caracterizadas como aquelas que fazem uma tarefa definida de forma autônoma com efetividade, utilizando-se de recursos semelhantes aos dos seres humanos, como, por exemplo, o DeepMind e o AlphaGO; (ii) geral ou generativa que são as capazes de compreender, aprender e funcionar, ao menos em tese, como seres humanos, exercendo várias competências simultâneas (ex. ChatGPT); (iii) superinteligência: definida como aquela capaz de replicar a inteligência humana em escalas inimagináveis, calcada precipuamente em armazenamento, processamento e análise de dados com rapidez e amplitude, tomando decisões inatingíveis pelos seres humanos, sendo último estágio a SINGULARIDADE.

Machine learning, como subcampo da inteligência artificial pode ser entendido como técnica de aprendizado de máquina por si mesmos. Abrangem as técnicas de aprendizado supervisionado, não supervisionados e reforço de aprendizagem.

O aprendizado supervisionado é a técnica consistente em relacionar uma saída com uma entrada com base em dados rotulados para treinar algoritmos de classificação ou previsão. Utiliza-se como principais técnicas a regressão, classificação e sistemas não paramétricos.

O método de regressão consiste em um processo de treinamento de algoritmo para que haja a previsão de uma saída através de uma relação funcional entre os parâmetros definidos de entrada e saída. As suas técnicas podem variar conforme os dados. Em casos mais simples utiliza-se a regressão linear para encontrar uma relação entre os dados de entrada e saída em ambiente unidimensional. Nos casos mais complicados valem-se da técnica de gradiente descendente para encontrar o mínimo da função de perda do modelo obtendo maior aproximação do resultado.

Já o método de classificação serve para categorizar dados de entrada e de saída em variáveis conforme seu treinamento. Dentre esse método destacam-se duas técnicas, a regressão lógica, para análise de probabilidade de um evento acontecer dentro de um finitude de possibilidades, e a suport vectors machine técnica responsável por encontrar a melhor fronteira de separação entre as classes possíveis para um conjunto de dados linearmente separados.

Os métodos não paramétricos são aqueles que não tem uma estrutura específica pré-definida, sendo estruturalmente mais fluídos e flexíveis. Tem como técnicas, o K-Nearest Neighbors, entendido como aquele que, baseados em dados de entrada, presumem os próximos como semelhantes; árvore de decisão, cujo algoritmo de aprendizado tem um dado de entrada base e fornece a criação de vários dados de saída; floresta randomizada, que replica a técnica de dado de decisão.

Os aprendizados não supervisionados correspondem aquelas tarefas em que não há uma rotulação prévia dos dados de saída, recaindo à máquina o aprendizado. Se considerados o X como entrada e o Y como saída, inexistirá o Y.

Tem como principal método a clusterização, cuja conceituação se restringe a um conjunto de técnicas de mineração de dados com o propósito de agrupar automaticamente dados segundo uma métrica de associação. Dentre as métricas destacam-se o k-means, hierarquia e a dimensional reduction.

O K-means realiza o agrupamento de dados conforme dados de treino e recaem sobre os centroids. A hierarquia, como o próprio nome diz, realiza a hierarquização dos dados, conforme o treino a que foi submetida. A dimensional reduction, direcionada à imagens e arquivos comprimíveis, busca reduzir o volume do dado sem afetar a integridade dos dados.

Como sistema mais avançado temos o aprendizado profundo, caracterizado como um subconjunto de machine learning baseados em redes neurais artificiais. Sua denominação de aprendizado profundo vem da estruturação em redes neurais artificiais em várias camadas: de entrada, saída e a oculta. Cada camada contém unidades que transformam dados de entrada em informações que a próxima camada pode usar para executar determinada tarefa preditiva.

Dentre as técnicas mais utilizadas temos a (i) Convolutional Neural Networks (CNN’s) algoritmo capaz de captar uma imagem de entrada atribuir importância a diferentes aspectos e identificar semelhanças e diferenças com outras visando a uma categorização; (ii) Recurrent neural networks (RNN’s) são algoritmos desenvolvidos para reconhecer padrões em sequência de dados (ex. textos) reconhecendo não apenas o dado novo de entrada, mas o que perceberam anteriormente; (iii) Deep reinforcement learning considerada a programação de software que treina algoritmos usando o sistema de recompensa e punição, sem a interferência do programador. Neste sistema, a máquina enfrenta um ambiente incerto e complexo com objetivo de atingir uma recompensa e evitar uma penalidade com vistas a obter a melhor decisão.

Pela exposição acima, fica claro que a ciência de dados é uma área do saber multidisciplinar com a finalidade de angariar dados e informações dentro do ambiente virtual para posterior tratamento através de métodos científicos, matemáticos, estatísticos, dentre outros.

Todavia, para que o objetivo proposto seja cumprimento é necessário que o dado ou informação estejam estruturados e adequados para o respectivo tratamento. Isso envolve, além do treinamento adequado dos profissionais adequados, mas também a difusão da importância da qualidade do dado.

Bibliografia Base

CHATTERJEE, Marina - Data Science vs Machine Learning and AI – 2023

MAINI, Vishal - Machine Learning for Humans – 2017

O DTec UFMG (Grupo de Estudos em Direito & Tecnologia da Faculdade de Direito da UFMG) é um grupo de estudos registrado junto à Faculdade de Direito da UFMG e ao NIEPE/FDUFMG. O DTec realiza encontros quinzenais remotos para debater temas afetos à sua área e o DTIBR cede espaço no site e nas suas redes sociais para divulgar as atas de reuniões e editais de processo seletivo do grupo de estudos.

Por outro lado, o Centro de Pesquisa em Direito, Tecnologia e Inovação - DTIBR é uma associação civil de direito privado, dotada de personalidade jurídica própria e sem finalidade econômica. Não possui vínculo com a UFMG e, por isso, participantes do grupo de estudos DTec não são membros do DTIBR. Para maiores informações, acesse nosso FAQ.

Modelos aprendidos a partir de dados: mínimo que o profissional de Direito deve saber

Posts recentes

Comments