RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa

Este trabalho investiga a aplicação do Processamento de Linguagem Natural (PLN) no contexto jurídico para a língua portuguesa, enfatizando a importância de adaptar modelos pré-treinados, como o RoBERTa, a partir de corpora especializados no domínio jurídico. Compilamos e pré-processamos um corpus j...

Full description

Saved in:
Bibliographic Details
Main Authors: Eduardo Garcia, Nádia Félix Felipe da Silva, Juliana Gomes, Hidelberg Albuquerque, Ellen Souza, Felipe Siqueira, Eliomar Lima, André Carvalho
Format: Article
Language:Catalan
Published: Universidade do Minho & Universidade de Vigo 2025-01-01
Series:Linguamática
Subjects:
Online Access:https://www.linguamatica.com/index.php/linguamatica/article/view/457
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1832590390226583552
author Eduardo Garcia
Nádia Félix Felipe da Silva
Juliana Gomes
Hidelberg Albuquerque
Ellen Souza
Felipe Siqueira
Eliomar Lima
André Carvalho
author_facet Eduardo Garcia
Nádia Félix Felipe da Silva
Juliana Gomes
Hidelberg Albuquerque
Ellen Souza
Felipe Siqueira
Eliomar Lima
André Carvalho
author_sort Eduardo Garcia
collection DOAJ
description Este trabalho investiga a aplicação do Processamento de Linguagem Natural (PLN) no contexto jurídico para a língua portuguesa, enfatizando a importância de adaptar modelos pré-treinados, como o RoBERTa, a partir de corpora especializados no domínio jurídico. Compilamos e pré-processamos um corpus jurídico em português, o corpus "LegalPT", abordando os desafios da alta duplicação de documentos em corpora jurídicos e medindo o impacto dos hiperparâmetros e da inicialização de embeddings. Experimentos revelaram que o pré-treinamento em dados jurídicos e em dados gerais resultou em modelos mais eficazes para tarefas jurídicas, com o nosso modelo, intitulado RoBERTaLexPT, superando modelos maiores treinados em corpora genéricos e outros modelos jurídicos de trabalhos relacionados. Também agregamos um benchmark jurídico, o benchmark "PortuLex". Este estudo contribui para melhorar as soluções de PLN no contexto jurídico brasileiro, fornecendo modelos aprimorados, um corpus especializado e um conjunto de dados de referência. Para fins de reprodutibilidade, disponibilizaremos o código, os dados e os modelos relacionados.
format Article
id doaj-art-517ef85c39444a0f930ebf0cef601679
institution Kabale University
issn 1647-0818
language Catalan
publishDate 2025-01-01
publisher Universidade do Minho & Universidade de Vigo
record_format Article
series Linguamática
spelling doaj-art-517ef85c39444a0f930ebf0cef6016792025-01-23T22:43:33ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182025-01-01162RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua PortuguesaEduardo Garcia0Nádia Félix Felipe da Silva1Juliana Gomes2Hidelberg Albuquerque3Ellen Souza4Felipe Siqueira5Eliomar Lima6André Carvalho7Universidade Federal de GoiásUNIVERSIDADE FEDERAL DE GOIÁSUniversidade Federal de GoiásUniversidade Federal Rural de PernambucoUniversidade Federal Rural de PernambucoUniversidade de São PauloUniversidade Federal de GoiásUniversidade de São Paulo Este trabalho investiga a aplicação do Processamento de Linguagem Natural (PLN) no contexto jurídico para a língua portuguesa, enfatizando a importância de adaptar modelos pré-treinados, como o RoBERTa, a partir de corpora especializados no domínio jurídico. Compilamos e pré-processamos um corpus jurídico em português, o corpus "LegalPT", abordando os desafios da alta duplicação de documentos em corpora jurídicos e medindo o impacto dos hiperparâmetros e da inicialização de embeddings. Experimentos revelaram que o pré-treinamento em dados jurídicos e em dados gerais resultou em modelos mais eficazes para tarefas jurídicas, com o nosso modelo, intitulado RoBERTaLexPT, superando modelos maiores treinados em corpora genéricos e outros modelos jurídicos de trabalhos relacionados. Também agregamos um benchmark jurídico, o benchmark "PortuLex". Este estudo contribui para melhorar as soluções de PLN no contexto jurídico brasileiro, fornecendo modelos aprimorados, um corpus especializado e um conjunto de dados de referência. Para fins de reprodutibilidade, disponibilizaremos o código, os dados e os modelos relacionados. https://www.linguamatica.com/index.php/linguamatica/article/view/457modelo de linguagemdomínio jurídicobenchmark
spellingShingle Eduardo Garcia
Nádia Félix Felipe da Silva
Juliana Gomes
Hidelberg Albuquerque
Ellen Souza
Felipe Siqueira
Eliomar Lima
André Carvalho
RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa
Linguamática
modelo de linguagem
domínio jurídico
benchmark
title RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa
title_full RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa
title_fullStr RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa
title_full_unstemmed RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa
title_short RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa
title_sort robertalexpt um modelo roberta juridico pre treinado com deduplicacao para lingua portuguesa
topic modelo de linguagem
domínio jurídico
benchmark
url https://www.linguamatica.com/index.php/linguamatica/article/view/457
work_keys_str_mv AT eduardogarcia robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa
AT nadiafelixfelipedasilva robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa
AT julianagomes robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa
AT hidelbergalbuquerque robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa
AT ellensouza robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa
AT felipesiqueira robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa
AT eliomarlima robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa
AT andrecarvalho robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa