RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa
Este trabalho investiga a aplicação do Processamento de Linguagem Natural (PLN) no contexto jurídico para a língua portuguesa, enfatizando a importância de adaptar modelos pré-treinados, como o RoBERTa, a partir de corpora especializados no domínio jurídico. Compilamos e pré-processamos um corpus j...
Saved in:
Main Authors: | , , , , , , , |
---|---|
Format: | Article |
Language: | Catalan |
Published: |
Universidade do Minho & Universidade de Vigo
2025-01-01
|
Series: | Linguamática |
Subjects: | |
Online Access: | https://www.linguamatica.com/index.php/linguamatica/article/view/457 |
Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
_version_ | 1832590390226583552 |
---|---|
author | Eduardo Garcia Nádia Félix Felipe da Silva Juliana Gomes Hidelberg Albuquerque Ellen Souza Felipe Siqueira Eliomar Lima André Carvalho |
author_facet | Eduardo Garcia Nádia Félix Felipe da Silva Juliana Gomes Hidelberg Albuquerque Ellen Souza Felipe Siqueira Eliomar Lima André Carvalho |
author_sort | Eduardo Garcia |
collection | DOAJ |
description |
Este trabalho investiga a aplicação do Processamento de Linguagem Natural (PLN) no contexto jurídico para a língua portuguesa, enfatizando a importância de adaptar modelos pré-treinados, como o RoBERTa, a partir de corpora especializados no domínio jurídico. Compilamos e pré-processamos um corpus jurídico em português, o corpus "LegalPT", abordando os desafios da alta duplicação de documentos em corpora jurídicos e medindo o impacto dos hiperparâmetros e da inicialização de embeddings. Experimentos revelaram que o pré-treinamento em dados jurídicos e em dados gerais resultou em modelos mais eficazes para tarefas jurídicas, com o nosso modelo, intitulado RoBERTaLexPT, superando modelos maiores treinados em corpora genéricos e outros modelos jurídicos de trabalhos relacionados. Também agregamos um benchmark jurídico, o benchmark "PortuLex". Este estudo contribui para melhorar as soluções de PLN no contexto jurídico brasileiro, fornecendo modelos aprimorados, um corpus especializado e um conjunto de dados de referência. Para fins de reprodutibilidade, disponibilizaremos o código, os dados e os modelos relacionados.
|
format | Article |
id | doaj-art-517ef85c39444a0f930ebf0cef601679 |
institution | Kabale University |
issn | 1647-0818 |
language | Catalan |
publishDate | 2025-01-01 |
publisher | Universidade do Minho & Universidade de Vigo |
record_format | Article |
series | Linguamática |
spelling | doaj-art-517ef85c39444a0f930ebf0cef6016792025-01-23T22:43:33ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182025-01-01162RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua PortuguesaEduardo Garcia0Nádia Félix Felipe da Silva1Juliana Gomes2Hidelberg Albuquerque3Ellen Souza4Felipe Siqueira5Eliomar Lima6André Carvalho7Universidade Federal de GoiásUNIVERSIDADE FEDERAL DE GOIÁSUniversidade Federal de GoiásUniversidade Federal Rural de PernambucoUniversidade Federal Rural de PernambucoUniversidade de São PauloUniversidade Federal de GoiásUniversidade de São Paulo Este trabalho investiga a aplicação do Processamento de Linguagem Natural (PLN) no contexto jurídico para a língua portuguesa, enfatizando a importância de adaptar modelos pré-treinados, como o RoBERTa, a partir de corpora especializados no domínio jurídico. Compilamos e pré-processamos um corpus jurídico em português, o corpus "LegalPT", abordando os desafios da alta duplicação de documentos em corpora jurídicos e medindo o impacto dos hiperparâmetros e da inicialização de embeddings. Experimentos revelaram que o pré-treinamento em dados jurídicos e em dados gerais resultou em modelos mais eficazes para tarefas jurídicas, com o nosso modelo, intitulado RoBERTaLexPT, superando modelos maiores treinados em corpora genéricos e outros modelos jurídicos de trabalhos relacionados. Também agregamos um benchmark jurídico, o benchmark "PortuLex". Este estudo contribui para melhorar as soluções de PLN no contexto jurídico brasileiro, fornecendo modelos aprimorados, um corpus especializado e um conjunto de dados de referência. Para fins de reprodutibilidade, disponibilizaremos o código, os dados e os modelos relacionados. https://www.linguamatica.com/index.php/linguamatica/article/view/457modelo de linguagemdomínio jurídicobenchmark |
spellingShingle | Eduardo Garcia Nádia Félix Felipe da Silva Juliana Gomes Hidelberg Albuquerque Ellen Souza Felipe Siqueira Eliomar Lima André Carvalho RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa Linguamática modelo de linguagem domínio jurídico benchmark |
title | RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa |
title_full | RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa |
title_fullStr | RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa |
title_full_unstemmed | RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa |
title_short | RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa |
title_sort | robertalexpt um modelo roberta juridico pre treinado com deduplicacao para lingua portuguesa |
topic | modelo de linguagem domínio jurídico benchmark |
url | https://www.linguamatica.com/index.php/linguamatica/article/view/457 |
work_keys_str_mv | AT eduardogarcia robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa AT nadiafelixfelipedasilva robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa AT julianagomes robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa AT hidelbergalbuquerque robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa AT ellensouza robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa AT felipesiqueira robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa AT eliomarlima robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa AT andrecarvalho robertalexptummodelorobertajuridicopretreinadocomdeduplicacaoparalinguaportuguesa |