BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro

Modelos baseados em BERT vêm sendo largamente utilizados, tornando-se o estado da arte para muitas tarefas de Processamento de Linguagem Natural e também para Recuperação de Informação. A arquitetura Sentence-BERT permitiu que esses modelos fossem facilmente utilizados para a busca semântica de doc...

Full description

Saved in:
Bibliographic Details
Main Authors: Douglas Vitório, Ellen Souza, José Antônio dos Santos, André Carlos Ponce de Leon Ferreira de Carvalho, Adriano L. I. Oliveira, Nádia F. F. da Silva
Format: Article
Language:Catalan
Published: Universidade do Minho & Universidade de Vigo 2025-06-01
Series:Linguamática
Subjects:
Online Access:https://linguamatica.com/index.php/linguamatica/article/view/474
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1849701408153010176
author Douglas Vitório
Ellen Souza
José Antônio dos Santos
André Carlos Ponce de Leon Ferreira de Carvalho
Adriano L. I. Oliveira
Nádia F. F. da Silva
author_facet Douglas Vitório
Ellen Souza
José Antônio dos Santos
André Carlos Ponce de Leon Ferreira de Carvalho
Adriano L. I. Oliveira
Nádia F. F. da Silva
author_sort Douglas Vitório
collection DOAJ
description Modelos baseados em BERT vêm sendo largamente utilizados, tornando-se o estado da arte para muitas tarefas de Processamento de Linguagem Natural e também para Recuperação de Informação. A arquitetura Sentence-BERT permitiu que esses modelos fossem facilmente utilizados para a busca semântica de documentos, já que ela gera embeddings contextuais que podem ser comparados através de medidas de similaridade. Para melhor investigar a aplicação de modelos baseados em BERT para Recuperação de Informação, este trabalho avaliou 12 modelos Sentence-BERT, disponíveis publicamente, para a recuperação de documentos no cenário legislativo brasileiro. Duas variantes do algoritmo BM25 foram utilizadas como baseline: Okapi BM25 e BM25L. O BM25L alcançou melhores resultados, com significância estatística, mesmo no cenário em que os documentos não foram pré-processados, enquanto que apenas um dos modelos de linguagem, ajustado usando dados legislativos brasileiros, obteve um desempenho similar para uma das três bases de dados utilizadas
format Article
id doaj-art-b9ec13bf28ea4dc59346f849b0bc9054
institution DOAJ
issn 1647-0818
language Catalan
publishDate 2025-06-01
publisher Universidade do Minho & Universidade de Vigo
record_format Article
series Linguamática
spelling doaj-art-b9ec13bf28ea4dc59346f849b0bc90542025-08-20T03:17:57ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182025-06-01171BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiroDouglas Vitório0Ellen Souza1José Antônio dos Santos2André Carlos Ponce de Leon Ferreira de Carvalho3Adriano L. I. Oliveira4Nádia F. F. da Silva5Centro de Informática, Universidade Federal de PernambucoUniversidade Federal Rural de PernambucoUniversidade de PernambucoUniversidade de São PauloCentro de Informática, Universidade Federal de PernambucoUniversidade Federal de Goiás Modelos baseados em BERT vêm sendo largamente utilizados, tornando-se o estado da arte para muitas tarefas de Processamento de Linguagem Natural e também para Recuperação de Informação. A arquitetura Sentence-BERT permitiu que esses modelos fossem facilmente utilizados para a busca semântica de documentos, já que ela gera embeddings contextuais que podem ser comparados através de medidas de similaridade. Para melhor investigar a aplicação de modelos baseados em BERT para Recuperação de Informação, este trabalho avaliou 12 modelos Sentence-BERT, disponíveis publicamente, para a recuperação de documentos no cenário legislativo brasileiro. Duas variantes do algoritmo BM25 foram utilizadas como baseline: Okapi BM25 e BM25L. O BM25L alcançou melhores resultados, com significância estatística, mesmo no cenário em que os documentos não foram pré-processados, enquanto que apenas um dos modelos de linguagem, ajustado usando dados legislativos brasileiros, obteve um desempenho similar para uma das três bases de dados utilizadas https://linguamatica.com/index.php/linguamatica/article/view/474recuperação de informaçãodocumentos legislativosmodelos de linguagemBERTBM25
spellingShingle Douglas Vitório
Ellen Souza
José Antônio dos Santos
André Carlos Ponce de Leon Ferreira de Carvalho
Adriano L. I. Oliveira
Nádia F. F. da Silva
BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro
Linguamática
recuperação de informação
documentos legislativos
modelos de linguagem
BERT
BM25
title BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro
title_full BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro
title_fullStr BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro
title_full_unstemmed BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro
title_short BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro
title_sort bm25 x vila sesamo avaliando modelos sentence bert para recuperacao de informacao no cenario legislativo brasileiro
topic recuperação de informação
documentos legislativos
modelos de linguagem
BERT
BM25
url https://linguamatica.com/index.php/linguamatica/article/view/474
work_keys_str_mv AT douglasvitorio bm25xvilasesamoavaliandomodelossentencebertpararecuperacaodeinformacaonocenariolegislativobrasileiro
AT ellensouza bm25xvilasesamoavaliandomodelossentencebertpararecuperacaodeinformacaonocenariolegislativobrasileiro
AT joseantoniodossantos bm25xvilasesamoavaliandomodelossentencebertpararecuperacaodeinformacaonocenariolegislativobrasileiro
AT andrecarlosponcedeleonferreiradecarvalho bm25xvilasesamoavaliandomodelossentencebertpararecuperacaodeinformacaonocenariolegislativobrasileiro
AT adrianolioliveira bm25xvilasesamoavaliandomodelossentencebertpararecuperacaodeinformacaonocenariolegislativobrasileiro
AT nadiaffdasilva bm25xvilasesamoavaliandomodelossentencebertpararecuperacaodeinformacaonocenariolegislativobrasileiro