BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro

Modelos baseados em BERT vêm sendo largamente utilizados, tornando-se o estado da arte para muitas tarefas de Processamento de Linguagem Natural e também para Recuperação de Informação. A arquitetura Sentence-BERT permitiu que esses modelos fossem facilmente utilizados para a busca semântica de doc...

Full description

Saved in:

Bibliographic Details
Main Authors:	Douglas Vitório, Ellen Souza, José Antônio dos Santos, André Carlos Ponce de Leon Ferreira de Carvalho, Adriano L. I. Oliveira, Nádia F. F. da Silva
Format:	Article
Language:	Catalan
Published:	Universidade do Minho & Universidade de Vigo 2025-06-01
Series:	Linguamática
Subjects:	recuperação de informação documentos legislativos modelos de linguagem BERT BM25
Online Access:	https://linguamatica.com/index.php/linguamatica/article/view/474
Tags:	Add Tag No Tags, Be the first to tag this record!

Description
Summary:	Modelos baseados em BERT vêm sendo largamente utilizados, tornando-se o estado da arte para muitas tarefas de Processamento de Linguagem Natural e também para Recuperação de Informação. A arquitetura Sentence-BERT permitiu que esses modelos fossem facilmente utilizados para a busca semântica de documentos, já que ela gera embeddings contextuais que podem ser comparados através de medidas de similaridade. Para melhor investigar a aplicação de modelos baseados em BERT para Recuperação de Informação, este trabalho avaliou 12 modelos Sentence-BERT, disponíveis publicamente, para a recuperação de documentos no cenário legislativo brasileiro. Duas variantes do algoritmo BM25 foram utilizadas como baseline: Okapi BM25 e BM25L. O BM25L alcançou melhores resultados, com significância estatística, mesmo no cenário em que os documentos não foram pré-processados, enquanto que apenas um dos modelos de linguagem, ajustado usando dados legislativos brasileiros, obteve um desempenho similar para uma das três bases de dados utilizadas
ISSN:	1647-0818

BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro

Similar Items