BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro
Modelos baseados em BERT vêm sendo largamente utilizados, tornando-se o estado da arte para muitas tarefas de Processamento de Linguagem Natural e também para Recuperação de Informação. A arquitetura Sentence-BERT permitiu que esses modelos fossem facilmente utilizados para a busca semântica de doc...
Saved in:
| Main Authors: | , , , , , |
|---|---|
| Format: | Article |
| Language: | Catalan |
| Published: |
Universidade do Minho & Universidade de Vigo
2025-06-01
|
| Series: | Linguamática |
| Subjects: | |
| Online Access: | https://linguamatica.com/index.php/linguamatica/article/view/474 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Summary: | Modelos baseados em BERT vêm sendo largamente utilizados, tornando-se o estado da arte para muitas tarefas de Processamento de Linguagem Natural e também para Recuperação de Informação. A arquitetura Sentence-BERT permitiu que esses modelos fossem facilmente utilizados para a busca semântica de documentos, já que ela gera embeddings contextuais que podem ser comparados através de medidas de similaridade. Para melhor investigar a aplicação de modelos baseados em BERT para Recuperação de Informação, este trabalho avaliou 12 modelos Sentence-BERT, disponíveis publicamente, para a recuperação de documentos no cenário legislativo brasileiro. Duas variantes do algoritmo BM25 foram utilizadas como baseline: Okapi BM25 e BM25L. O BM25L alcançou melhores resultados, com significância estatística, mesmo no cenário em que os documentos não foram pré-processados, enquanto que apenas um dos modelos de linguagem, ajustado usando dados legislativos brasileiros, obteve um desempenho similar para uma das três bases de dados utilizadas
|
|---|---|
| ISSN: | 1647-0818 |