BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro
Modelos baseados em BERT vêm sendo largamente utilizados, tornando-se o estado da arte para muitas tarefas de Processamento de Linguagem Natural e também para Recuperação de Informação. A arquitetura Sentence-BERT permitiu que esses modelos fossem facilmente utilizados para a busca semântica de doc...
Saved in:
| Main Authors: | , , , , , |
|---|---|
| Format: | Article |
| Language: | Catalan |
| Published: |
Universidade do Minho & Universidade de Vigo
2025-06-01
|
| Series: | Linguamática |
| Subjects: | |
| Online Access: | https://linguamatica.com/index.php/linguamatica/article/view/474 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| _version_ | 1849701408153010176 |
|---|---|
| author | Douglas Vitório Ellen Souza José Antônio dos Santos André Carlos Ponce de Leon Ferreira de Carvalho Adriano L. I. Oliveira Nádia F. F. da Silva |
| author_facet | Douglas Vitório Ellen Souza José Antônio dos Santos André Carlos Ponce de Leon Ferreira de Carvalho Adriano L. I. Oliveira Nádia F. F. da Silva |
| author_sort | Douglas Vitório |
| collection | DOAJ |
| description |
Modelos baseados em BERT vêm sendo largamente utilizados, tornando-se o estado da arte para muitas tarefas de Processamento de Linguagem Natural e também para Recuperação de Informação. A arquitetura Sentence-BERT permitiu que esses modelos fossem facilmente utilizados para a busca semântica de documentos, já que ela gera embeddings contextuais que podem ser comparados através de medidas de similaridade. Para melhor investigar a aplicação de modelos baseados em BERT para Recuperação de Informação, este trabalho avaliou 12 modelos Sentence-BERT, disponíveis publicamente, para a recuperação de documentos no cenário legislativo brasileiro. Duas variantes do algoritmo BM25 foram utilizadas como baseline: Okapi BM25 e BM25L. O BM25L alcançou melhores resultados, com significância estatística, mesmo no cenário em que os documentos não foram pré-processados, enquanto que apenas um dos modelos de linguagem, ajustado usando dados legislativos brasileiros, obteve um desempenho similar para uma das três bases de dados utilizadas
|
| format | Article |
| id | doaj-art-b9ec13bf28ea4dc59346f849b0bc9054 |
| institution | DOAJ |
| issn | 1647-0818 |
| language | Catalan |
| publishDate | 2025-06-01 |
| publisher | Universidade do Minho & Universidade de Vigo |
| record_format | Article |
| series | Linguamática |
| spelling | doaj-art-b9ec13bf28ea4dc59346f849b0bc90542025-08-20T03:17:57ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182025-06-01171BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiroDouglas Vitório0Ellen Souza1José Antônio dos Santos2André Carlos Ponce de Leon Ferreira de Carvalho3Adriano L. I. Oliveira4Nádia F. F. da Silva5Centro de Informática, Universidade Federal de PernambucoUniversidade Federal Rural de PernambucoUniversidade de PernambucoUniversidade de São PauloCentro de Informática, Universidade Federal de PernambucoUniversidade Federal de Goiás Modelos baseados em BERT vêm sendo largamente utilizados, tornando-se o estado da arte para muitas tarefas de Processamento de Linguagem Natural e também para Recuperação de Informação. A arquitetura Sentence-BERT permitiu que esses modelos fossem facilmente utilizados para a busca semântica de documentos, já que ela gera embeddings contextuais que podem ser comparados através de medidas de similaridade. Para melhor investigar a aplicação de modelos baseados em BERT para Recuperação de Informação, este trabalho avaliou 12 modelos Sentence-BERT, disponíveis publicamente, para a recuperação de documentos no cenário legislativo brasileiro. Duas variantes do algoritmo BM25 foram utilizadas como baseline: Okapi BM25 e BM25L. O BM25L alcançou melhores resultados, com significância estatística, mesmo no cenário em que os documentos não foram pré-processados, enquanto que apenas um dos modelos de linguagem, ajustado usando dados legislativos brasileiros, obteve um desempenho similar para uma das três bases de dados utilizadas https://linguamatica.com/index.php/linguamatica/article/view/474recuperação de informaçãodocumentos legislativosmodelos de linguagemBERTBM25 |
| spellingShingle | Douglas Vitório Ellen Souza José Antônio dos Santos André Carlos Ponce de Leon Ferreira de Carvalho Adriano L. I. Oliveira Nádia F. F. da Silva BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro Linguamática recuperação de informação documentos legislativos modelos de linguagem BERT BM25 |
| title | BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro |
| title_full | BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro |
| title_fullStr | BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro |
| title_full_unstemmed | BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro |
| title_short | BM25 x Vila Sésamo: avaliando modelos Sentence-BERT para Recuperação de Informação no cenário legislativo brasileiro |
| title_sort | bm25 x vila sesamo avaliando modelos sentence bert para recuperacao de informacao no cenario legislativo brasileiro |
| topic | recuperação de informação documentos legislativos modelos de linguagem BERT BM25 |
| url | https://linguamatica.com/index.php/linguamatica/article/view/474 |
| work_keys_str_mv | AT douglasvitorio bm25xvilasesamoavaliandomodelossentencebertpararecuperacaodeinformacaonocenariolegislativobrasileiro AT ellensouza bm25xvilasesamoavaliandomodelossentencebertpararecuperacaodeinformacaonocenariolegislativobrasileiro AT joseantoniodossantos bm25xvilasesamoavaliandomodelossentencebertpararecuperacaodeinformacaonocenariolegislativobrasileiro AT andrecarlosponcedeleonferreiradecarvalho bm25xvilasesamoavaliandomodelossentencebertpararecuperacaodeinformacaonocenariolegislativobrasileiro AT adrianolioliveira bm25xvilasesamoavaliandomodelossentencebertpararecuperacaodeinformacaonocenariolegislativobrasileiro AT nadiaffdasilva bm25xvilasesamoavaliandomodelossentencebertpararecuperacaodeinformacaonocenariolegislativobrasileiro |