Reconhecimento de Entidades Nomeadas e Vazamento de Dados em Textos Legislativos
Este trabalho trata do vazamento de dados no treinamento de modelos de Reconhecimento de Entidades Nomeadas (NER) em textos legislativos em português brasileiro, resultante de duplicatas e anotações inconsistentes, o que compromete a avaliação dos modelos. Após corrigir esse vazamento no corpus Uly...
Saved in:
| Main Authors: | , , , |
|---|---|
| Format: | Article |
| Language: | Catalan |
| Published: |
Universidade do Minho & Universidade de Vigo
2025-01-01
|
| Series: | Linguamática |
| Subjects: | |
| Online Access: | https://linguamatica.com/index.php/linguamatica/article/view/450 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| Summary: | Este trabalho trata do vazamento de dados no treinamento de modelos de Reconhecimento de Entidades Nomeadas (NER) em textos legislativos em português brasileiro, resultante de duplicatas e anotações inconsistentes, o que compromete a avaliação dos modelos. Após corrigir esse vazamento no corpus UlyssesNER-Br, foi realizado um novo benchmark, comparando os resultados com estudos anteriores em um cenário mais confiável. Também foi reavaliada uma abordagem semissupervisionada utilizando autoaprendizado e amostragem ativa. No entanto, ao reutilizar um threshold fixo, escolhido a partir de uma nuvem de valores antes da correção, os resultados foram insatisfatórios. Isso indica que um threshold dinâmico, que se adapte às características dos dados pós-correção, poderá proporcionar uma avaliação mais eficiente e precisa, indicando a necessidade de futuros estudos sobre a escolha de thresholds.
|
|---|---|
| ISSN: | 1647-0818 |