Aperfeiçoando a Hifenização Automática em Português no TeX
As regras de hifenização do português para o TeX têm sido utilizadas há mais de três décadas, apresentando um bom desempenho geral. Entretanto, ainda há hifenizações incorretas e pontos de hifenização não identificados. Esses pontos, embora em sua maioria ocorram perto das bordas das palavras e se...
Saved in:
| Main Authors: | , |
|---|---|
| Format: | Article |
| Language: | Catalan |
| Published: |
Universidade do Minho & Universidade de Vigo
2024-12-01
|
| Series: | Linguamática |
| Subjects: | |
| Online Access: | https://www.linguamatica.com/index.php/linguamatica/article/view/435 |
| Tags: |
Add Tag
No Tags, Be the first to tag this record!
|
| _version_ | 1850052114672254976 |
|---|---|
| author | Leonardo Carneiro Araujo Aline Benevides |
| author_facet | Leonardo Carneiro Araujo Aline Benevides |
| author_sort | Leonardo Carneiro Araujo |
| collection | DOAJ |
| description |
As regras de hifenização do português para o TeX têm sido utilizadas há mais de três décadas, apresentando um bom desempenho geral. Entretanto, ainda há hifenizações incorretas e pontos de hifenização não identificados. Esses pontos, embora em sua maioria ocorram perto das bordas das palavras e sejam irrelevantes para fins tipográficos no TeX, podem ser relevantes em contextos específicos, como ao lidar com palavras fora do léxico padrão ou com aplicações que fazem o uso da segmentação silábica/tipográfica. A partir de uma análise de 49.528 palavras hifenizadas, obtidas de dicionários online, propusemos 120 novas regras para serem incorporadas às regras existentes de hifenização do português. Além disso, utilizamos o patgen para criar novas regras ou melhorar as já existentes. No entanto, as regras geradas pelo patgen não demonstraram boa capacidade de generalização. Em última análise, as regras manuais ajustadas apresentaram o melhor desempenho, resultando em um aumento de 2.1% na taxa de acertos. O número de pontos de hifenização corretos aumentou de 38.519 para 39.808, enquanto os pontos de hifenização incorretos diminuíram drasticamente de 2.059 para 33. Importante ressaltar também que as regras elaboradas manualmente demonstraram uma melhor capacidade de generalização do que as regras geradas automaticamente pelo patgen.
|
| format | Article |
| id | doaj-art-58ff807f348b4305ae501f673f3597b1 |
| institution | DOAJ |
| issn | 1647-0818 |
| language | Catalan |
| publishDate | 2024-12-01 |
| publisher | Universidade do Minho & Universidade de Vigo |
| record_format | Article |
| series | Linguamática |
| spelling | doaj-art-58ff807f348b4305ae501f673f3597b12025-08-20T02:52:56ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182024-12-01162Aperfeiçoando a Hifenização Automática em Português no TeXLeonardo Carneiro Araujo0Aline BenevidesUFSJ As regras de hifenização do português para o TeX têm sido utilizadas há mais de três décadas, apresentando um bom desempenho geral. Entretanto, ainda há hifenizações incorretas e pontos de hifenização não identificados. Esses pontos, embora em sua maioria ocorram perto das bordas das palavras e sejam irrelevantes para fins tipográficos no TeX, podem ser relevantes em contextos específicos, como ao lidar com palavras fora do léxico padrão ou com aplicações que fazem o uso da segmentação silábica/tipográfica. A partir de uma análise de 49.528 palavras hifenizadas, obtidas de dicionários online, propusemos 120 novas regras para serem incorporadas às regras existentes de hifenização do português. Além disso, utilizamos o patgen para criar novas regras ou melhorar as já existentes. No entanto, as regras geradas pelo patgen não demonstraram boa capacidade de generalização. Em última análise, as regras manuais ajustadas apresentaram o melhor desempenho, resultando em um aumento de 2.1% na taxa de acertos. O número de pontos de hifenização corretos aumentou de 38.519 para 39.808, enquanto os pontos de hifenização incorretos diminuíram drasticamente de 2.059 para 33. Importante ressaltar também que as regras elaboradas manualmente demonstraram uma melhor capacidade de generalização do que as regras geradas automaticamente pelo patgen. https://www.linguamatica.com/index.php/linguamatica/article/view/435hifenizaçãopadrões de hifenizaçãohifenização automática em português |
| spellingShingle | Leonardo Carneiro Araujo Aline Benevides Aperfeiçoando a Hifenização Automática em Português no TeX Linguamática hifenização padrões de hifenização hifenização automática em português |
| title | Aperfeiçoando a Hifenização Automática em Português no TeX |
| title_full | Aperfeiçoando a Hifenização Automática em Português no TeX |
| title_fullStr | Aperfeiçoando a Hifenização Automática em Português no TeX |
| title_full_unstemmed | Aperfeiçoando a Hifenização Automática em Português no TeX |
| title_short | Aperfeiçoando a Hifenização Automática em Português no TeX |
| title_sort | aperfeicoando a hifenizacao automatica em portugues no tex |
| topic | hifenização padrões de hifenização hifenização automática em português |
| url | https://www.linguamatica.com/index.php/linguamatica/article/view/435 |
| work_keys_str_mv | AT leonardocarneiroaraujo aperfeicoandoahifenizacaoautomaticaemportuguesnotex AT alinebenevides aperfeicoandoahifenizacaoautomaticaemportuguesnotex |