Aperfeiçoando a Hifenização Automática em Português no TeX

 As regras de hifenização do português para o TeX têm sido utilizadas há mais de três décadas, apresentando um bom desempenho geral. Entretanto, ainda há hifenizações incorretas e pontos de hifenização não identificados. Esses pontos, embora em sua maioria ocorram perto das bordas das palavras e se...

Full description

Saved in:
Bibliographic Details
Main Authors: Leonardo Carneiro Araujo, Aline Benevides
Format: Article
Language:Catalan
Published: Universidade do Minho & Universidade de Vigo 2024-12-01
Series:Linguamática
Subjects:
Online Access:https://www.linguamatica.com/index.php/linguamatica/article/view/435
Tags: Add Tag
No Tags, Be the first to tag this record!
_version_ 1850052114672254976
author Leonardo Carneiro Araujo
Aline Benevides
author_facet Leonardo Carneiro Araujo
Aline Benevides
author_sort Leonardo Carneiro Araujo
collection DOAJ
description  As regras de hifenização do português para o TeX têm sido utilizadas há mais de três décadas, apresentando um bom desempenho geral. Entretanto, ainda há hifenizações incorretas e pontos de hifenização não identificados. Esses pontos, embora em sua maioria ocorram perto das bordas das palavras e sejam irrelevantes para fins tipográficos no TeX, podem ser relevantes em contextos específicos, como ao lidar com palavras fora do léxico padrão ou com aplicações que fazem o uso da segmentação silábica/tipográfica. A partir de uma análise de 49.528 palavras hifenizadas, obtidas de dicionários online, propusemos 120 novas regras para serem incorporadas às regras existentes de hifenização do português. Além disso, utilizamos o patgen para criar novas regras ou melhorar as já existentes. No entanto, as regras geradas pelo patgen não demonstraram boa capacidade de generalização. Em última análise, as regras manuais ajustadas apresentaram o melhor desempenho, resultando em um aumento de 2.1% na taxa de acertos. O número de pontos de hifenização corretos aumentou de 38.519 para 39.808, enquanto os pontos de hifenização incorretos diminuíram drasticamente de 2.059 para 33. Importante ressaltar também que as regras elaboradas manualmente demonstraram uma melhor capacidade de generalização do que as regras geradas automaticamente pelo patgen.
format Article
id doaj-art-58ff807f348b4305ae501f673f3597b1
institution DOAJ
issn 1647-0818
language Catalan
publishDate 2024-12-01
publisher Universidade do Minho & Universidade de Vigo
record_format Article
series Linguamática
spelling doaj-art-58ff807f348b4305ae501f673f3597b12025-08-20T02:52:56ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182024-12-01162Aperfeiçoando a Hifenização Automática em Português no TeXLeonardo Carneiro Araujo0Aline BenevidesUFSJ  As regras de hifenização do português para o TeX têm sido utilizadas há mais de três décadas, apresentando um bom desempenho geral. Entretanto, ainda há hifenizações incorretas e pontos de hifenização não identificados. Esses pontos, embora em sua maioria ocorram perto das bordas das palavras e sejam irrelevantes para fins tipográficos no TeX, podem ser relevantes em contextos específicos, como ao lidar com palavras fora do léxico padrão ou com aplicações que fazem o uso da segmentação silábica/tipográfica. A partir de uma análise de 49.528 palavras hifenizadas, obtidas de dicionários online, propusemos 120 novas regras para serem incorporadas às regras existentes de hifenização do português. Além disso, utilizamos o patgen para criar novas regras ou melhorar as já existentes. No entanto, as regras geradas pelo patgen não demonstraram boa capacidade de generalização. Em última análise, as regras manuais ajustadas apresentaram o melhor desempenho, resultando em um aumento de 2.1% na taxa de acertos. O número de pontos de hifenização corretos aumentou de 38.519 para 39.808, enquanto os pontos de hifenização incorretos diminuíram drasticamente de 2.059 para 33. Importante ressaltar também que as regras elaboradas manualmente demonstraram uma melhor capacidade de generalização do que as regras geradas automaticamente pelo patgen. https://www.linguamatica.com/index.php/linguamatica/article/view/435hifenizaçãopadrões de hifenizaçãohifenização automática em português
spellingShingle Leonardo Carneiro Araujo
Aline Benevides
Aperfeiçoando a Hifenização Automática em Português no TeX
Linguamática
hifenização
padrões de hifenização
hifenização automática em português
title Aperfeiçoando a Hifenização Automática em Português no TeX
title_full Aperfeiçoando a Hifenização Automática em Português no TeX
title_fullStr Aperfeiçoando a Hifenização Automática em Português no TeX
title_full_unstemmed Aperfeiçoando a Hifenização Automática em Português no TeX
title_short Aperfeiçoando a Hifenização Automática em Português no TeX
title_sort aperfeicoando a hifenizacao automatica em portugues no tex
topic hifenização
padrões de hifenização
hifenização automática em português
url https://www.linguamatica.com/index.php/linguamatica/article/view/435
work_keys_str_mv AT leonardocarneiroaraujo aperfeicoandoahifenizacaoautomaticaemportuguesnotex
AT alinebenevides aperfeicoandoahifenizacaoautomaticaemportuguesnotex