Rotulação e Caracterização de Conteúdo Tóxico de Comunidades do Reddit no Brasil

A ausência de dados de qualidade em idiomas com baixa disponibilidade de recursos, como o Português brasileiro, é um desafio significativo para a moderação automatizada de conteúdo online. Nos últimos anos, a proliferação de interações sociais online e o crescimento de conteúdo gerado por usuários...

Full description

Saved in:

Bibliographic Details
Main Authors:	Luiz Henrique Quevedo Lima Luiz, Ana Clara Souza Pagano Ana Clara, Adriana Silvina Pagano Adriana, Ana Paula Couto da Silva Ana
Format:	Article
Language:	Catalan
Published:	Universidade do Minho & Universidade de Vigo 2024-12-01
Series:	Linguamática
Subjects:	toxicidade português conjunto de dados
Online Access:	https://linguamatica.com/index.php/linguamatica/article/view/459
Tags:	Add Tag No Tags, Be the first to tag this record!

_version_	1832586368727908352
author	Luiz Henrique Quevedo Lima Luiz Ana Clara Souza Pagano Ana Clara Adriana Silvina Pagano Adriana Ana Paula Couto da Silva Ana
author_facet	Luiz Henrique Quevedo Lima Luiz Ana Clara Souza Pagano Ana Clara Adriana Silvina Pagano Adriana Ana Paula Couto da Silva Ana
author_sort	Luiz Henrique Quevedo Lima Luiz
collection	DOAJ
description	A ausência de dados de qualidade em idiomas com baixa disponibilidade de recursos, como o Português brasileiro, é um desafio significativo para a moderação automatizada de conteúdo online. Nos últimos anos, a proliferação de interações sociais online e o crescimento de conteúdo gerado por usuários trouxeram à tona a questão crescente da linguagem tóxica. Embora modelos automáticos de aprendizado de máquina tenham sido eficazes na moderação do vasto volume de dados nas redes sociais, ferramentas eficientes para esses idiomas ainda são escassas. Neste trabalho, tratamos essa lacuna criando um conjunto de dados de alta qualidade, coletado de algumas das comunidades brasileiras mais populares da plataforma Reddit. Para isso, rotulamos manualmente um conjunto de 2.500 comentários extraídos das comunidades com maior engajamento e número de inscritos. Realizamos uma análise exploratória para encontrar achados valiosos sobre a linguagem de conteúdo tóxico e não-tóxico. Nossos resultados mostram um nível moderado de concordância entre os anotadores, validando a relevância desse conjunto de dados para diversas tarefas de aprendizado de máquina. Esta pesquisa busca contribuir para a criação de um ambiente online mais seguro para os usuários que participam de discussões virtuais, além de abrir caminho para o desenvolvimento de ferramentas de moderação automática mais eficazes baseadas em aprendizado de máquina.
format	Article
id	doaj-art-c550695f23a74ba8a5af195746e56f1a
institution	Kabale University
issn	1647-0818
language	Catalan
publishDate	2024-12-01
publisher	Universidade do Minho & Universidade de Vigo
record_format	Article
series	Linguamática
spelling	doaj-art-c550695f23a74ba8a5af195746e56f1a2025-01-25T22:45:46ZcatUniversidade do Minho & Universidade de VigoLinguamática1647-08182024-12-0116210.21814/lm.16.2.459Rotulação e Caracterização de Conteúdo Tóxico de Comunidades do Reddit no BrasilLuiz Henrique Quevedo Lima Luiz0Ana Clara Souza Pagano Ana Clara1Adriana Silvina Pagano Adriana2Ana Paula Couto da Silva Ana3Universidade Federal de Minas GeraisUniversidade Federal de Minas Gerais (UFMG)Universidade Federal de Minas Gerais (UFMG)Universidade Federal de Minas Gerais (UFMG) A ausência de dados de qualidade em idiomas com baixa disponibilidade de recursos, como o Português brasileiro, é um desafio significativo para a moderação automatizada de conteúdo online. Nos últimos anos, a proliferação de interações sociais online e o crescimento de conteúdo gerado por usuários trouxeram à tona a questão crescente da linguagem tóxica. Embora modelos automáticos de aprendizado de máquina tenham sido eficazes na moderação do vasto volume de dados nas redes sociais, ferramentas eficientes para esses idiomas ainda são escassas. Neste trabalho, tratamos essa lacuna criando um conjunto de dados de alta qualidade, coletado de algumas das comunidades brasileiras mais populares da plataforma Reddit. Para isso, rotulamos manualmente um conjunto de 2.500 comentários extraídos das comunidades com maior engajamento e número de inscritos. Realizamos uma análise exploratória para encontrar achados valiosos sobre a linguagem de conteúdo tóxico e não-tóxico. Nossos resultados mostram um nível moderado de concordância entre os anotadores, validando a relevância desse conjunto de dados para diversas tarefas de aprendizado de máquina. Esta pesquisa busca contribuir para a criação de um ambiente online mais seguro para os usuários que participam de discussões virtuais, além de abrir caminho para o desenvolvimento de ferramentas de moderação automática mais eficazes baseadas em aprendizado de máquina. https://linguamatica.com/index.php/linguamatica/article/view/459toxicidadeportuguêsconjunto de dados
spellingShingle	Luiz Henrique Quevedo Lima Luiz Ana Clara Souza Pagano Ana Clara Adriana Silvina Pagano Adriana Ana Paula Couto da Silva Ana Rotulação e Caracterização de Conteúdo Tóxico de Comunidades do Reddit no Brasil Linguamática toxicidade português conjunto de dados
title	Rotulação e Caracterização de Conteúdo Tóxico de Comunidades do Reddit no Brasil
title_full	Rotulação e Caracterização de Conteúdo Tóxico de Comunidades do Reddit no Brasil
title_fullStr	Rotulação e Caracterização de Conteúdo Tóxico de Comunidades do Reddit no Brasil
title_full_unstemmed	Rotulação e Caracterização de Conteúdo Tóxico de Comunidades do Reddit no Brasil
title_short	Rotulação e Caracterização de Conteúdo Tóxico de Comunidades do Reddit no Brasil
title_sort	rotulacao e caracterizacao de conteudo toxico de comunidades do reddit no brasil
topic	toxicidade português conjunto de dados
url	https://linguamatica.com/index.php/linguamatica/article/view/459
work_keys_str_mv	AT luizhenriquequevedolimaluiz rotulacaoecaracterizacaodeconteudotoxicodecomunidadesdoredditnobrasil AT anaclarasouzapaganoanaclara rotulacaoecaracterizacaodeconteudotoxicodecomunidadesdoredditnobrasil AT adrianasilvinapaganoadriana rotulacaoecaracterizacaodeconteudotoxicodecomunidadesdoredditnobrasil AT anapaulacoutodasilvaana rotulacaoecaracterizacaodeconteudotoxicodecomunidadesdoredditnobrasil

Rotulação e Caracterização de Conteúdo Tóxico de Comunidades do Reddit no Brasil

Similar Items