Missing Categorical Data in Sociological Surveys: An Experimental Evaluation of Imputation Techniques

Missing categorical data presents a persistent challenge to data quality in quantitative sociological research, where simpler approaches can lead to biased estimates and incorrect conclusions. This article provides an empirically grounded evaluation of multiple imputation (MI) strategies for categor...

Full description

Saved in:

Bibliographic Details
Main Authors:	Yaroslav Kostenko, Andrii Gorbachyk
Format:	Article
Language:	English
Published:	Taras Shevchenko National University of Kyiv 2025-06-01
Series:	Соціологічні студії
Subjects:	data quality missing data data imputation multiple imputation logistic regression clustering
Online Access:	https://sociostudios.vnu.edu.ua/index.php/socio/article/view/417
Tags:	Add Tag No Tags, Be the first to tag this record!

_version_	1849395282704334848
author	Yaroslav Kostenko Andrii Gorbachyk
author_facet	Yaroslav Kostenko Andrii Gorbachyk
author_sort	Yaroslav Kostenko
collection	DOAJ
description	Missing categorical data presents a persistent challenge to data quality in quantitative sociological research, where simpler approaches can lead to biased estimates and incorrect conclusions. This article provides an empirically grounded evaluation of multiple imputation (MI) strategies for categorical survey data, specifically focusing on the complex, multi-category nominal variable "party voted for" using European Social Survey data from Sweden and Norway. We developed a simulation framework, introducing missingness under Missing Completely at Random, Missing at Random, derived from patterns of item nonresponse on auxiliary variables, and Missing Not at Random: linked to the undisclosed party choice itself. We systematically compared the performance of six imputation methods (Multinomial Logistic Regression, Random Forest, CART, KNN, Hot Deck, and Mode) across four distinct predictor set sizes, evaluating them using Accuracy, Cohen’s Kappa, and Macro F1-score with m=20 imputations. Results indicate that while imputing party choice is challenging, model-based MI techniques significantly outperform naive approaches. Multinomial Logistic Regression consistently emerged as the most robust and highest-performing method, often benefiting from larger predictor sets within the MI framework. K-Nearest Neighbors showed promise with smaller predictor sets, offering a computationally efficient alternative. The work emphasizes the importance of principled imputation and provides practical recommendations for sociologists regarding method selection, predictor set construction, and consideration of computational costs when addressing missing categorical data.
format	Article
id	doaj-art-e68750c1bbab43a2a5da337acdaec813
institution	Kabale University
issn	2306-3971 2521-1056
language	English
publishDate	2025-06-01
publisher	Taras Shevchenko National University of Kyiv
record_format	Article
series	Соціологічні студії
spelling	doaj-art-e68750c1bbab43a2a5da337acdaec8132025-08-20T03:39:40ZengTaras Shevchenko National University of KyivСоціологічні студії2306-39712521-10562025-06-011(26)8510910.29038/2306-3971-2025-01-32-32335Missing Categorical Data in Sociological Surveys: An Experimental Evaluation of Imputation TechniquesYaroslav Kostenko0https://orcid.org/0009-0001-7878-5034Andrii Gorbachyk1https://orcid.org/0000-0003-1944-435XTaras Shevchenko National University of KyivTaras Shevchenko National University of KyivMissing categorical data presents a persistent challenge to data quality in quantitative sociological research, where simpler approaches can lead to biased estimates and incorrect conclusions. This article provides an empirically grounded evaluation of multiple imputation (MI) strategies for categorical survey data, specifically focusing on the complex, multi-category nominal variable "party voted for" using European Social Survey data from Sweden and Norway. We developed a simulation framework, introducing missingness under Missing Completely at Random, Missing at Random, derived from patterns of item nonresponse on auxiliary variables, and Missing Not at Random: linked to the undisclosed party choice itself. We systematically compared the performance of six imputation methods (Multinomial Logistic Regression, Random Forest, CART, KNN, Hot Deck, and Mode) across four distinct predictor set sizes, evaluating them using Accuracy, Cohen’s Kappa, and Macro F1-score with m=20 imputations. Results indicate that while imputing party choice is challenging, model-based MI techniques significantly outperform naive approaches. Multinomial Logistic Regression consistently emerged as the most robust and highest-performing method, often benefiting from larger predictor sets within the MI framework. K-Nearest Neighbors showed promise with smaller predictor sets, offering a computationally efficient alternative. The work emphasizes the importance of principled imputation and provides practical recommendations for sociologists regarding method selection, predictor set construction, and consideration of computational costs when addressing missing categorical data.https://sociostudios.vnu.edu.ua/index.php/socio/article/view/417data qualitymissing datadata imputationmultiple imputationlogistic regressionclustering
spellingShingle	Yaroslav Kostenko Andrii Gorbachyk Missing Categorical Data in Sociological Surveys: An Experimental Evaluation of Imputation Techniques Соціологічні студії data quality missing data data imputation multiple imputation logistic regression clustering
title	Missing Categorical Data in Sociological Surveys: An Experimental Evaluation of Imputation Techniques
title_full	Missing Categorical Data in Sociological Surveys: An Experimental Evaluation of Imputation Techniques
title_fullStr	Missing Categorical Data in Sociological Surveys: An Experimental Evaluation of Imputation Techniques
title_full_unstemmed	Missing Categorical Data in Sociological Surveys: An Experimental Evaluation of Imputation Techniques
title_short	Missing Categorical Data in Sociological Surveys: An Experimental Evaluation of Imputation Techniques
title_sort	missing categorical data in sociological surveys an experimental evaluation of imputation techniques
topic	data quality missing data data imputation multiple imputation logistic regression clustering
url	https://sociostudios.vnu.edu.ua/index.php/socio/article/view/417
work_keys_str_mv	AT yaroslavkostenko missingcategoricaldatainsociologicalsurveysanexperimentalevaluationofimputationtechniques AT andriigorbachyk missingcategoricaldatainsociologicalsurveysanexperimentalevaluationofimputationtechniques

Missing Categorical Data in Sociological Surveys: An Experimental Evaluation of Imputation Techniques

Similar Items