Diseño de un modelo matemático para estimar la deserción estudiantil mediante técnicas de análisis multivariado en una institución de educación superior tecnológica

Vinueza López, Cristina Nataly

Diseño de un modelo matemático para estimar la deserción estudiantil mediante técnicas de análisis multivariado en una institución de educación superior tecnológica

Files

t1765mma.pdf (2.12 MB)

Date

2021

Authors

Vinueza López, Cristina Nataly

Publisher

Universidad Técnica de Ambato. Facultad de Ingeniería en Sistemas, Electrónica e Industrial. Maestría en Matemática Aplicada

Abstract

EXECUTIVE SUMMARY In this research, a logistic regression model was used to estimate student dropout from the IST Luis A. Martínez Agronómico. The data of 849 students registered in the institute between 2018 and 2020 was used to build the model. The independent variables considered for the model were: gender, marital status, age, career, repetition, occupation and economic status. We used the KDD methodology to estimate the mathematical model, which allows generating information from a database with the records to be studied. In the evaluated period, 82.45 percent of the students did not dropout but 17.55 percent did it. In the study, four logistic regression models were established, the first one includes all the independent variables but only the ‘career’ variable was significant. The ‘age’ and ‘gender’ variables were eliminated (higher p-value) for generating a second logistic regression model, where the ‘repetition’ and ‘career’ variables were considered significant. Subsequently, the highest p-value variables, ‘marital status’ and ‘economic status’ were eliminated for obtaining a third logistic regression model wherein the ‘repetition’ and ‘career’ variables were the only significant ones. Finally, it was chosen the logistic regression model 4, which only includes the career and repetition variables as the only significant ones. The null hypothesis was rejected because the coefficients Beta 1 and Beta 2 of the variables ‘career’ and ‘repetition’ aren´t zero. The logistic regression model 4 correctly classified 83 percent of the training data and 79 percent of the test data. Additionally, we build a prediction model based on decision trees, which established ‘career’ as a unique explanatory variable. The F1_Score value of the logistic regression model 4 was higher than the F1_Score value of the decision tree model.

Description

RESUMEN EJECUTIVO En el presente proyecto se desarrolló un modelo de regresión logística para estimar la deserción estudiantil del Instituto Superior Tecnológico Luis A. Martínez Agronómico. Para lo cual se analizaron los datos de 849 estudiantes matriculados entre 2018 y 2020, estudiándose las variables independientes: género, estado civil, edad, carrera, repitencia, ocupación e ingresos económicos. Para desarrollar el modelo matemático se utilizó la metodología KDD, que permite generar información a partir de una base de datos con los registros a estudiarse. Dentro el período evaluado el 82,45 por ciento de los estudiantes no desertaron y el 17,55 por ciento sí. Para el estudio se establecieron cuatro modelos de regresión logística, el primero incluye todas las variables independientes, siendo significativa solamente la variable ‘carrera. Se eliminaron las variables ‘edad’ y ‘género’ (mayor valor p) y se obtuvo el modelo de regresión logística 2, las variables ‘repitencia’ y ‘carrera’ se consideran significativas. Posteriormente, se eliminaron las variables con mayor valor p, ‘estado civil’ e ‘ingresos económicos’, obteniéndose el modelo de regresión logística 3, las variables ‘repitencia’ y carrera continúan siendo las únicas significativas. Por último, se escoge el modelo de regresión logística 4, el cual solamente incluye las variables ‘carrera’ y ‘repitencia’, que fueron las únicas significativas. Se rechazó la hipótesis nula, porque el coeficiente Beta 1 y Beta 2 de las variables carrera y repitencia son diferentes de cero. El modelo de regresión logística 4 clasificó correctamente el 83 por ciento de los datos de entrenamiento y el 79 por ciento de los datos de testeo. Adicionalmente, se determinó un modelo de predicción con árboles de decisión, que estableció como variable explicativa ‘carrera’. El valor F1_Score del modelo de regresión logística 4 fue mayor que el valor del F1_Score del modelo con árbol de decisión.

Keywords

Deserción estudiantil, Regresión logística, Metodología KDD, Matriz de confusión

URI

https://repositorio.uta.edu.ec/handle/123456789/32219

Collections

Maestría en Matemática Aplicada

Full item page

Diseño de un modelo matemático para estimar la deserción estudiantil mediante técnicas de análisis multivariado en una institución de educación superior tecnológica

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By