Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.uta.edu.ec/jspui/handle/123456789/32219
Título : Diseño de un modelo matemático para estimar la deserción estudiantil mediante técnicas de análisis multivariado en una institución de educación superior tecnológica
Autor : Loza Aguirre, Edison Fernando
Vinueza López, Cristina Nataly
Palabras clave : Deserción estudiantil
Regresión logística
Metodología KDD
Matriz de confusión
Fecha de publicación : 2021
Editorial : Universidad Técnica de Ambato. Facultad de Ingeniería en Sistemas, Electrónica e Industrial. Maestría en Matemática Aplicada
Resumen : EXECUTIVE SUMMARY In this research, a logistic regression model was used to estimate student dropout from the IST Luis A. Martínez Agronómico. The data of 849 students registered in the institute between 2018 and 2020 was used to build the model. The independent variables considered for the model were: gender, marital status, age, career, repetition, occupation and economic status. We used the KDD methodology to estimate the mathematical model, which allows generating information from a database with the records to be studied. In the evaluated period, 82.45 percent of the students did not dropout but 17.55 percent did it. In the study, four logistic regression models were established, the first one includes all the independent variables but only the ‘career’ variable was significant. The ‘age’ and ‘gender’ variables were eliminated (higher p-value) for generating a second logistic regression model, where the ‘repetition’ and ‘career’ variables were considered significant. Subsequently, the highest p-value variables, ‘marital status’ and ‘economic status’ were eliminated for obtaining a third logistic regression model wherein the ‘repetition’ and ‘career’ variables were the only significant ones. Finally, it was chosen the logistic regression model 4, which only includes the career and repetition variables as the only significant ones. The null hypothesis was rejected because the coefficients Beta 1 and Beta 2 of the variables ‘career’ and ‘repetition’ aren´t zero. The logistic regression model 4 correctly classified 83 percent of the training data and 79 percent of the test data. Additionally, we build a prediction model based on decision trees, which established ‘career’ as a unique explanatory variable. The F1_Score value of the logistic regression model 4 was higher than the F1_Score value of the decision tree model.
Descripción : RESUMEN EJECUTIVO En el presente proyecto se desarrolló un modelo de regresión logística para estimar la deserción estudiantil del Instituto Superior Tecnológico Luis A. Martínez Agronómico. Para lo cual se analizaron los datos de 849 estudiantes matriculados entre 2018 y 2020, estudiándose las variables independientes: género, estado civil, edad, carrera, repitencia, ocupación e ingresos económicos. Para desarrollar el modelo matemático se utilizó la metodología KDD, que permite generar información a partir de una base de datos con los registros a estudiarse. Dentro el período evaluado el 82,45 por ciento de los estudiantes no desertaron y el 17,55 por ciento sí. Para el estudio se establecieron cuatro modelos de regresión logística, el primero incluye todas las variables independientes, siendo significativa solamente la variable ‘carrera. Se eliminaron las variables ‘edad’ y ‘género’ (mayor valor p) y se obtuvo el modelo de regresión logística 2, las variables ‘repitencia’ y ‘carrera’ se consideran significativas. Posteriormente, se eliminaron las variables con mayor valor p, ‘estado civil’ e ‘ingresos económicos’, obteniéndose el modelo de regresión logística 3, las variables ‘repitencia’ y carrera continúan siendo las únicas significativas. Por último, se escoge el modelo de regresión logística 4, el cual solamente incluye las variables ‘carrera’ y ‘repitencia’, que fueron las únicas significativas. Se rechazó la hipótesis nula, porque el coeficiente Beta 1 y Beta 2 de las variables carrera y repitencia son diferentes de cero. El modelo de regresión logística 4 clasificó correctamente el 83 por ciento de los datos de entrenamiento y el 79 por ciento de los datos de testeo. Adicionalmente, se determinó un modelo de predicción con árboles de decisión, que estableció como variable explicativa ‘carrera’. El valor F1_Score del modelo de regresión logística 4 fue mayor que el valor del F1_Score del modelo con árbol de decisión.
URI : https://repositorio.uta.edu.ec/jspui/handle/123456789/32219
Aparece en las colecciones: Maestría en Matemática Aplicada

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
t1765mma.pdfTexto completo2,17 MBAdobe PDFVisualizar/Abrir


Los ítems de DSpace están protegidos por copyright, con todos los derechos reservados, a menos que se indique lo contrario.