La minería de datos reúne un conjunto de técnicas tales como: regresión logística, redes
bayesianas, redes neuronales, árboles de decisión entre otros. Actualmente existe un gran interés
por aplicar las técnicas de minería de datos al ámbito educativo, generando la creación de Minería
de Datos Educativa, una comunidad de investigación educativa que busca analizar y explorar
datos de entornos educativos con el fin de entender mejor el desempeño y las condiciones de
aprendizaje de los estudiantes [6].
La clasificación que emplea árboles de decisión es una de las que más se usan como un modelo
predictivo [5], además de que esta técnica de minería de datos es un método rápido y eficaz para
la categorización de un conjunto de datos. Dicho de otra manera, esta técnica permite clasificar
una población en un modelo de segmentos de tipo ramas que construyen un árbol invertido, el
cual será utilizado para predecir una variable objetivo [7]. Un árbol de decisión contiene en su
estructura nodos internos, nodos de probabilidad, nodos hojas y arcos, estos serán recorridos
según se vaya evaluando las condiciones hasta llegar a un nodo hoja el cual devuelve una
decisión.
Ante lo expuesto previamente, el presente trabajo tiene como objetivo el desarrollo de un sistema
de clasificación del nivel de adaptabilidad de estudiantes frente a la educación online. En ese
sentido, se hace uso de árboles de decisión, una de las diferentes técnicas de la Inteligencia
Artificial, aplicada a un dataset de 1205 registros de estudiantes y que toma en consideración
diferentes factores de la situación de los estudiantes en la educación en línea. De tal manera, al
aplicar la técnica de árboles de decisión, se pueda determinar si el nivel de adaptabilidad del
estudiante es bajo, moderado o alto.
Revisión de la literatura
En el trabajo de Chiok[6] se hace uso de cuatro técnicas de minería de datos como son: regresión
logística, árboles de decisión, redes neuronales y redes bayesianas a un conjunto de 914 datos
de muestra. Estos datos académicos fueron tomados de estudiantes matriculados en el curso de
Estadística General de la UNALM de los semestres 2013 II y 2014 I, a partir de estos datos poder
predecir la clasificación final que puede obtener un estudiante (Aprobado o Desaprobado) cuando
este tenga que matricularse en el curso. Realizó un análisis de los resultados obtenidos en cada
una de las técnicas de minería de datos por medio de la aplicación de métricas a partir de un
matriz de confusión. Del análisis de resultado concluyó que la técnica de clasificación red Naive
de Bayes obtuvo un atasa de clasificación de 71.0%.
Suzan[8] aplica 6 técnicas de clasificación de Machine Learning siendo estas: árbol de decisión,
bosque aleatorio, redes de Naive Bayes, support vector machine, K-Nearest Neighbors y redes
neuronales a un dataset que contienen datos recolectados por medio de formularios de encuesta
enviados a estudiantes de los diferentes niveles educativos, estos formularios. Como resultado
final de la comparación y análisis de los resultados obtenidos independientemente de cada