Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
Esta obra est´a bajo una Licencia
Creative Commons Atribuci´on
4.0 Internacional.
Tipo de art´ıculo: Art´ıculos originales
Tem´atica: Inteligencia Artificial
Recibido: 23/11/2024 |Aceptado: 10/01/2025 |Publicado: 30/09/2025
Identificadores persistentes:
DOI: 10.48168/innosoft.s24.a311
ARK: ark:/42411/s24.a311
PURL: 42411/s24.a311
Aplicaci´on del algoritmo KNN para la predicci´on de
enfermedad cel´ıaca utilizando variables cl´ınicas y serol´ogicas
Application of KNN algorithm for predicting celiac disease
using clinical and serological variables
Daniel L´evano Rodriguez1[0000-0001-5652-0601]*, Flor Elizabeth Cerd´an Le´on2[0000-0001-6747-6335],
Cesar Rolando Salazar Giraldo3[0009-0002-0685-8035], Jadira Dina Vasquez Castro4[0009-0008-3813-9346],
Marita Abigail Carbajal Baz´an5[0009-0002-5519-2495], Aldana Camila Zea Mendoza6[0009-0005-9917-8937]
1Universidad Nacional Tecnol´ogica de Lima Sur. Lima, Per´u. dlevano@untels.edu.pe
2Universidad Nacional Tecnol´ogica de Lima Sur. Lima, Per´u. fcerdan@untels.edu.pe
3Universidad Nacional Tecnol´ogica de Lima Sur. Lima, Per´u. 2213110208@untels.edu.pe
4Universidad Nacional Tecnol´ogica de Lima Sur. Lima, Per´u. 2213100026@untels.edu.pe
5Universidad Peruana Uni´on. Lima, Per´u. marita.carbajal@upeu.edu.pe
6Universidad Peruana Uni´on. Lima, Per´u. aldana.zea@upeu.edu.pe
Autor para correspondencia: dlevano@untels.edu.pe
Resumen
La enfermedad cel´ıaca corresponde a una condici´on autoinmune con una prevalencia cercana al 1 % a nivel
global, frecuentemente subdiagnosticada debido a la escasa sospecha cl´ınica, lo que incrementa su morbilidad y
mortalidad. En este contexto, la aplicacion del algoritmo K-Nearest Neighbors (KNN) surgi´o como un modelo
predictivo para contribuir a la detecci´on de esta enfermedad mediante variables cl´ınicas y serol´ogicas. Se
dise˜o un modelo supervisado con el algoritmo KNN utilizando variables cl´ınicas y serol´ogicas extra´ıdas de
una base de datos acad´emica de 2,206 registros. Para balancear las clases, se aplic´o la ecnica de sobremuestreo
sinetico (SMOTE). Los datos fueron segmentados para entrenamiento y validaci´on, optimizando el par´ametro
de clasificaci´on mediante validaci´on cruzada. Adem´as, se desarroll´o una plataforma web dise˜nada para admitir
el ingreso, an´alisis y emisi´on que permite la carga, procesamiento y generaci´on de reportes edicos con acceso
por roles y estimaci´on de probabilidad diagn´ostica. Este modelo alcanz´o una exactitud del 94 %, una precisi´on
del 97 % y una sensibilidad del 91 %. El algoritmo demostr´o ser ´util para la predicci´on de la enfermedad cel´ıaca
a partir de datos cl´ınicos y serol´ogicos, y su implementaci´on en la web permite su integraci´on pr´actica en
entornos cl´ınicos.
Palabras claves: autoinmune, Django, enfermedad, KNN, predicci´on
Abstract
Celiac disease is an autoimmune condition with a global prevalence close to 1 %, often underdiagnosed due
to low clinical suspicion, which increases both morbidity and mortality. In this context, the application of the
K-Nearest Neighbors (KNN) algorithm emerged as a predictive model to support the detection of this disease
using clinical and serological variables. A supervised model was developed using the KNN algorithm and clinical
and serological data extracted from an academic dataset containing 2,206 records. To address class imbalance,
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
74
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
the Synthetic Minority Over-sampling Technique (SMOTE) was applied. The data were split for training and
validation, optimizing the classification parameter through cross-validation. In addition, a web platform was
developed to support data input, analysis, and output, allowing the uploading, processing, and generation of
medical reports with role-based access and diagnostic probability estimation. The model achieved 94 % accuracy,
97 % precision, and 91 % sensitivity. The algorithm proved to be effective for predicting celiac disease based
on clinical and serological data, and its web-based implementation enables practical integration in clinical
environments.
Keywords: autoimmune, Django, disease, KNN, prediction
Introducci´on
La enfermedad cel´ıaca (EC) es un trastorno autoinmune sist´emico con una prevalencia global cercana al 1 %
[1]. Se asocia con factores gen´eticos como HLA-DQ2/DQ8 (ant´ıgeno leucocitario humano), diet´eticos (gluten
presente en trigo y centeno) e inmunol´ogicos (diabetes tipo 1 y tiroiditis autoinmune) [26]. Su diagn´ostico
es complejo debido a la falta de consenso en su definici´on y a la baja sospecha cl´ınica, lo que conduce a una
elevada tasa de casos no diagnosticados (85 %), con aumento de morbilidad y mortalidad [79]. Este panorama
ha impulsado la implementaci´on de estrategias de tamizaje en poblaciones de riesgo, considerando s´ıntomas
digestivos, extradigestivos, antecedentes gen´eticos, dieta y enfermedades autoinmunes asociadas [7,10].
La presentaci´on cl´ınica cl´asica de EC es diarrea cr´onica, dolor abdominal, abdomen distendido, omitos, y
reducci´on de peso corporal [7,11,12]. En cuanto a las formas at´ıpicas predominan s´ıntomas como anemia fe-
rrop´enica, baja estatura, infertilidad, retraso puberal, y alteraciones hep´aticas [10,13]. El diagn´ostico serol´ogico
se prioriza la medici´on de anticuerpos IgA espec´ıficos contra la enzima transglutaminasa (tTG-IgA), por su
alta sensibilidad, y anti-endomisio IgA (EMA-IgA), de elevada especificidad (97 %) [14]. En casos con defi-
ciencia de Inmunoglobulina A (IgA), se emplean como alternativas los anticuerpos IgG anti-tTG y anti-DGP
(anti-p´eptidos de gliadina) [1517].
La EC presenta una mayor prevalencia en Europa y Asia (0,8 %) y una menor en Sudam´erica (0,4 %) [15].
Asimismo, la aparente baja prevalencia de esta patolog´ıa se atribuye, en gran medida, a la subestimaci´on
diagn´ostica. Esto conlleva un aumento en las tasas de morbilidad y mortalidad [7,9]. En este contexto, resul-
ta necesario explorar herramientas innovadoras que permitan optimizar la predicci´on diagn´ostica utilizando
datos accesibles, cl´ınicos y serol´ogicos. Numerosas investigaciones han explorado la aplicaci´on de aprendizaje
autom´atico (AA) en la identificaci´on de EC, destacando el algoritmo KNN (K - vecinos as cercanos) como
medio de predicci´on de EC mediante datos de genes asociados [18]. Tambi´en, ha sido utilizado en conjuntos
de datos con variables cl´ınicas [16].
El aprendizaje autom´atico, que se clasifica en aprendizaje supervisado, no supervisado, semisupervisado y el
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
75
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
aprendizaje por refuerzo, permite que las computadoras adquieran conocimiento a partir de datos e identifiquen
patrones para ser utilizados y analizados mediante etodos estad´ısticos y as´ı dotar a las computadoras de
la capacidad de aprender y tomar decisiones de forma aut´onoma [17]. En este ´ambito, el algoritmo KNN,
de tipo no param´etrico, se utiliza ampliamente para clasificar variables categ´oricas, considerando la clase
predominante entro los K vecinos as cercanos, utilizando m´etricas de proximidad como la distancia euclidiana
para determinar la similitud, en esto se basa su simplicidad, tolerancia al ruido y capacidad de adaptaci´on a
conjuntos de datos complejos [1821].
El desequilibrio en los conjuntos de datos puede tener un impacto en el rendimiento del algoritmo KNN.
[17]. Por lo tanto, se utiliza SMOTE (T´ecnica de Sobremuestreo Sint´etico de la Clase Minoritaria). SMOTE
crea nuevos datos sineticos a partir de combinaciones de instancias pr´oximas dentro de la clase minoritaria,
favoreciendo la igualdad entre categor´ıas y aumentar la capacidad del modelo para generalizar nuevos datos
[19,20]. La implementaci´on de KNN en aplicaciones web puede realizarse con Django, un framework en Python
y la API, los cuales facilitan la comunicaci´on entre componentes y permiten ejecutar predicciones en tiempo
real, favoreciendo su integraci´on en entornos cl´ınicos [2123]. Django, que abarca el Localizador Uniforme
de Recursos (URL), el Marco de Cace para aplicaciones web, el modelo Modelo-Vista-Plantilla (MVT) de
Django y un sistema de almacenamiento que permite gestionar tanto los datos operativos como los modelos
estructurados definidos en Django [24]. Una API (Interfaz de Programaci´on de Aplicaciones) es un servicio
web que utiliza REST para proporcionar respuestas a las solicitudes del cliente mediante transferencia de
representaciones del estado del recurso solicitado, usando el protocolo HTTP y es enviado en formato JSON
y HTML [25,26].
Este trabajo tuvo como prop´osito obtener un rendimiento aceptable en erminos de exactitud, precisi´on y
sensibilidad, utilizando el algoritmo KNN para la predicci´on de la enfermedad cel´ıaca.
Materiales y m´etodos
Con base en la metodolog´ıa CRISP-DM [27] se desarroll´o del sistema predictivo como se ilustra en la Figura
1. Esta incluy´o la comprensi´on del problema cl´ınico, el an´alisis y limpieza del conjunto de datos, el balanceo
mediante SMOTE, la construcci´on del modelo KNN en Python, y su posterior despliegue en una plataforma
web usando Django.
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
76
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
Figura 1. Arquitectura del sistema predictivo con KNN
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
77
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
Conjunto de datos
El conjunto de datos denominado celiac disease lab data fue recopilado por el laboratorio de Biotecnologia
de la Universidad de Wageningen y se encuentra disponible p´ublicamente a traes de la plataforma Kaggle,
donde fue seleccionado como fuente de datos para el presente estudio. Este dise˜no tiene 14 atributos y 2206
instancias con valores num´ericos, de ellos 1843 pertenecen a personas con enfermedad cel´ıaca y 363 a personas
sin enfermedad cel´ıaca.
Limpieza de datos
En el conjunto de datos no se hallaron datos vac´ıos, quedando 2206 registros; sin embargo, se excluy´o las
variables “Abdomen” y “Short Stature” debido a que no se establecieron criterios expl´ıcitos para su definici´on
en el conjunto de datos. Las variables “Marsh”, “Cd type” se excluyeron por estar directamente relacionadas
con el diagn´ostico definitivo de la enfermedad, resultando 10 atributos para an´alisis. El prop´osito central de
este estudio fue analizar cl´ınicos y serol´ogicos con el fin de aplicar el algoritmo KNN en la predicci´on de
enfermedad celiaca.
La Tabla 1 presenta el an´alisis del conjunto de datos, detallando tanto el tipo de atributo como sus respectivos
rangos de valores.
Tabla 1. Informaci´on de los atributos del conjunto de datos
ATRIBUTO TIPO RANGO DE VALORES
Edad Discreto [1,35]
G´enero Nominal Femenino 1, Masculino 0
Diabetes Nominal Si 1, No 0
Tipo de diabetes Nominal Tipo 1 1, Tipo 2 2, Ninguno 0
Diarrea Nominal Esteatorrea 0, Acuosa 1, Inflamatorio
2
P´erdida de peso Nominal Si 1, No 2
Heces pastosas Nominal Si 1, No 0
IgA Continuo [0.34, 9]
IgG Continuo [5,15.3]
IgM Continuo [0.5,2.7]
IgA: Inmunoglobulina A, IgG: Inmunoglobulina G, IgM: Inmunoglobulina M
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
78
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
Balanceo de datos
Se obtuvo una representaci´on con un desequilibrio entre las clases “s´ı tiene” y “no tiene” con 1843 y 363
instancias respectivamente. Esta desproporci´on puede afectar negativamente al modelo predictivo; para mitigar
esta problem´atica se decidi´o implementar la ecnica SMOTE ´unicamente en el sobre el conjunto destinado
al entrenamiento del modelo; as´ı se crearon instancias sint´eticas para la clase minoritaria bas´andose en las
caracter´ısticas de sus vecinos as cercanos, de esta manera se equilibr´o la clase “no tiene” con la clase “s´ı
tiene” en la Figura 2. Con ello se obtuvo un equilibrio de datos de 1843 instancias para ambas clases.
Figura 2. Balanceo de clases mediante la t´ecnica de SMOTE
Modelado con KNN
Para el modelado predictivo se utiliz´o el algoritmo de vecinos as cercanos debido a su efectividad en la
clasificaci´on de datos cl´ınicos, su facilidad de interpretaci´on y porque no requiere suposiciones rigurosas acerca
del comportamiento de las variables [17]. Se emple´o la implementaci´on del algoritmo KNN disponible en la
biblioteca Scikit-learn de Python durante la etapa de entrenamiento. El conjunto de datos fue cargado en
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
79
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
una estructura tipo marco de datos (dataframe) y posteriormente dividido en dos subconjuntos: dividi´endose
en un 70 % de los registros para el proceso de entrenamiento y el 30 % restante para evaluaci´on, empleando
train test split de Scikit-learn. El valor ´optimo del par´ametro k (n´umero de vecinos) se determin´o mediante
una evaluaci´on sistem´atica de la tasa de error para valores entre 1 y 25, el cual se presenta en la Figura 3.
Para la selecci´on del modelo, se opt´o por el valor de k que present´o la menor tasa de error en el conjunto de
datos analizados.
Figura 3. Reporte de tasa de error
Como prueba inicial, el modelo fue entrenado con un valor de K vecino igual a 2. Los resultados obtenidos
para este n´umero de vecinos se presentan en la Tabla 2, la cual resume las principales etricas de desempno
del clasificador.
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
80
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
Tabla 2. Reporte de clasificaci´on
Precisi´on Sensibilidad Puntaje -F1 umero de casos
Si tiene 0.92 0.93 0.93 569
No tiene 0.93 0.92 0.92 537
Exactitud 0.93 1106
Posteriormente, se evalu´o el modelo con K igual a 1, obteniendo los valores obtenidos que se detallan en la
Tabla 3, a partir de los cuales se identific´o el valor ´optimo del par´ametro K vecino.
Tabla 3. Reporte de clasificaci´on ´optimo
Precisi´on Sensibilidad Puntaje -F1 umero de casos
Si tiene 0.97 0.91 0.94 569
No tiene 0.91 0.97 0.94 537
Exactitud 0.94 1106
Despliegue del Sistema
El patr´on arquitect´onico Modelo–Vista–Template (MTV) pertenece al entorno de desarrollo Django. El modelo
predictivo, entrenado previamente con el algoritmo KNN, fue serializado utilizando la biblioteca Joblib y
almacenado en el archivo modelo entrenado.pkl. Este archivo contiene una versi´on persistente del modelo que
puede ser reutilizada en producci´on sin necesidad de reentrenar, lo cual permite optimizar el rendimiento y
facilita la implementaci´on del modelo en entornos web.
El formulario web (Template prediccion.html) permite al personal m´edico ingresar variables cl´ınicas y se-
rol´ogicas del paciente. Una vez completado, los datos son enviados mediante una solicitud POST a una
vista (views.py), donde se transforman al formato requerido por el modelo. En ese punto, el archivo mo-
delo entrenado.pkl se carga din´amicamente en memoria, se ejecuta la predicci´on con el modelo KNN y se
genera un diagn´ostico (positivo o negativo para enfermedad cel´ıaca), acompa˜nado de la probabilidad asociada.
El resultado es renderizado en una nueva plantilla HTML (resultado.html), con opciones adicionales como la
exportaci´on del informe en PDF y Excel. Esta estructura desacopla el entrenamiento del modelo de su ejecuci´on
en tiempo real, optimizando el rendimiento, reduciendo la latencia de respuesta y facilitando su integraci´on en
contextos cl´ınicos digitales.
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
81
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
La ogica de predicci´on est´a encapsulada en una API interna desarrollada en Django, que gestiona las solicitudes
HTTP, estructura las respuestas en formato JSON, y permite la interacci´on fluida con el frontend. El sistema
incluye un esquema de autenticaci´on basado en roles: el perfil “Admin” (dirigido al personal administrativo)
tiene acceso a funciones como el registro de pacientes, acceso al formulario, la gesti´on de usuarios y el historial
de predicciones; mientras que el perfil “Usuario” (dirigido a m´edicos autorizados) puede registrar pacientes y
acceder al formulario mostrado en la Figura 4 para realizar las predicciones cl´ınicas correspondientes.
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
82
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
Figura 4. Interfaz de formulario
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
83
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
Resultados y discusi´on
Se construy´o la matriz correspondiente, cuyos resultados se encuentran en la Tabla 4. Esta permite evaluar la
eficacia del modelo en la clasificaci´on de pacientes con diagnostico positivo y negativo de enfermedad celiaca,
a partir del an´alisis de variables cl´ınicas y serol´ogicas. En dicha matriz se observa que el modelo identific´o a
517 pacientes con enfermedad cel´ıaca (Verdaderos positivos) y a 520 pacientes sanos (Verdaderos negativos).
Sin embargo, clasific´o err´oneamente a 17 personas sanas como si tuvieran la enfermedad (falsos positivos) y
no logr´o detectar la enfermedad en 52 casos, clasific´andolos como sanos (falsos negativos).
Tabla 4. Matriz de confusi´on P
K neighbors=1 Predicci´on
Si tiene No tiene
Valores reales Si tiene VP=517 FN=52
No tiene FP=17 VN=520
VP: Verdaderos Positivos, FP: Falsos Positivos, FN: Falsos negativos, VN: Verdaderos Negativos.
En la primera fase del entrenamiento del modelo KNN, el valor k fue igual a 2. Este logr´o una exactitud superior
al 93 %, con unas m´etricas balanceadas por ambas clases, con una precisi´on y sensibilidad del 92 %-93 %. Sin
embargo, cuando se comenz´o a optimizar el n´umero de vecinos y se empez´o a incrementar el umero k hasta
valores superiores, se detect´o que el valor k=1 reportaba una mayor exactitud del 94 %. En este caso ´optimo,
la clase “s´ı tiene” logr´o una precisi´on del 97 % y una sensibilidad del 91 %. En la clase “no tiene” obtuvo una
precisi´on del 91 % y una sensibilidad del 97 %. Como se observa en la Figura 5, las etricas correspondientes
a los valores mencionados.
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
84
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
Figura 5. M´etricas del modelo KNN por clase
En el desarrollo con Django, se elabor´o una interfaz de programaci´on de aplicaciones (API) destinada a
recibir datos cl´ınicos ingresados por el usuario, procesarlos y generar un diagn´ostico codificado en formato.
La aplicaci´on en acceso se encuentra regida por un sistema de autenticaci´on y administraci´on de roles. El
usuario con un personal m´edico autorizado puede acceder a la generaci´on de informes, cuyas credenciales se
encuentran generadas y administradas exclusivamente por el administrador. De esa forma el formulario de
la interfaz de predicci´on fue usado por el personal edico para introducir los datos cl´ınicos y serol´ogicos del
paciente, que fueron enviados al servidor a traes de una vista en Django, que proces´o la informaci´on, carg´o
el modelo (modelo entrenado.pkl) y gener´o la predicci´on de enfermedad cel´ıaca en tiempo real, mostrando el
resultado en pantalla. Se hicieron pruebas con el conjunto de datos para determinar el nivel de confianza del
modelo, los resultados se presentan en la Tabla 5.
Tabla 5. Predicci´on de enfermedad cel´ıaca con datos cl´ınicos
Atributo Prueba 1 Prueba 2 Prueba 3
Edad 8 20 15
G´enero Masculino Femenino Masculino
Diabetes No Si Si
Tipo de Diabetes Ninguno 2 1
Diarrea Esteatorrea Inflamatoria Acuosa
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
85
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
Atributo Prueba 1 Prueba 2 Prueba 3
P´erdida de peso No Si No
Heces pastosas No Si No
IgA 3 2.20 2.40
IgG 10 9 9.50
IgM 1.30 1.30 1.50
Predicci´on No tiene EC. Si tiene EC. Si tiene EC.
Un estudio previo con una muestra de 50 personas report´o una exactitud del 96 % al aplicar el algoritmo KNN
para predecir enfermedad cel´ıaca a partir de variables cl´ınicas [16]. El modelo desarrollado en este estudio
obtuvo una exactitud general del 94 % lo que evidencia su solidez en el proceso de clasificaci´on y resalta que
la incorporaci´on de variables serol´ogicas contribuye significativamente a mejorar la eficacia. La eficacia del
algoritmo KNN en distintos contextos ha sido reportada en diversos estudios. Se ha utilizado con ´exito sobre
datos de expresi´on enica; sin embargo, estas aproximaciones no son comparables directamente con la nuestra,
dado que el enfoque de este trabajo se centra en variables cl´ınicas y serol´ogicas [28].
Una limitaci´on relevante del presente estudio es el empleo de una base de datos ublica proveniente de la
plataforma Kaggle, la cual no proporciona detalles suficientes sobre las condiciones y criterios de recolecci´on
aplicados. Esto reduce la posibilidad de extrapolar los resultados a escenarios cl´ınicos. Sin embargo, este
estudio realiz´o un proceso de limpieza de datos, eliminando atributos sin definici´on clara o sin relevancia
cl´ınica. Adem´as, se corrigi´o el desbalance entre clases mediante ecnicas de sobremuestreo, lo que permiti´o
mejorar la capacidad predictiva del modelo. Los resultados respaldan el uso del algoritmo de vecinos as
cercanos como apoyo en el diagn´ostico inicial de la enfermedad cel´ıaca, al basarse en criterios cl´ınicos y
serol´ogicos. Esta soluci´on automatizada se alinea con la pr´actica actual. Adem´as, tiene el potencial de reducir
el infradiagn´ostico, la morbilidad y la mortalidad asociadas.
Conclusiones
El presente estudio confirma que el uso del algoritmo KNN constituye una herramienta eficaz para predecir
la enfermedad cel´ıaca, utilizando par´ametros cl´ınicos y serol´ogicos, respaldado por un alto nivel de exactitud
en los resultados obtenidos. Esta aproximaci´on ayuda a optimizar el diagn´ostico temprano, especialmente en
casos que podr´ıan pasar desapercibidos bajo criterios cl´ınicos convencionales.
Se desarroll´o una interfaz web basada en Django que permitir´a al personal m´edico ingresar datos cl´ınicos y
serol´ogicos del paciente, generando de forma autom´atica un informe de predicci´on, el cual puede ser enviado
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
86
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
al correo electr´onico registrado. Esta implementaci´on refuerza la aplicabilidad del modelo en contextos reales,
favoreciendo su integraci´on en entornos cl´ınicos digitales. Como proyecci´on futura, se destaca la necesidad
de validar externamente el modelo mediante conjuntos de datos cl´ınicamente verificados y estandarizados.
Adem´as, se sugiere ampliar su uso en cohortes poblacionales y explorar su aplicabilidad frente a otras enferme-
dades con perfiles cl´ınicos similares, consolidando as´ı su utilidad como herramienta diagn´ostica complementaria
en la pr´actica edica.
Contribuci´on de Autor´ıa
Daniel L´evano Rodriguez: Conceptualizaci´on,Investigaci´on,Metodolog´ıa,Redacci´on - borrador original. Flor
Elizabeth Cerd´an Le´on: Supervisi´on,Administraci´on de proyectos. Cesar Rolando Salazar Giraldo: Software,
Validaci´on. Jadira Dina Vasquez Castro: Curaci´on de datos. Marita Abigail Carbajal Baz´an: An´alisis formal.
Aldana Camila Zea Mendoza: Visualizaci´on,Escritura, revisi´on y edici´on.
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
87
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
Referencias
[1] S. Jabeen et al., “Disease specific symptoms indices in patients with celiac disease—a hardly recognised
entity,” Front Nutr, vol. 9, Sep 2022.
[2] B. Lebwohl and A. Rubio-Tapia, “Epidemiology, presentation, and diagnosis of celiac disease,” Gastroen-
terology, vol. 160, no. 1, pp. 63–75, Jan 2021.
[3] A. F. Syam et al., “Prevalence and factors associated with celiac disease in high-risk patients with fun-
ctional gastrointestinal disorders,” PLoS One, vol. 19, no. 6, p. e0297605, Jun 2024.
[4] ¨
O. Aydemir et al., “Polymorphisms in intron 1 of hla-dra differentially associate with type 1 diabetes and
celiac disease,” Jun 2023.
[5] E. Creha-Gaudiza et al., “Diagn´ostico de enfermedad celiaca en la pr´actica cl´ınica: presente y futuro,”
An Pediatr (Engl Ed), vol. 94, no. 4, pp. 223–229, Apr 2021.
[6] T. B. Houmich and B. Admou, “Celiac disease: Understandings in diagnostic, nutritional, and medicinal
aspects,” Int J Immunopathol Pharmacol, vol. 35, Jan 2021.
[7] P. Singh et al., “Who to screen and how to screen for celiac disease,” World J Gastroenterol, vol. 28,
no. 32, pp. 4493–4507, Aug 2022.
[8] A. H. Abend et al., “Estimation of prevalence of autoimmune diseases in the united states,” J Clin Invest,
vol. 135, no. 4, Dec 2024.
[9] D. Andari et al., “Clinical presentations and outcomes of celiac disease in children and adolescents,” Front
Pediatr, vol. 13, Jan 2025.
[10] C. M. Trovato et al., “Clinical presentations of celiac disease,” Nutrients, vol. 17, no. 1, p. 129, Dec 2024.
[11] A. A. Esmail et al., “Celiac disease among outpatient attendees with gastrointestinal complaints,”
USTJMS, vol. 3, Feb 2025.
[12] H. Wieser et al., “Gastrointestinal and hepatobiliary manifestations associated with untreated celiac
disease,” J Clin Med, vol. 13, no. 15, p. 4579, Aug 2024.
[13] M. Alfawaz et al., “Clinical characteristics of celiac disease patients in qassim region,” J Family Med Prim
Care, vol. 13, no. 3, pp. 827–832, Mar 2024.
[14] G. Ortiz et al., “New cut-off values of antitransglutaminase antibodies processed by chemiluminescence,”
JPGN Rep, vol. 6, no. 2, pp. 107–112, May 2025.
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
88
Revista Innovaci´on y Software
Vol. 6, No. 2, Mes Septiembre - Febrero, 2025
ISSN: 2708-0935
ag. 74-89
https://revistas.ulasalle.edu.pe/innosoft
[15] N. Conrad et al., “Incidence, prevalence, and co-occurrence of autoimmune disorders over time,” The
Lancet, vol. 401, no. 10391, pp. 1878–1890, Jun 2023.
[16] S. K. Dooraki, “Early detection of celiac disease through machine learning algorithms,” JCMCR, vol. 5,
no. 3, Mar 2024.
[17] A. F. A. H. Alnuaimi and T. H. K. Albaldawi, “An overview of machine learning classification techniques,”
BIO Web Conf, vol. 97, Apr 2024.
[18] F. Piccialli et al., “Precision medicine and machine learning towards the prediction of potential celiac
disease,” Sci Rep, vol. 11, p. 5683, Mar 2021.
[19] M. Torres-V´asquez et al., “Impact of oversampling algorithms in the classification of guillain-barr´e syn-
drome,” Ingenius, no. 25, pp. 20–31, 2021.
[20] A. R. Vico et al., “Predictors of the post-stroke status in the discharge from the hospital,” Enfermer´ıa
Global, vol. 22, no. 1, Jan 2023.
[21] C. L. Vidal-Silva et al., “Experiencia acad´emica en desarrollo apido con python y django,” Formaci´on
universitaria, vol. 14, no. 5, Oct 2021.
[22] C. E. Acosta and E. R. Vizcaino, “Implementaci´on de un sistema para evaluar la cobertura de la red
sigfox,” Enfoque UTE, Nov 2022.
[23] M. L. Barbero et al., “Analyzing the critical success factors in the online-game development,” Dyna
(Medellin), vol. 98, no. 5, Sep 2023.
[24] D. N. and N. P. K. S., “Design and development of we-cdss using django framework,” IEEE Access,
vol. 10, pp. 119 575–119 592, 2022.
[25] C. M. C. Estrada et al., “Dise˜no de un sistema web para el control de curriculum vitae electr´onico,” RITI,
vol. 10, no. 20, Dec 2022.
[26] A. Ehsan et al., “Restful api testing methodologies,” Applied Sciences, vol. 12, no. 9, Apr 2022.
[27] C. Molina and V. Bonilla, “Aplicaci´on de la metodolog´ıa crisp-dm en el an´alisis de gases disueltos,”
Revista ecnica energ´ıa, vol. 21, no. 1, Jul 2024.
[28] J. Carreras, “Artificial intelligence analysis of celiac disease using transcriptomic panel,” Healthcare,
vol. 10, no. 8, Aug 2022.
Facultad de Ingenier´ıa
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
89