Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

Esta obra est´a bajo una Licencia

Creative Commons Atribuci´on

4.0 Internacional.

Tipo de art´ıculo: Art´ıculos originales

Tem´atica: Inteligencia Artiﬁcial

Recibido: 23/11/2024 |Aceptado: 10/01/2025 |Publicado: 30/09/2025

Identiﬁcadores persistentes:

DOI: 10.48168/innosoft.s24.a311

ARK: ark:/42411/s24.a311

PURL: 42411/s24.a311

Aplicaci´on del algoritmo KNN para la predicci´on de

enfermedad cel´ıaca utilizando variables cl´ınicas y serol´ogicas

Application of KNN algorithm for predicting celiac disease

using clinical and serological variables

Daniel L´evano Rodriguez1[0000-0001-5652-0601]*, Flor Elizabeth Cerd´an Le´on2[0000-0001-6747-6335],

Cesar Rolando Salazar Giraldo3[0009-0002-0685-8035], Jadira Dina Vasquez Castro4[0009-0008-3813-9346],

Marita Abigail Carbajal Baz´an5[0009-0002-5519-2495], Aldana Camila Zea Mendoza6[0009-0005-9917-8937]

1Universidad Nacional Tecnol´ogica de Lima Sur. Lima, Per´u. dlevano@untels.edu.pe

2Universidad Nacional Tecnol´ogica de Lima Sur. Lima, Per´u. fcerdan@untels.edu.pe

3Universidad Nacional Tecnol´ogica de Lima Sur. Lima, Per´u. 2213110208@untels.edu.pe

4Universidad Nacional Tecnol´ogica de Lima Sur. Lima, Per´u. 2213100026@untels.edu.pe

5Universidad Peruana Uni´on. Lima, Per´u. marita.carbajal@upeu.edu.pe

6Universidad Peruana Uni´on. Lima, Per´u. aldana.zea@upeu.edu.pe

∗Autor para correspondencia: dlevano@untels.edu.pe

Resumen

La enfermedad cel´ıaca corresponde a una condici´on autoinmune con una prevalencia cercana al 1 % a nivel

global, frecuentemente subdiagnosticada debido a la escasa sospecha cl´ınica, lo que incrementa su morbilidad y

mortalidad. En este contexto, la aplicacion del algoritmo K-Nearest Neighbors (KNN) surgi´o como un modelo

predictivo para contribuir a la detecci´on de esta enfermedad mediante variables cl´ınicas y serol´ogicas. Se

dise˜n´o un modelo supervisado con el algoritmo KNN utilizando variables cl´ınicas y serol´ogicas extra´ıdas de

una base de datos acad´emica de 2,206 registros. Para balancear las clases, se aplic´o la t´ecnica de sobremuestreo

sint´etico (SMOTE). Los datos fueron segmentados para entrenamiento y validaci´on, optimizando el par´ametro

de clasiﬁcaci´on mediante validaci´on cruzada. Adem´as, se desarroll´o una plataforma web dise˜nada para admitir

el ingreso, an´alisis y emisi´on que permite la carga, procesamiento y generaci´on de reportes m´edicos con acceso

por roles y estimaci´on de probabilidad diagn´ostica. Este modelo alcanz´o una exactitud del 94 %, una precisi´on

del 97 % y una sensibilidad del 91 %. El algoritmo demostr´o ser ´util para la predicci´on de la enfermedad cel´ıaca

a partir de datos cl´ınicos y serol´ogicos, y su implementaci´on en la web permite su integraci´on pr´actica en

entornos cl´ınicos.

Palabras claves: autoinmune, Django, enfermedad, KNN, predicci´on

Abstract

Celiac disease is an autoimmune condition with a global prevalence close to 1 %, often underdiagnosed due

to low clinical suspicion, which increases both morbidity and mortality. In this context, the application of the

K-Nearest Neighbors (KNN) algorithm emerged as a predictive model to support the detection of this disease

using clinical and serological variables. A supervised model was developed using the KNN algorithm and clinical

and serological data extracted from an academic dataset containing 2,206 records. To address class imbalance,

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

the Synthetic Minority Over-sampling Technique (SMOTE) was applied. The data were split for training and

validation, optimizing the classiﬁcation parameter through cross-validation. In addition, a web platform was

developed to support data input, analysis, and output, allowing the uploading, processing, and generation of

medical reports with role-based access and diagnostic probability estimation. The model achieved 94 % accuracy,

97 % precision, and 91 % sensitivity. The algorithm proved to be eﬀective for predicting celiac disease based

on clinical and serological data, and its web-based implementation enables practical integration in clinical

environments.

Keywords: autoimmune, Django, disease, KNN, prediction

Introducci´on

La enfermedad cel´ıaca (EC) es un trastorno autoinmune sist´emico con una prevalencia global cercana al 1 %

[1]. Se asocia con factores gen´eticos como HLA-DQ2/DQ8 (ant´ıgeno leucocitario humano), diet´eticos (gluten

presente en trigo y centeno) e inmunol´ogicos (diabetes tipo 1 y tiroiditis autoinmune) [2–6]. Su diagn´ostico

es complejo debido a la falta de consenso en su deﬁnici´on y a la baja sospecha cl´ınica, lo que conduce a una

elevada tasa de casos no diagnosticados (85 %), con aumento de morbilidad y mortalidad [7–9]. Este panorama

ha impulsado la implementaci´on de estrategias de tamizaje en poblaciones de riesgo, considerando s´ıntomas

digestivos, extradigestivos, antecedentes gen´eticos, dieta y enfermedades autoinmunes asociadas [7,10].

La presentaci´on cl´ınica cl´asica de EC es diarrea cr´onica, dolor abdominal, abdomen distendido, v´omitos, y

reducci´on de peso corporal [7,11,12]. En cuanto a las formas at´ıpicas predominan s´ıntomas como anemia fe-

rrop´enica, baja estatura, infertilidad, retraso puberal, y alteraciones hep´aticas [10,13]. El diagn´ostico serol´ogico

se prioriza la medici´on de anticuerpos IgA espec´ıﬁcos contra la enzima transglutaminasa (tTG-IgA), por su

alta sensibilidad, y anti-endomisio IgA (EMA-IgA), de elevada especiﬁcidad (97 %) [14]. En casos con deﬁ-

ciencia de Inmunoglobulina A (IgA), se emplean como alternativas los anticuerpos IgG anti-tTG y anti-DGP

(anti-p´eptidos de gliadina) [15–17].

La EC presenta una mayor prevalencia en Europa y Asia (0,8 %) y una menor en Sudam´erica (0,4 %) [15].

Asimismo, la aparente baja prevalencia de esta patolog´ıa se atribuye, en gran medida, a la subestimaci´on

diagn´ostica. Esto conlleva un aumento en las tasas de morbilidad y mortalidad [7,9]. En este contexto, resul-

ta necesario explorar herramientas innovadoras que permitan optimizar la predicci´on diagn´ostica utilizando

datos accesibles, cl´ınicos y serol´ogicos. Numerosas investigaciones han explorado la aplicaci´on de aprendizaje

autom´atico (AA) en la identiﬁcaci´on de EC, destacando el algoritmo KNN (K - vecinos m´as cercanos) como

medio de predicci´on de EC mediante datos de genes asociados [18]. Tambi´en, ha sido utilizado en conjuntos

de datos con variables cl´ınicas [16].

El aprendizaje autom´atico, que se clasiﬁca en aprendizaje supervisado, no supervisado, semisupervisado y el

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

aprendizaje por refuerzo, permite que las computadoras adquieran conocimiento a partir de datos e identiﬁquen

patrones para ser utilizados y analizados mediante m´etodos estad´ısticos y as´ı dotar a las computadoras de

la capacidad de aprender y tomar decisiones de forma aut´onoma [17]. En este ´ambito, el algoritmo KNN,

de tipo no param´etrico, se utiliza ampliamente para clasiﬁcar variables categ´oricas, considerando la clase

predominante entro los K vecinos m´as cercanos, utilizando m´etricas de proximidad como la distancia euclidiana

para determinar la similitud, en esto se basa su simplicidad, tolerancia al ruido y capacidad de adaptaci´on a

conjuntos de datos complejos [18–21].

El desequilibrio en los conjuntos de datos puede tener un impacto en el rendimiento del algoritmo KNN.

[17]. Por lo tanto, se utiliza SMOTE (T´ecnica de Sobremuestreo Sint´etico de la Clase Minoritaria). SMOTE

crea nuevos datos sint´eticos a partir de combinaciones de instancias pr´oximas dentro de la clase minoritaria,

favoreciendo la igualdad entre categor´ıas y aumentar la capacidad del modelo para generalizar nuevos datos

[19,20]. La implementaci´on de KNN en aplicaciones web puede realizarse con Django, un framework en Python

y la API, los cuales facilitan la comunicaci´on entre componentes y permiten ejecutar predicciones en tiempo

real, favoreciendo su integraci´on en entornos cl´ınicos [21–23]. Django, que abarca el Localizador Uniforme

de Recursos (URL), el Marco de Cach´e para aplicaciones web, el modelo Modelo-Vista-Plantilla (MVT) de

Django y un sistema de almacenamiento que permite gestionar tanto los datos operativos como los modelos

estructurados deﬁnidos en Django [24]. Una API (Interfaz de Programaci´on de Aplicaciones) es un servicio

web que utiliza REST para proporcionar respuestas a las solicitudes del cliente mediante transferencia de

representaciones del estado del recurso solicitado, usando el protocolo HTTP y es enviado en formato JSON

y HTML [25,26].

Este trabajo tuvo como prop´osito obtener un rendimiento aceptable en t´erminos de exactitud, precisi´on y

sensibilidad, utilizando el algoritmo KNN para la predicci´on de la enfermedad cel´ıaca.

Materiales y m´etodos

Con base en la metodolog´ıa CRISP-DM [27] se desarroll´o del sistema predictivo como se ilustra en la Figura

1. Esta incluy´o la comprensi´on del problema cl´ınico, el an´alisis y limpieza del conjunto de datos, el balanceo

mediante SMOTE, la construcci´on del modelo KNN en Python, y su posterior despliegue en una plataforma

web usando Django.

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

Figura 1. Arquitectura del sistema predictivo con KNN

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

Conjunto de datos

El conjunto de datos denominado celiac disease lab data fue recopilado por el laboratorio de Biotecnologia

de la Universidad de Wageningen y se encuentra disponible p´ublicamente a trav´es de la plataforma Kaggle,

donde fue seleccionado como fuente de datos para el presente estudio. Este dise˜no tiene 14 atributos y 2206

instancias con valores num´ericos, de ellos 1843 pertenecen a personas con enfermedad cel´ıaca y 363 a personas

sin enfermedad cel´ıaca.

Limpieza de datos

En el conjunto de datos no se hallaron datos vac´ıos, quedando 2206 registros; sin embargo, se excluy´o las

variables “Abdomen” y “Short Stature” debido a que no se establecieron criterios expl´ıcitos para su deﬁnici´on

en el conjunto de datos. Las variables “Marsh”, “Cd type” se excluyeron por estar directamente relacionadas

con el diagn´ostico deﬁnitivo de la enfermedad, resultando 10 atributos para an´alisis. El prop´osito central de

este estudio fue analizar cl´ınicos y serol´ogicos con el ﬁn de aplicar el algoritmo KNN en la predicci´on de

enfermedad celiaca.

La Tabla 1 presenta el an´alisis del conjunto de datos, detallando tanto el tipo de atributo como sus respectivos

rangos de valores.

Tabla 1. Informaci´on de los atributos del conjunto de datos

ATRIBUTO TIPO RANGO DE VALORES

Edad Discreto [1,35]

G´enero Nominal Femenino →1, Masculino →0

Diabetes Nominal Si →1, No →0

Tipo de diabetes Nominal Tipo 1 →1, Tipo 2 →2, Ninguno →0

Diarrea Nominal Esteatorrea →0, Acuosa →1, Inﬂamatorio

→2

P´erdida de peso Nominal Si →1, No →2

Heces pastosas Nominal Si →1, No →0

IgA Continuo [0.34, 9]

IgG Continuo [5,15.3]

IgM Continuo [0.5,2.7]

IgA: Inmunoglobulina A, IgG: Inmunoglobulina G, IgM: Inmunoglobulina M

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

Balanceo de datos

Se obtuvo una representaci´on con un desequilibrio entre las clases “s´ı tiene” y “no tiene” con 1843 y 363

instancias respectivamente. Esta desproporci´on puede afectar negativamente al modelo predictivo; para mitigar

esta problem´atica se decidi´o implementar la t´ecnica SMOTE ´unicamente en el sobre el conjunto destinado

al entrenamiento del modelo; as´ı se crearon instancias sint´eticas para la clase minoritaria bas´andose en las

caracter´ısticas de sus vecinos m´as cercanos, de esta manera se equilibr´o la clase “no tiene” con la clase “s´ı

tiene” en la Figura 2. Con ello se obtuvo un equilibrio de datos de 1843 instancias para ambas clases.

Figura 2. Balanceo de clases mediante la t´ecnica de SMOTE

Modelado con KNN

Para el modelado predictivo se utiliz´o el algoritmo de vecinos m´as cercanos debido a su efectividad en la

clasiﬁcaci´on de datos cl´ınicos, su facilidad de interpretaci´on y porque no requiere suposiciones rigurosas acerca

del comportamiento de las variables [17]. Se emple´o la implementaci´on del algoritmo KNN disponible en la

biblioteca Scikit-learn de Python durante la etapa de entrenamiento. El conjunto de datos fue cargado en

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

una estructura tipo marco de datos (dataframe) y posteriormente dividido en dos subconjuntos: dividi´endose

en un 70 % de los registros para el proceso de entrenamiento y el 30 % restante para evaluaci´on, empleando

train test split de Scikit-learn. El valor ´optimo del par´ametro k (n´umero de vecinos) se determin´o mediante

una evaluaci´on sistem´atica de la tasa de error para valores entre 1 y 25, el cual se presenta en la Figura 3.

Para la selecci´on del modelo, se opt´o por el valor de k que present´o la menor tasa de error en el conjunto de

datos analizados.

Figura 3. Reporte de tasa de error

Como prueba inicial, el modelo fue entrenado con un valor de K vecino igual a 2. Los resultados obtenidos

para este n´umero de vecinos se presentan en la Tabla 2, la cual resume las principales m´etricas de desempe˜no

del clasiﬁcador.

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

Tabla 2. Reporte de clasiﬁcaci´on

Precisi´on Sensibilidad Puntaje -F1 N´umero de casos

Si tiene 0.92 0.93 0.93 569

No tiene 0.93 0.92 0.92 537

Exactitud 0.93 1106

Posteriormente, se evalu´o el modelo con K igual a 1, obteniendo los valores obtenidos que se detallan en la

Tabla 3, a partir de los cuales se identiﬁc´o el valor ´optimo del par´ametro K vecino.

Tabla 3. Reporte de clasiﬁcaci´on ´optimo

Precisi´on Sensibilidad Puntaje -F1 N´umero de casos

Si tiene 0.97 0.91 0.94 569

No tiene 0.91 0.97 0.94 537

Exactitud 0.94 1106

Despliegue del Sistema

El patr´on arquitect´onico Modelo–Vista–Template (MTV) pertenece al entorno de desarrollo Django. El modelo

predictivo, entrenado previamente con el algoritmo KNN, fue serializado utilizando la biblioteca Joblib y

almacenado en el archivo modelo entrenado.pkl. Este archivo contiene una versi´on persistente del modelo que

puede ser reutilizada en producci´on sin necesidad de reentrenar, lo cual permite optimizar el rendimiento y

facilita la implementaci´on del modelo en entornos web.

El formulario web (Template prediccion.html) permite al personal m´edico ingresar variables cl´ınicas y se-

rol´ogicas del paciente. Una vez completado, los datos son enviados mediante una solicitud POST a una

vista (views.py), donde se transforman al formato requerido por el modelo. En ese punto, el archivo mo-

delo entrenado.pkl se carga din´amicamente en memoria, se ejecuta la predicci´on con el modelo KNN y se

genera un diagn´ostico (positivo o negativo para enfermedad cel´ıaca), acompa˜nado de la probabilidad asociada.

El resultado es renderizado en una nueva plantilla HTML (resultado.html), con opciones adicionales como la

exportaci´on del informe en PDF y Excel. Esta estructura desacopla el entrenamiento del modelo de su ejecuci´on

en tiempo real, optimizando el rendimiento, reduciendo la latencia de respuesta y facilitando su integraci´on en

contextos cl´ınicos digitales.

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

La l´ogica de predicci´on est´a encapsulada en una API interna desarrollada en Django, que gestiona las solicitudes

HTTP, estructura las respuestas en formato JSON, y permite la interacci´on ﬂuida con el frontend. El sistema

incluye un esquema de autenticaci´on basado en roles: el perﬁl “Admin” (dirigido al personal administrativo)

tiene acceso a funciones como el registro de pacientes, acceso al formulario, la gesti´on de usuarios y el historial

de predicciones; mientras que el perﬁl “Usuario” (dirigido a m´edicos autorizados) puede registrar pacientes y

acceder al formulario mostrado en la Figura 4 para realizar las predicciones cl´ınicas correspondientes.

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

Figura 4. Interfaz de formulario

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

Resultados y discusi´on

Se construy´o la matriz correspondiente, cuyos resultados se encuentran en la Tabla 4. Esta permite evaluar la

eﬁcacia del modelo en la clasiﬁcaci´on de pacientes con diagnostico positivo y negativo de enfermedad celiaca,

a partir del an´alisis de variables cl´ınicas y serol´ogicas. En dicha matriz se observa que el modelo identiﬁc´o a

517 pacientes con enfermedad cel´ıaca (Verdaderos positivos) y a 520 pacientes sanos (Verdaderos negativos).

Sin embargo, clasiﬁc´o err´oneamente a 17 personas sanas como si tuvieran la enfermedad (falsos positivos) y

no logr´o detectar la enfermedad en 52 casos, clasiﬁc´andolos como sanos (falsos negativos).

Tabla 4. Matriz de confusi´on P

K neighbors=1 Predicci´on

Si tiene No tiene

Valores reales Si tiene VP=517 FN=52

No tiene FP=17 VN=520

VP: Verdaderos Positivos, FP: Falsos Positivos, FN: Falsos negativos, VN: Verdaderos Negativos.

En la primera fase del entrenamiento del modelo KNN, el valor k fue igual a 2. Este logr´o una exactitud superior

al 93 %, con unas m´etricas balanceadas por ambas clases, con una precisi´on y sensibilidad del 92 %-93 %. Sin

embargo, cuando se comenz´o a optimizar el n´umero de vecinos y se empez´o a incrementar el n´umero k hasta

valores superiores, se detect´o que el valor k=1 reportaba una mayor exactitud del 94 %. En este caso ´optimo,

la clase “s´ı tiene” logr´o una precisi´on del 97 % y una sensibilidad del 91 %. En la clase “no tiene” obtuvo una

precisi´on del 91 % y una sensibilidad del 97 %. Como se observa en la Figura 5, las m´etricas correspondientes

a los valores mencionados.

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

Figura 5. M´etricas del modelo KNN por clase

En el desarrollo con Django, se elabor´o una interfaz de programaci´on de aplicaciones (API) destinada a

recibir datos cl´ınicos ingresados por el usuario, procesarlos y generar un diagn´ostico codiﬁcado en formato.

La aplicaci´on en acceso se encuentra regida por un sistema de autenticaci´on y administraci´on de roles. El

usuario con un personal m´edico autorizado puede acceder a la generaci´on de informes, cuyas credenciales se

encuentran generadas y administradas exclusivamente por el administrador. De esa forma el formulario de

la interfaz de predicci´on fue usado por el personal m´edico para introducir los datos cl´ınicos y serol´ogicos del

paciente, que fueron enviados al servidor a trav´es de una vista en Django, que proces´o la informaci´on, carg´o

el modelo (modelo entrenado.pkl) y gener´o la predicci´on de enfermedad cel´ıaca en tiempo real, mostrando el

resultado en pantalla. Se hicieron pruebas con el conjunto de datos para determinar el nivel de conﬁanza del

modelo, los resultados se presentan en la Tabla 5.

Tabla 5. Predicci´on de enfermedad cel´ıaca con datos cl´ınicos

Atributo Prueba 1 Prueba 2 Prueba 3

Edad 8 20 15

G´enero Masculino Femenino Masculino

Diabetes No Si Si

Tipo de Diabetes Ninguno 2 1

Diarrea Esteatorrea Inﬂamatoria Acuosa

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

Atributo Prueba 1 Prueba 2 Prueba 3

P´erdida de peso No Si No

Heces pastosas No Si No

IgA 3 2.20 2.40

IgG 10 9 9.50

IgM 1.30 1.30 1.50

Predicci´on No tiene EC. Si tiene EC. Si tiene EC.

Un estudio previo con una muestra de 50 personas report´o una exactitud del 96 % al aplicar el algoritmo KNN

para predecir enfermedad cel´ıaca a partir de variables cl´ınicas [16]. El modelo desarrollado en este estudio

obtuvo una exactitud general del 94 % lo que evidencia su solidez en el proceso de clasiﬁcaci´on y resalta que

la incorporaci´on de variables serol´ogicas contribuye signiﬁcativamente a mejorar la eﬁcacia. La eﬁcacia del

algoritmo KNN en distintos contextos ha sido reportada en diversos estudios. Se ha utilizado con ´exito sobre

datos de expresi´on g´enica; sin embargo, estas aproximaciones no son comparables directamente con la nuestra,

dado que el enfoque de este trabajo se centra en variables cl´ınicas y serol´ogicas [28].

Una limitaci´on relevante del presente estudio es el empleo de una base de datos p´ublica proveniente de la

plataforma Kaggle, la cual no proporciona detalles suﬁcientes sobre las condiciones y criterios de recolecci´on

aplicados. Esto reduce la posibilidad de extrapolar los resultados a escenarios cl´ınicos. Sin embargo, este

estudio realiz´o un proceso de limpieza de datos, eliminando atributos sin deﬁnici´on clara o sin relevancia

cl´ınica. Adem´as, se corrigi´o el desbalance entre clases mediante t´ecnicas de sobremuestreo, lo que permiti´o

mejorar la capacidad predictiva del modelo. Los resultados respaldan el uso del algoritmo de vecinos m´as

cercanos como apoyo en el diagn´ostico inicial de la enfermedad cel´ıaca, al basarse en criterios cl´ınicos y

serol´ogicos. Esta soluci´on automatizada se alinea con la pr´actica actual. Adem´as, tiene el potencial de reducir

el infradiagn´ostico, la morbilidad y la mortalidad asociadas.

Conclusiones

El presente estudio conﬁrma que el uso del algoritmo KNN constituye una herramienta eﬁcaz para predecir

la enfermedad cel´ıaca, utilizando par´ametros cl´ınicos y serol´ogicos, respaldado por un alto nivel de exactitud

en los resultados obtenidos. Esta aproximaci´on ayuda a optimizar el diagn´ostico temprano, especialmente en

casos que podr´ıan pasar desapercibidos bajo criterios cl´ınicos convencionales.

Se desarroll´o una interfaz web basada en Django que permitir´a al personal m´edico ingresar datos cl´ınicos y

serol´ogicos del paciente, generando de forma autom´atica un informe de predicci´on, el cual puede ser enviado

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

al correo electr´onico registrado. Esta implementaci´on refuerza la aplicabilidad del modelo en contextos reales,

favoreciendo su integraci´on en entornos cl´ınicos digitales. Como proyecci´on futura, se destaca la necesidad

de validar externamente el modelo mediante conjuntos de datos cl´ınicamente veriﬁcados y estandarizados.

Adem´as, se sugiere ampliar su uso en cohortes poblacionales y explorar su aplicabilidad frente a otras enferme-

dades con perﬁles cl´ınicos similares, consolidando as´ı su utilidad como herramienta diagn´ostica complementaria

en la pr´actica m´edica.

Contribuci´on de Autor´ıa

Daniel L´evano Rodriguez: Conceptualizaci´on,Investigaci´on,Metodolog´ıa,Redacci´on - borrador original. Flor

Elizabeth Cerd´an Le´on: Supervisi´on,Administraci´on de proyectos. Cesar Rolando Salazar Giraldo: Software,

Validaci´on. Jadira Dina Vasquez Castro: Curaci´on de datos. Marita Abigail Carbajal Baz´an: An´alisis formal.

Aldana Camila Zea Mendoza: Visualizaci´on,Escritura, revisi´on y edici´on.

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

Referencias

[1] S. Jabeen et al., “Disease speciﬁc symptoms indices in patients with celiac disease—a hardly recognised

entity,” Front Nutr, vol. 9, Sep 2022.

[2] B. Lebwohl and A. Rubio-Tapia, “Epidemiology, presentation, and diagnosis of celiac disease,” Gastroen-

terology, vol. 160, no. 1, pp. 63–75, Jan 2021.

[3] A. F. Syam et al., “Prevalence and factors associated with celiac disease in high-risk patients with fun-

ctional gastrointestinal disorders,” PLoS One, vol. 19, no. 6, p. e0297605, Jun 2024.

[4] ¨

O. Aydemir et al., “Polymorphisms in intron 1 of hla-dra diﬀerentially associate with type 1 diabetes and

celiac disease,” Jun 2023.

[5] E. Crehu´a-Gaudiza et al., “Diagn´ostico de enfermedad celiaca en la pr´actica cl´ınica: presente y futuro,”

An Pediatr (Engl Ed), vol. 94, no. 4, pp. 223–229, Apr 2021.

[6] T. B. Houmich and B. Admou, “Celiac disease: Understandings in diagnostic, nutritional, and medicinal

aspects,” Int J Immunopathol Pharmacol, vol. 35, Jan 2021.

[7] P. Singh et al., “Who to screen and how to screen for celiac disease,” World J Gastroenterol, vol. 28,

no. 32, pp. 4493–4507, Aug 2022.

[8] A. H. Abend et al., “Estimation of prevalence of autoimmune diseases in the united states,” J Clin Invest,

vol. 135, no. 4, Dec 2024.

[9] D. Andari et al., “Clinical presentations and outcomes of celiac disease in children and adolescents,” Front

Pediatr, vol. 13, Jan 2025.

[10] C. M. Trovato et al., “Clinical presentations of celiac disease,” Nutrients, vol. 17, no. 1, p. 129, Dec 2024.

[11] A. A. Esmail et al., “Celiac disease among outpatient attendees with gastrointestinal complaints,”

USTJMS, vol. 3, Feb 2025.

[12] H. Wieser et al., “Gastrointestinal and hepatobiliary manifestations associated with untreated celiac

disease,” J Clin Med, vol. 13, no. 15, p. 4579, Aug 2024.

[13] M. Alfawaz et al., “Clinical characteristics of celiac disease patients in qassim region,” J Family Med Prim

Care, vol. 13, no. 3, pp. 827–832, Mar 2024.

[14] G. Ortiz et al., “New cut-oﬀ values of antitransglutaminase antibodies processed by chemiluminescence,”

JPGN Rep, vol. 6, no. 2, pp. 107–112, May 2025.

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 6, No. 2, Mes Septiembre - Febrero, 2025

ISSN: 2708-0935

P´ag. 74-89

https://revistas.ulasalle.edu.pe/innosoft

[15] N. Conrad et al., “Incidence, prevalence, and co-occurrence of autoimmune disorders over time,” The

Lancet, vol. 401, no. 10391, pp. 1878–1890, Jun 2023.

[16] S. K. Dooraki, “Early detection of celiac disease through machine learning algorithms,” JCMCR, vol. 5,

no. 3, Mar 2024.

[17] A. F. A. H. Alnuaimi and T. H. K. Albaldawi, “An overview of machine learning classiﬁcation techniques,”

BIO Web Conf, vol. 97, Apr 2024.

[18] F. Piccialli et al., “Precision medicine and machine learning towards the prediction of potential celiac

disease,” Sci Rep, vol. 11, p. 5683, Mar 2021.

[19] M. Torres-V´asquez et al., “Impact of oversampling algorithms in the classiﬁcation of guillain-barr´e syn-

drome,” Ingenius, no. 25, pp. 20–31, 2021.

[20] A. R. Vico et al., “Predictors of the post-stroke status in the discharge from the hospital,” Enfermer´ıa

Global, vol. 22, no. 1, Jan 2023.

[21] C. L. Vidal-Silva et al., “Experiencia acad´emica en desarrollo r´apido con python y django,” Formaci´on

universitaria, vol. 14, no. 5, Oct 2021.

[22] C. E. Acosta and E. R. Vizcaino, “Implementaci´on de un sistema para evaluar la cobertura de la red

sigfox,” Enfoque UTE, Nov 2022.

[23] M. L. Barbero et al., “Analyzing the critical success factors in the online-game development,” Dyna

(Medellin), vol. 98, no. 5, Sep 2023.

[24] D. N. and N. P. K. S., “Design and development of we-cdss using django framework,” IEEE Access,

vol. 10, pp. 119 575–119 592, 2022.

[25] C. M. C. Estrada et al., “Dise˜no de un sistema web para el control de curriculum vitae electr´onico,” RITI,

vol. 10, no. 20, Dec 2022.

[26] A. Ehsan et al., “Restful api testing methodologies,” Applied Sciences, vol. 12, no. 9, Apr 2022.

[27] C. Molina and V. Bonilla, “Aplicaci´on de la metodolog´ıa crisp-dm en el an´alisis de gases disueltos,”

Revista T´ecnica energ´ıa, vol. 21, no. 1, Jul 2024.

[28] J. Carreras, “Artiﬁcial intelligence analysis of celiac disease using transcriptomic panel,” Healthcare,

vol. 10, no. 8, Aug 2022.

Facultad de Ingenier´ıa

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe