63
Pandas: es una de las librerías de python más útiles para los científicos de datos. Las estructuras
de datos principales en pandas son Series para datos en una dimensión y DataFrame para datos
en dos dimensiones. Estas son las estructuras de datos más usadas en muchos campos tales
como finanzas, estadística, ciencias sociales y muchas áreas de ingeniería. Pandas destaca por lo
fácil y flexible que hace la manipulación de datos y el análisis de datos [5].
scikit learn: es una de estas librerías gratuitas para Python. Cuenta con algoritmos de
clasificación, regresión, clustering y reducción de dimensionalidad. Además, presenta la
compatibilidad con otras librerías de Python como NumPy, SciPy y matplotlib [6].
sklearn.model_selection import train_test_split: nos permite dividir un dataset en dos
bloques, típicamente bloques destinados al entrenamiento y validación del modelo (llamemos a
estos bloques "bloque de entrenamiento " y "bloque de pruebas" para mantener la coherencia
con el nombre de la función) [7].
sklearn.metrics import accuracy_score: En la clasificación de etiquetas múltiples, esta
función calcula la precisión del subconjunto: el conjunto de etiquetas predichas para una muestra
debe coincidir exactamente con el conjunto de etiquetas correspondiente en y true [8].
sklearn.metrics import classification_report: crea un informe de texto que muestre las
principales métricas de clasificación [8].
matplotlib: es una librería de Python especializada en la creación de gráficos en dos dimensiones,
como histograma, diagramas de sectores, diagramas de caja y bigotes, diagramas de violín,
diagramas de dispersión o puntos, diagramas de líneas, diagramas de áreas, diagramas de
contorno y mapas de color [9].
Métodos o Metodología computacional
El método elegido para realizar la investigación es el método Regresión Logística. Por lo tanto, se
tratará de investigar el estudio de los principales factores de riesgo de la hipertensión arterial,
cómo influyen las características, como un problema de salud.
La investigación se realiza mediante Regresión Logística con variables de entrada y salida,
relacionados a la hipertensión, para poder diagnosticar esta enfermedad a partir de sus
características clasificando resultados en valores discretos. Para el trabajo se ha creado un archivo
hipertension.csv con datos de entrada, para el presente articulo científico se considera nueve
características para el diagnóstico de la enfermedad hipertensiva, según referencia del ministerio
de salud, variables como: sexo, edad, presión sistólica, presión diastólica, peso, talla, fuma,
actividad física y región. como resultado de salida se considera hipertensión.
REVISTA INNOVACIÓN Y SOFTWARE
VOL 2 Nº 2 Septiembre - Febrero 2021 ISSN Nº 2708-0935