REVISTA INNOVACIÓN Y SOFTWARE Vol. 5 Nº. 1 Marzo Agosto 2024 ISSN Nº 2708-0935
RECIBIDO 19/12/2023 ● ACEPTADO 01/03/2024 PUBLICADO 30/03/2024
RESUMEN
En este proyecto se hace una diferenciación entre personas a travez de diferentes parametros
como edad,sexo,nivel educativo entre otros,para tratar de calcular a cuanto podria asender su
salario. Este problema es importante a resolver por que así una persona podría predecir su futuros
ingresos a través de las decisiones que tomaría en el presente, como por ejemplo hasta qué grado
de educación debe recibir y cuando ya comenzar a trabajar para obtener experiencia. Nuestro
procedimiento para resolver este problema han sido dos análisis estadísticos ,el primero regresión
lineal y un árbol de decisión para poder hacer una comparativa entre estos, las hemos probado
usando herramientas como Colab (Python) y un dataset. Nuestra población de nuestro trabajo
fue de 32000 registros (filas).Los resultados fueron que a través del árbol de decisión hubo una
precisión de 0.879 y un accuracy de 0.817 .Y con respecto a la regresión logística obtuvimos una
precisión de 0.80 cuando para el sueldo <=50K y 0.72 cuando el sueldo es >50K, el accuracy
obtenido es de 0.7912. Dando por conclusión que entre estas dos herramientas nos quedamos
con el Árbol de decisión.
Palabras claves:
Inteligencia Artificial,árboles de decisión,regresión logística,dataset,nivel
socioeconómico.
Moises Enrique Mayta Condori
Universidad Nacional de San Agustín.
Arequipa, Perú.
mmaytac@unsa.edu.pe
cpacori@unsa.edu.pe
https://orcid.org/0000-0003-4444-1273
lquispesan@unsa.edu.pe
Diego Gustavo Montana Neyra
Universidad Nacional de San Agustín.
Arequipa, Perú.
dmontanan@unsa.edu.pe
ARK: ark:/42411/s15/a158
DOI: 10.48168/innosoft.s15.a158
PURL: 42411/s15/a158
REVISTA INNOVACIÓN Y SOFTWARE Vol. 5 Nº. 1 Marzo Agosto 2024 ISSN Nº 2708-0935
142
ABSTRACT
In this project, a differentiation is made between people through different parameters such as
age, sex, educational level, among others, to try to calculate how much their salary could rise.
This problem is important to solve because then a person could predict her future income through
the decisions she would make in the present, such as how much education she should receive
and when to start working to gain experience. Our procedure to solve this problem has been two
statistical analyses, the first linear regression and a decision tree to be able to make a comparison
between them, we have tested them using tools such as Colab (Python) and a dataset. Our
population for our work was 32,000 records (rows). The results were that through the decision
tree there was a precision of 0.88 and an accuracy of 0.82. And with respect to the logistic
regression we obtained a precision of 0.80 when for the salary <=50K and 0.72 when the salary
is >50K, the accuracy obtained is 0.7912. Concluding that between these two tools we are left
with the Decision Tree.
Keywords:
Artificial Intelligence, decision trees, logistic regression, dataset, socioeconomic status.
INTRODUCCIÓN
Los ingresos económicos de una persona vendrían a ser las entradas de dinero percibidos de
manera regular en un periodo y magnitud constante. Entre ellos están los salarios, pensiones,
subsidios, etc. Según [1] el ingreso promedio se calcula por el ingreso nacional bruto y la
población. Al dividir todos los ingresos y ganancias anuales entre la cantidad de población del
país, mostrará el ingreso promedio per cápita. Se incluyen en esta cantidad todos los sueldos y
salarios, pero también otros ingresos no ganados en inversiones o ganancias de capital. El ingreso
promedio más alto del mundo se obtiene en las Bermudas. El presupuesto per cápita más bajo
existe en Afganistán. En la comparación sobre 67 países, Perú ocupa el 49° lugar con un ingreso
anual promedio de 6030 USD y un ingreso mensual promedio de 503 USD.
El Perú,[2] considerado una de las estrellas de crecimiento económico internacional en las dos
últimas décadas, se ha convertido ahora en el país con mayor caída del PBI en América Latina,
esperándose una contracción de 13.9% hacia finales del año 2020, según el FMI. Este resultado,
y la consiguiente destrucción de millones de empleos y el aumento de la pobreza generalizada,
nos ha hecho perder en pocos meses todo lo alcanzado en una década de esforzado avance
económico. Según [3] datos de la Encuesta Nacional de Hogares (ENAHO), en el segundo
trimestre de 2020, la población ocupada disminuyó en más de 6 millones de personas en relación
a similar periodo de 2019. Los mayores incrementos en la tasa de desocupación se registraron
en hombres, personas entre 25 a 44 años de edad y personas con estudios superiores no
universitarios. La disminución de la población ocupada fue mayor en el área urbana (-49,0%) que