REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
RECIBIDO 19/05/2023 ● ACEPTADO 21/08/2023 PUBLICADO 30/09/2023
RESUMEN
En varias ocasiones cuando se vende un automovil de segunda mano no se sabe el precio exacto
por varios factores, con lo cual puede ser vendido a menos o más valor del que en realidad vale,
generando pérdidas tanto a los compradores como a los vendedores que intentan calcular el valor
por intuición o con su conocimiento en autos, pero está a veces falla.
Entonces con ayuda de organizar los datos en una base de datos, y compararlos con ayuda de un
software, así pudimos conseguir un precio mucho más preciso, esto tomando en cuenta diferentes
factores que podrian modificar el precio del auto, como el tiempo de uso calidad de las distintas
piezas, entre otros, logrando un precio mucho más preciso que al solo usar intuición.
Palabras claves:
Automóvil, inteligencia artificial, precio de venta.
ABSTRACT
On several occasions when a second-hand car is sold, the exact price is not known due to various
factors, with which it can be sold at less or more value than it is actually worth, you will lose both
buyers and sellers who try to calculate the value by intuition or with his knowledge in cars, but
this sometimes fails.
Fiorella Pilar Cayo Cayo
Universidad Nacional de San Agustín.
Arequipa, Perú.
fcayoc@unsa.edu.pe
https://orcid.org/0000-0001-6068-6225
Yoset Cozco Mauri
Universidad Nacional de San Agustín.
Arequipa, Perú.
ycozco@unsa.edu.pe
https://orcid.org/0000-0003-2027-962X
Jordy Pedro Valencia Jara
Universidad Nacional de San Agustín.
Arequipa, Perú.
jquispejar@unsa.edu.pe
https://orcid.org/0000-0001-6336-5419
Henry Uriel Bustinza Torres
Universidad Nacional de San Agustín.
Arequipa, Perú.
hbustinzat@unsa.edu.pe
https://orcid.org/0000-0001-7092-1516
ARK: ark:/42411/s12/a111
DOI: 10.48168/innosoft.s12.a111
PURL: 42411/s12/a111
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
137
Then, with the help of organizing the data in a database, and comparing them with the help of
software, we were able to get a much more accurate price, taking into account different factors
that could modify the price of the car, such as time of use and quality. of the different parts,
among others, achieving a much more accurate price than just using intuition.
Keywords:
Car, artificial intelligence, selling Price.
INTRODUCCIÓN
Considerando la demanda actual de autos personales o de uso privado, la demanda en el sector
automovilístico ha aumentado, y en el mercado de segunda mano la realidad es que ha ido
creciendo, creando auna oportunidad de negocio tanto para compradores como vendedores.
Comprar un auto usado en muchos países es una buena opción por el precio asequible. Dado que
después de algunos años de uso, se puede obtener una ganancia de vender de nuevo.
Es por este motivo que es necesario saber con certeza qué factores influyen en el precio final. En
los mercados de segunda mano, los precios de los autos usados no son constantes, es por este
problema que la evaluación del auto para posteriormente calcular el precio se hace una práctica
constante.
Además por la reciente emergencia sanitaria que sufrió todo el mundo, tener un automóvil para
uso personal a paso de ser un privilegio a una necesidad, que al menos por familia se cuente con
un automóvil para el transporte de esta misma, tanto por salud como por seguridad, siendo un
mercado muy activo últimamente, más que en años anteriores, y en la zona en que vivimos
Sudamérica es muy normal comprar autos de segunda mano siendo una aplicación a nuestro
entorno o un problema que prácticamente podemos ver a diario.
Debido al incremento del valor de los vehículos, se aprecian cada vez más a las ferias de autos
que muestran gran variedad en modelos de autos y precios siendo muchas veces más
convenientes que una casa automotriz. Cada zona geográfica (países) tiene sus características
que ofrecerán más o menos oportunidades a la industria automotriz dependiendo principalmente
de su condición socio-económica.
El precio depende de factores como modelo del automóvil, año de fabricación, marca, opiniones
de consumidores, ciudad, versión, seguridad, color, si es concesionario/particular, kilometraje,
tipo de combustible (GLP, GNV, Gasolina, Diesel), llantas de aleación, sistema de frenos,
aceleración, dimensiones, seguridad, aire acondicionado, su estado físico, el número de dueños
anteriores, interior y dirección asistida, tales variables se utilizan para predecir el precio de dichos
vehículos para el comercio.
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
138
También considerando que algunos vehículos pueden ser de uso particular o laboral pueden tener
mayor o menor desgaste según la función que pudieron desempeñar antes del momento de estar
a la venta. Tener en cuenta que tanto fueron usados sus diferentes componentes considerando
el precio actual de un modelo completamente nuevo del mismo ayudará bastante a la hora de
calcular un precio aproximado aparte de brindar un precio justo a nuestro usuario.
Ya que la mayoría de compradores en lo primero que se fijan es el precio, sin saber el valor de
cada pieza y calcular el valor por uso, desgaste y/o pieza no original, como ya mencionamos
anteriormente hay muchas características que alteran el precio final, pero en la mayoría de casos
el comprador no cuenta con el tiempo o la información suficiente para calcular, y poder ver si el
precio es razonable, de igual forma un vendedor, mayormente vende a un valor echado a suerte
e intuición, y en varias ocasiones este puede ser más bajo de lo que realmente vale, o demasiado
alto, y termina perdiendo dinero o tiempo, por no saber calcular el precio adecuado.
Ahora se debe considerar que los diferentes objetos ya de por si tienen un tiempo de vida útil y
esto podría afectar al momento de calcular el valor que pueden tener ya que si consideramos un
primer dueño que lo uso todo el tiempo donde se tenía la seguridad que dicho vehículo funciona
de forma correcta, al momento de vender el precio bajo de forma considerable.
Teniendo en cuenta todo lo anterior el objetivo principal de este trabajo es encontrar el mejor
modelo predictivo para predecir el precio de un auto de segunda mano, teniendo en cuenta todos
los factores que hacen que varíe el precio entre un vehículo u otro.
Materiales y métodos o Metodología computacional
La metodología utilizada para este proyecto se inicia con la recopilación de datos en bruto en un
conjunto de datos lógico o conjunto de datos disponible en línea. El siguiente paso es crear un
entorno para Pre-procesamiento de datos mediante limpieza y reducción de datos. Después
obteniendo información útil del conjunto de datos, entrenamos y probamos para los análisis de
datos.
Por último, en función de este resultado, se selecciona el modelo de aprendizaje automático para
la predicción de precio y clasificación de precio basada en Inteligencia Artificial.
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
139
Materiales:
revisar Dataset
Metodología computacional:
Recolección de datos
Creación de un entorno
Preprocesamiento de Datos
Entrenamiento
Pruebas y análisis
Selección del modelo
Predicción del valor
DataSet
Esta investigación se basó en el estudio de un dataset de vehículos usados y su precio. Este
dataset de vehículos se encuentra en el sitio web Zenodo[2].
Las características disponibles en nuestro dataset son:
Title: String. Vehicle name, a combination of brand and model. In some cases it includes
model variation an other information.
Price: Integer. Selling price.
ref_num: Integer. ID.
location: String. Location of the vehicle.
seller: String. Type of seller: professional or private.
color: String. Vehicle color.
door_num: Integer. Number of doors.
fuel_type: String. Type of fuel.
hp: Integer. Horse power.
mileage: Integer. Kilometers.
transmisión: String Either manual or automatic transmission.
year: Integer. First registration.
Pre - Procesamiento
En este paso revisamos que en nuestro dataset existen valores atípicos, puede ser debido a la
gran cantidad de datos, estos valores han sido filtrados, dado que existían datos como cilindraje
en la columna de kilometraje o tipo, valores que no corresponden a esta columna.
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
140
Figura 1. Formato CSV usado para procesar el dataset
En la Figura 1 observamos valor atípico en la fila 26 columna C, cilindraje en fuel_type. Usamos
un filtro para evitar este tipo de valores atípicos, este dataset fue traslado a otro documento libre
de valores atípicos, la única condición fue eliminar estos valores atípicos.
Los valores no numéricos durante el procesamiento de datos en código serán suprimidos o
modificados dado que no nos resultan útiles.
Figura 2. Descartando datos como título, locación, precio y ref num para variable X.
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
141
Entrenamiento
Usamos el método linear Regresion para el entrenamiento con nuestro DataSet, por el tipo de
datos y los resultados que queremos obtener resulta un método eficiente. Este resultado será
contrastado con otro método Lasso para tener un análisis más exhaustivo de los resultados.
Para este entrenamiento hemos usado la plataforma de google colab y el gestor de archivos en
la nube google drive.
Como primer paso se hace una carga de datos, con una inspección inicial se revisaron una parte
de los datos, tamaño en filas columnas y la información que ofrece este dataset.
Figura 3. Dataset Collect e inspección inicial
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
142
Figura 4. Revisión de datos faltantes.
Figura 5. Revisión de la distribución por categoría de los datos
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
143
Para poder usar ambos modelos propuestos (Regression, Lasso) es necesario presentar datos de
forma numérica, se deben escoger los datos a usar, estos mismos deben ser codificados y el resto
suprimidos(drop).
Figura 6. Codificación de datos a usar: fuel_type, seller, transmision, location
Figura 7. Verificación inicial de los datos codificados
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
144
Figura 8. Asignación de valores X Y, verificacion de contenido de X
Figura 9. Verificación del contenido de la variable Y
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
145
Se subdividen los datos para entrenamiento y pruebas con la función de sklearn.model
train_test_split con los parámetros X Y, tamaño de prueba 0.1 ( 10% de los datos será para
prueba y 90% serán de entrenamiento) , estado aleatorio (división de datos).
Figura 10. Separación de datos de prueba y entrenamiento.
RESULTADOS
Selección del modelo
Modelo de entrenamiento
Regresión Lineal
Modelo de entrenamiento regresión lineal fue escogido por el tipo de datos que manejamos y el
objetivo principal que tenemos.
Figura 11. Creación de variable lin_reg_model y entrenamiento con los datos de entrenamiento
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
146
Figura 12. Creación de la variable training_data_prediction y predicción, cálculo de error
Figura 13. Visualización de resultados datos de entrenamiento.
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
147
Figura 14. Predicción en los datos de prueba y calculo de error
Figura 15. Visualización de resultados en datos de prueba.
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
148
Lasso
Como segunda opción hemos escogido el modelo Lasso que tiene similitud de comportamiento
pero nos dio una perspectiva diferente en el entrenamiento.
Figura 16. Carga del modelo, predicción en datos de entrenamiento, cálculo de error.
Figura 17. Entrenamiento en datos de prueba, cálculo de error.
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
149
Figura 18. Visualización de resultados en datos de entrenamiento modelo Lasso
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
150
Figura 19. Visualización de resultados en datos de prueba modelo Lasso.
Conclusión
Como pudimos apreciar la recopilación de datos puede llegar a ser fundamental para este trabajo
ya que con ella logramos aproximar un precio justo para el mercado actual, considerando también
diferentes factores ya sea el paso del tiempo las diferentes situaciones a las que podría haber
sido expuesto el auto, valor de los diferentes materiales y desgaste de los mismos, precio normal
al que estaría disponible en el tiempo actual. Lo cual sirve de mucho al comprador y al vendedor
para llegar a un común acuerdo que beneficiaría a ambos.
La cantidad de variables que rodean este segmento que son los autos usados y su correcta
predicción de precios, hacen que la incorrecta selección de parámetros afecte drásticamente el
resultado. En este documento manualmente hemos normalizado y limpiado algunos datos que
puedan generar ruido. Este preprocesamiento es necesario para aumentar el desempeño de
nuestro modelo a usar.
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
151
Durante el análisis logramos corroborar la cohesión de los resultados entre la predicción y los
datos proporcionados, motivo por el cual escogemos el modelo Lasso que mejor resultado nos ha
proporcionado usando esta condición.
Contribución de Autoría
Yoset Cozco Mauri: Conceptualización, Análisis formal, Investigación, Visualización,
Metodología, Software, Validación, Redacción - borrador original, Curación de datos, Escritura,
revisión y edición. Fiorella Pilar Cayo Cayo: Conceptualización, Análisis formal, Investigación,
Visualización, Metodología, Software, Validación, Redacción - borrador original, Curación de
datos, Escritura, revisión y edición. Jordy Pedro Valencia Jara: Conceptualización, Análisis
formal, Investigación, Visualización, Metodología, Software, Validación, Redacción - borrador
original, Curación de datos, Escritura, revisión y edición. Henry Uriel Bustinza
Torres: Conceptualización, Análisis formal, Investigación, Visualización, Metodología, Software,
Validación, Redacción - borrador original, Curación de datos, Escritura, revisión y edición.
Referencias
[1]
A. Yadav, E. Kumar, and P. K. Yadav, “Object detection and used car price
predicting analysis system (UCPAS) using machine learning technique,” Linguist.
Cult. Rev., vol. 5, no. S2, pp. 1131–1147, 2021, doi:
10.21744/lingcure.v5ns2.1660.
[2]
Duran, D., & Martinez, P. (2021, November 5). Carads. Zenodo. Retrieved
August 17, 2022, from https://zenodo.org/record/5651148
[3]
Thai-Nichi Institute of Technology, Institute of Electrical and Electronics
Engineers, and IEEE Thailand Section., “Proceedings of 2018 5th International
Conference on Business and Industrial Research (ICBIR) : smart technology for
next generation of information, engineering, business and social science : 17-18
May, 2018, Thai-Nichi Institute of Technology, Bangkok, Th,” 2018 5th Int. Conf.
Bus. Ind. Res., pp. 115–119, 2018.
[4]
G. Reiter Director and R. Blázquez, “Universidad Torcuato Di Tella Escuela de
Negocios MBA Tesis de Maestría Valuación de autos usados utilizando la técnica
de Regresión Lineal Múltiple, 2007.
REVISTA INNOVACIÓN Y SOFTWARE VOL 4 Nº 2 Septiembre - Febrero 2023 ISSN Nº 2708-0935
152
[5]
I. Permatasari, “No Title לע ןורוויעה,J. Geotech. Geoenvironmental Eng. ASCE, vol.
120, no. 11, p. 259, 2015.
[6]
A. Gavazza, A. Lizzeri, and N. Roketskiy, “A quantitative analysis of the used-car
market, Am. Econ. Rev., vol. 104, no. 11, pp. 3668–3700, 2014, doi:
10.1257/aer.104.11.3668.
[7]
C. Chen, L. Hao, and C. Xu, “Comparative analysis of used car price evaluation
models, AIP Conf. Proc., vol. 1839, no. May 2017, 2017, doi:
10.1063/1.4982530.
[8]
J. M. Ceferino and J. Ignacio, “LIII Reunión Anual, pp. 0–16, 2018.
[9]
E. Bustamante et al., “negocio de certificación de autos usados,” 2022.
[10]
J. Berkovec, “New Car Sales and Used Car Stocks: A Model of the Automobile
Market,” RAND J. Econ., vol. 16, no. 2, p. 195, 1985, doi: 10.2307/2555410.