7
Decision Trees with the Python language to detect and classify them as Legitimate, Suspicious
and Fraudulent through 1353 cases that they rank websites.
Keywords: Decision Tree, Python, Computer Security, Web Sites.
INTRODUCCIÓN
Uno de los cambios más notorios actualmente en el mundo, aún más por el tiempo de cuarentena,
es el uso de Internet y de servicios Web, como son el comercio electrónico, el cual aumentó, por
las circunstancias que atraviesa el mundo, Internet se convirtió no solo en un gran apoyo para la
sociedad, que utiliza el E-commerce para poderse suministrar las necesidades que tenga, Internet
también está siendo utilizado por delincuentes que roban la información de muchas personas y
cometiendo actos fraudulentos, el cual genera pérdidas de miles de millones cada año, estos
sitios web suelen presentarse como sitios web amigables y de fuentes legítimas de información,
productos y servicios en línea.
Los sitios web fraudulentos tienen características, como son: SFH, Si el sitio web tiene definido
la propiedad action en sus formularios de forma correcta dirigiendo los datos de los formularios
a direcciones del mismo sitio web. PopUp Windows, Si el sitio tiene ventanas emergentes
(PopUp). SSL Final State, Si el sitio web utiliza conexión SSL, que la misma presente un estado
final válido. Request URL, cuando son objetos (imágenes, scripts, hojas de estilos) que son
cargadas de otra URL distinta a la del sitio. URL of Anchor, cuando los objetos de una página
son cargados desde el mismo sitio o desde un subdominio del mismo. Web Traffic Si tiene
configurado un analizador de tráfico web como el Google Analytics. URL Length Cantidad de
caracteres de la dirección URL. Age of Domain, Cantidad de años que lleva activo el dominio de
la URL. Have IP, Si tiene o no dirección IP. Las medidas existentes, que disponen los buscadores,
han mejorado, pero no son suficientes para detectar sitios web fraudulentos, aún más por el
esfuerzo de los que generan este tipo de sitios web para poder eludir estas medidas.
El uso de Árboles de Decisión resulta ser una buena opción para poder detectar los sitios web
fraudulentos. Un árbol de decisión es una forma gráfica y analítica de representar todos los
eventos (sucesos) que pueden surgir a partir de una decisión asumida en cierto momento. Nos
ayudan a tomar la decisión “más acertada”, desde un punto de vista probabilístico, ante un
abanico de posibles decisiones. Permite desplegar visualmente un problema y organizar el trabajo
de cálculos que deben realizarse.
El propósito de este artículo, es el desarrollo un detector de sitios web fraudulentos, a través de
inteligencia artificial usando árboles de decisión, con uso librerías para desarrollar el aprendizaje
en Python, teniendo 1353 casos en los que se clasifican los sitios web, que serán evaluados y
empleando la herramienta Graphviz para visualizar el Árbol decisión resultante.
REVISTA INNOVACIÓN Y SOFTWARE
VOL 3 Nº 1 Marzo - Agosto 2022 ISSN Nº 2708-0935