de un conjunto de transformaciones no lineales que sirven para asignar características
directamente a los resultados [4].
Trata acerca del sistema de clasificación de texto corto para descripciones de transacciones
bancarias, que consta de tres etapas principales: preprocesamiento, análisis de aprendizaje
automático (ML) y clasificación. En la etapa de preprocesamiento, se recopilan datos de
transacciones bancarias, se tokenizan y eliminan palabras sin significado. En el análisis de ML, se
extrae conocimiento lingüístico mediante la creación de léxicos basados en categorías de interés,
utilizando diversas características como datos léxicos, cantidad de transacción, fecha y n-gramos
de palabras y caracteres. La clasificación se realiza mediante un clasificador de Máquinas de
Soporte Vectorial (SVM), abordando el desafío de clasificar texto breve. La evaluación del sistema
se realiza en conjuntos de datos de descripciones de transacciones bancarias españolas,
comparando resultados con enfoques competidores y utilizando métricas como precisión, recall y
F-measure [5].
Aborda el desafío de la desigualdad de clases en conjuntos de datos, resaltando que muchos
algoritmos funcionan mejor cuando las clases están representadas de manera equitativa. Para
superar este problema, implementa la funcionalidad class_weight de sklearn.utils, lo que resulta
en mejoras significativas para su conjunto de datos desequilibrado. El código proporcionado
muestra la implementación práctica, desde el preprocesamiento de datos hasta el manejo del
desequilibrio de clases mediante pesos calculados, el entrenamiento del modelo y las fases de
validación y prueba de rendimiento. Demuestra la eficacia de abordar la desigualdad de clases y
destaca la rapidez en la que se puede lograr el ciclo completo de desarrollo del modelo [6].
Propuesta
A.
Datos
Se eligió utilizar un conjunto de datos en inglés que se centra en comentarios de
aplicaciones de Android, seleccionándolo debido a su disponibilidad y a que es el conjunto
de datos más extenso identificado, abarcando el periodo entre 2014 al 2017. Estos
conjuntos de datos se obtuvieron del repositorio de bases de datos en GitHub y se
almacenaron en formato estructurado CSV.
El análisis y procesamiento de los datos se llevarán a cabo en el lenguaje de programación
Python, haciendo uso de la librería Pandas para la lectura eficiente de los archivos CSV.
En el proyecto, se emplearán dos conjuntos de datos relacionados con comentarios de
aplicaciones de Android obtenidos a través de F-Droid. El primer conjunto, presentado en
la Tabla 1, contiene información detallada sobre los usuarios. Por otro lado, el segundo
conjunto, presentado en la Tabla 2, abordará la clasificación de los tópicos según el
contenido de los comentarios.