Es importante tener en cuenta que el rendimiento de los modelos puede variar dependiendo de
diversos factores, como el tamaño y calidad de los datos de entrenamiento, la selección de
características y la selección utilizados en el entrenamiento. También se destaca que el uso de la
ley de Paretto, el balanceo de datos, el uso de GPU con la librería PyTorch y la limpieza de datos
contribuyeron a la mejora considerable de las evaluaciones tomadas en el modelo BERT mejorado.
Conclusiones:
En conclusión, la calidad y la preparación adecuada de los conjuntos de datos utilizados para
entrenar modelos, como BERT, son factores críticos que influyen en los resultados de la evaluación
y las métricas obtenidas. El uso de un dataset balanceado y una limpieza exhaustiva de los datos,
centrándose en los campos relevantes para el entrenamiento, se revela como un aspecto crucial
para obtener resultados óptimos.
Un dataset balanceado garantiza que el modelo se entrene con una representación equitativa de
las distintas clases o categorías presentes en los datos. Esto evita sesgos y permite que el modelo
aprenda de manera equilibrada, mejorando así su capacidad para clasificar correctamente las
muestras de prueba.
La limpieza de datos también desempeña papel fundamental. Al eliminar ruido, datos irrelevantes
o redundantes, y garantizar la integridad de los campos necesarios para el entrenamiento, se
mejora la calidad y la coherencia del conjunto de datos. Esto se traduce en un aprendizaje más
preciso por parte del modelo, lo que se reflejará en una evaluación más confiable y en métricas
más sólidas.
Contribución de Autoría
Bradlhy Luis Machado Medina: Conceptualización, Análisis formal, Investigación,
Visualización, Metodología, Software, Validación, Redacción - borrador original, Curación de
datos, Escritura, revisión y edición. César Alonso Santillana Quirita: Conceptualización,
Análisis formal, Investigación, Visualización, Metodología, Software, Validación, Redacción -
borrador original, Curación de datos, Escritura, revisión y edición. Sharmelyn Violeta Bautista
Luque: Conceptualización, Análisis formal, Investigación, Visualización, Metodología, Software,
Validación, Redacción - borrador original, Curación de datos, Escritura, revisión y edición.