Optimización de Modelos de Lenguaje Grande (LLMs) a través del Prompt Engineering

Crishtian Brenon Paz Fernández; Sergio Helí Diaz Sifuentes; Marcelino Torres Villanueva

doi:10.48168/innosoft.s24.a212

Crishtian Brenon Paz Fernández Universidad Nacional de Trujillo https://orcid.org/0009-0000-2027-5990
Sergio Helí Diaz Sifuentes Universidad Nacional de Trujillo https://orcid.org/0009-0001-7550-5922
Marcelino Torres Villanueva Universidad Nacional de Trujillo https://orcid.org/0000-0002-9797-1510

DOI: 10.48168/innosoft.s24.a212

PURL: 42411/s24/a212

ARK: ark:/42411/s24/a212

Palabras clave: Few-shot learning, LLMs, modelos generativos, prompt engineering, zero-shot learning

Resumen

Este artículo exploró el impacto del prompt engineering en la optimización del rendimiento de modelos de lenguaje grande (LLMs, por sus siglas en inglés) como GPT y BERT. El prompt engineering fue presentado como un enfoque innovador que consistía en diseñar instrucciones específicas para guiar las respuestas de los modelos, mejorando su precisión y relevancia sin modificar sus parámetros internos. El estudio evaluó metodologías para la construcción de prompts efectivos, comparó diferentes estrategias como el few-shot y el zero-shot learning, y analizó casos prácticos en áreas como la generación de texto, la respuesta a preguntas y el análisis de sentimientos. Los resultados mostraron que un diseño estratégico de prompts podía mejorar significativamente la calidad de las respuestas, reducir errores y ampliar el rango de aplicaciones de los LLMs.

Descargas

La descarga de datos todavía no está disponible.

Citas

T. Brown, B. Mann, N. Ryder, M. Subbiah, J. Kaplan, P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell, S. Agarwal, A. Herbert-Voss, G. Krueger, T. Henighan, R. Child, A. Ramesh, D. Ziegler, J. Wu, C. Winter, ... D. Amodei, "Language Models are Few-Shot Learners," arXiv, 2020. Available: https://arxiv.org/abs/2005.14165.

J. Devlin, M. W. Chang, K. Lee, and K. Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding," arXiv, 2018. Available: https://arxiv.org/abs/1810.04805.

A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin, "Attention Is All You Need," arXiv, 2017. Available: https://arxiv.org/abs/1706.03762.

T. Wolf, L. Debut, V. Sanh, J. Chaumond, C. Delangue, A. Moi, P. Cistac, T. Rault, R. Louf, M. Funtowicz, and J. Brew, "Transformers: State-of-the-Art Natural Language Processing," arXiv, 2020. Available: https://arxiv.org/abs/1910.03771. DOI: https://doi.org/10.18653/v1/2020.emnlp-demos.6

C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang, M. Matena, Y. Zhou, W. Li, and P. J. Liu, "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer," Journal of Machine Learning Research, vol. 21, pp. 1–67, 2020. Available: https://arxiv.org/abs/1910.10683.

J. Wei, X. Wang, D. Schuurmans, M. Bosma, B. Ichter, F. Xia, E. H. Chi, Q. V. Le, and D. Zhou, "Chain of Thought Prompting Elicits Reasoning in Large Language Models," arXiv, 2022. Available: https://arxiv.org/abs/2201.11903.

OpenAI, "GPT-4 Technical Report," OpenAI, 2023. Available: https://openai.com/research/gpt-4.

Optimización de Modelos de Lenguaje Grande (LLMs) a través del Prompt Engineering

Resumen

Descargas

Citas

Artículos más leídos del mismo autor/a

PRINCIPALES REGISTROS & INDEXACIONES