Generación de imágenes a partir de texto mediante inteligencia artificial: una revisión sistemática

Palabras clave: Generación de imágenes a partir de texto, Inteligencia artificial generativa, Modelos multimodales, Modelos de difusión, Alineamiento semántico

Resumen

Este estudio aborda distintos enfoques empleados en la generación de imágenes a partir de texto mediante inteligencia artificial, con especial atención a la relación semántica que se establece entre la descripción textual y la imagen generada en los modelos texto–imagen. Asimismo, se revisa la confiabilidad de las métricas empleadas para evaluar su desempeño. Esto con la finalidad de conocer sus capacidades y limitaciones actuales. La investigación se llevó a cabo siguiendo la metodología PRISMA, para lo cual se seleccionaron 18 artículos de acuerdo con los criterios establecidos, que abordaban temas relacionados con arquitecturas de difusión, mecanismos de control semántico, atención a nivel de frase e ingeniería rápida. Los resultados señalan que los modelos basados ​​en difusión son los más utilizados, mientras que los modelos GAN y VAE se emplean mayormente en aplicaciones de nicho. A partir del análisis realizado, se identifican tres niveles de control: atributos visuales, composición y estilo. Sin embargo, actualmente se observan diversas limitaciones en las métricas usadas para evaluar el alineamiento semántico y la persistencia de ciertos sesgos asociados a modelos preentrenados. Las conclusiones señalan que los modelos de difusión son los más utilizados en la literatura reciente y que el uso de técnicas como LoRA ayuda a mejorar la coherencia entre texto e imagen. Estos resultados sugieren que todavía es necesario profundizar en el estudio de la atención relacional, en particular en el desarrollo de métricas estandarizadas en futuras investigaciones.

Descargas

La descarga de datos todavía no está disponible.

Citas

J. Xu, J. Du, and J. Wang, “A survey of generative models used in text-to-image,” Applied and Computational Engineering, vol. 79, pp. 38–48, 2024. [Online]. Available: DOI: 10.54254/2755-2721/79/20241286. DOI: https://doi.org/10.54254/2755-2721/79/20241286

C. Zhang, C. Zhang, M. Zhang, I. S. Kweon, and J. Kim, “Text-to-image Diffusion Models in Generative AI: A Survey,” arXiv preprint arXiv:2303.07909, Mar. 14, 2023. [Online]. Available: https://arxiv.org/abs/2303.07909.

K. Wang, X. Liu, Y. Chang, D. Zhao, T. Xian, and X. Geng, “Semantic guidance for precise style control in diffusion image generation,” Scientific Reports, 2025. [Online]. Available: DOI: 10.1038/s41598-025-28715-x. DOI: https://doi.org/10.1038/s41598-025-28715-x

R. Li, W. Li, Y. Yang, H. Wei, J. Jiang, and Q. Bai, “Swinv2-Imagen: hierarchical vision transformer diffusion models for text-to-image generation,” Neural Computing and Applications, vol. 36, pp. 17245–17260, 2024. [Online]. Available: DOI: 10.1007/s00521-023-09021-x. DOI: https://doi.org/10.1007/s00521-023-09021-x

H. Ma and H. Zheng, “Text Semantics to Image Generation: A Method of Building Facades Design Base on Stable Diffusion Model,” in Phygital Intelligence (CDRF 2023), Computational Design and Robotic Fabrication, First Online: 04 Jan 2024, pp. 24–34. [Online]. Available: DOI: 10.1007/978-981-99-8405-3_3. DOI: https://doi.org/10.1007/978-981-99-8405-3_3

O. Avrahami, O. Fried, and D. Lischinski, “Blended Latent Diffusion,” ACM Transactions on Graphics, vol. 42, no. 4, art. no. 3592450, 2023. [Online]. Available: DOI: 10.1145/3592450. DOI: https://doi.org/10.1145/3592450

Z. Kuang, J. Zhang, Y. Li, et al., “Preserving architectural heritage in urban renewal: a stable diffusion model framework for automated historical facade generation,” npj Heritage Science, vol. 13, art. no. 256, 2025. [Online]. Available: DOI: 10.1038/s40494-025-01826-4. DOI: https://doi.org/10.1038/s40494-025-01826-4

Z. Sordo, E. Chagnon, Z. Hu, et al., “Synthetic Scientific Image Generation with VAE, GAN, and Diffusion Model Architectures,” Journal of Imaging, vol. 11, no. 8, art. no. 252, 2025. [Online]. Available: DOI: 10.3390/jimaging11080252. DOI: https://doi.org/10.3390/jimaging11080252

M. Gao, Q. Zhang, C. Song, X. Zhang, and Y. Li, “Hierarchical Prompt Engineering and Task-Differentiated Low-Rank Adaptation for Artificial Intelligence-Generated Content Image Quality Assessment,” Information (Switzerland), vol. 16, no. 11, art. no. 1006, 2025. [Online]. Available: DOI: 10.3390/info16111006. DOI: https://doi.org/10.3390/info16111006

Z. Ye, X. He, and Y. Peng, “RaT2IGen: Relation-aware Text-to-image Generation via Learnable Prompt,” ACM Transactions on Multimedia Computing, Communications and Applications, vol. 21, no. 5, art. no. 151, 2025. [Online]. Available: DOI: 10.1145/3726527. DOI: https://doi.org/10.1145/3726527

M. D’Incà, E. Peruzzo, M. Mancini, X. Xu, H. Shi, and N. Sebe, “GradBias: Unveiling Word Influence on Bias in Text-to-Image Generative Models,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 11, pp. 9863–9875, 2025. [Online]. Available: DOI: 10.1109/TPAMI.2025.3592901. DOI: https://doi.org/10.1109/TPAMI.2025.3592901

J. Li, S. Zhang, L. Sun, et al., “Enhancing product concept image generation through semantic feature prompts and LoRA training,” Scientific Reports, vol. 15, art. no. 40795, 2025. [Online]. Available: DOI: 10.1038/s41598-025-24600-9. DOI: https://doi.org/10.1038/s41598-025-24600-9

H. He, H. Yang, Z. Tuo, Y. Zhou, Q. Wang, Y. Zhang, Z. Liu, W. Huang, H. Chao, and J. Yin, “DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 12, pp. 11874–11891, 2025. [Online]. Available: DOI: 10.1109/TPAMI.2025.3600149. DOI: https://doi.org/10.1109/TPAMI.2025.3600149

W. Hu, Y. Zhao, L. Yin, et al., “Hierarchical symmetric GAN for Thangka image generation,” npj Heritage Science, vol. 13, art. no. 568, 2025. [Online]. Available: DOI: 10.1038/s40494-025-02100-3. DOI: https://doi.org/10.1038/s40494-025-02100-3

N. S. Mudiraj and S. Singh, “Semantic mapping of Hindi text-to-image generation using CUB dataset,” Scientific Reports, vol. 15, art. no. 36632, 2025. [Online]. Available: DOI: 10.1038/s41598-025-20537-1. DOI: https://doi.org/10.1038/s41598-025-20537-1

X. Peng, T. Sun, Q. Hu, et al., “Poe2CLP: Phrase-level attention and cross-modal semantic alignment for poem generate Chinese landscape paintings,” npj Heritage Science, vol. 13, art. no. 656, 2025. [Online]. Available: DOI: 10.1038/s40494-025-02238-0. DOI: https://doi.org/10.1038/s40494-025-02238-0

Y. Zhao, Z. Liang, Y. Qiu, et al., “A novel flexible identity-net with diffusion models for painting-style generation,” Scientific Reports, vol. 15, art. no. 27896, 2025. [Online]. Available: DOI: 10.1038/s41598-025-12434-4. DOI: https://doi.org/10.1038/s41598-025-12434-4

J. Zhu and L. Mu, “GrainedCLIP and DiffusionGrainedCLIP: Text-Guided Advanced Models for Fine-Grained Attribute Face Image Processing,” IEEE Access, vol. 11, pp. 99030–99045, 2023. [Online]. Available: DOI: 10.1109/ACCESS.2023.3313248. DOI: https://doi.org/10.1109/ACCESS.2023.3313248

Z. Li, Y. Wang, C. Li, et al., “LFMDiff: generation of Chinese traditional landscape paintings based on diffusion model,” npj Heritage Science, vol. 13, art. no. 564, 2025. [Online]. Available: DOI: 10.1038/s40494-025-02136-5. DOI: https://doi.org/10.1038/s40494-025-02136-5

K. Jung, N. Lee, and S. Choi, “KoDi: A Korean Diffusion Model for Bilingual Text-to-Image Generation and Cultural Fidelity,” IEEE Access, vol. 13, pp. 200290–200307, 2025. [Online]. Available: DOI: 10.1109/ACCESS.2025.3633798. DOI: https://doi.org/10.1109/ACCESS.2025.3633798

Y. Xu, H. Liu, R. Yang, and Z. Chen, “Remote Sensing Image Semantic Segmentation Sample Generation Using a Decoupled Latent Diffusion Framework,” Remote Sensing, vol. 17, no. 13, art. no. 2143, 2025. [Online]. Available: DOI: 10.3390/rs17132143. DOI: https://doi.org/10.3390/rs17132143

T. Xing, H. Yan, X. Wang, K. Sun, H. Yu, P. Li, and Q. Zhao, “DLDC: A Dual Loop Data Cleaning Method for Fine-Tuning Remote Sensing Image Generative Models,” IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 18, pp. 28709–28725, 2025. [Online]. Available: DOI: 10.1109/JSTARS.2025.3627924. DOI: https://doi.org/10.1109/JSTARS.2025.3627924

Y. Zhao, M. Li, and M. Berger, “CUPID: Contextual Understanding of Prompt-conditioned Image Distributions,” Computer Graphics Forum, vol. 43, no. 3, art. no. e15086, 2024. [Online]. Available: DOI: 10.1111/cgf.15086. DOI: https://doi.org/10.1111/cgf.15086

Recibido: 2025-10-10
Aceptado: 2025-11-17
Publicado: 2026-03-30
Cómo citar
[1]
Z. Rivas Calderón, E. Villanueva Rosales, y M. Torres Villanueva, «Generación de imágenes a partir de texto mediante inteligencia artificial: una revisión sistemática», Innov. softw., vol. 7, n.º 1, pp. 95-108, mar. 2026.
Sección
Artículos de revisión

Artículos más leídos del mismo autor/a

1 2 > >>