Revista Innovaci´on y Software

Vol. 7, No. 1, Mes Marzo - Agosto, 2026

ISSN: 2708-0935

P´ag. 95-108

https://revistas.ulasalle.edu.pe/innosoft

Esta obra est´a bajo una Licencia

Creative Commons Atribuci´on

4.0 Internacional.

Tipo de art´ıculo: Art´ıculos de revisi´on

Tem´atica: Inteligencia artiﬁcial

Recibido: 10/10/2025 | Aceptado: 17/11/2025 | Publicado: 30/3/2026

Identiﬁcadores persistentes:

DOI: 10.48168/innosoft.s29.a356

ARK: ark:/42411/s29.a356

Generaci´on de im´agenes a partir de texto mediante

inteligencia artiﬁcial: una revisi´on sistem´atica

Text-to-Image Generation Using Artiﬁcial Intelligence: A

Systematic Review

Zaleth Rivas Calder´on

1[000-0002-9797-151]*

, Estefany Villanueva Rosales

2[]

, Marcelino Torres

Villanueva

3[0000-0002-9797-1510]

Universidad Nacional de Trujillo. Trujillo, Per´u.. zrivasca@unitru.edu.pe

Universidad Nacional de Trujillo. Trujillo, Per´u.. elvillanuevaro@unitru.edu.pe

Universidad Nacional de Trujillo. Trujillo, Per´u.. mtorres@unitru.edu.pe

∗

Autor para correspondencia: zrivasca@unitru.edu.pe

Resumen

Este estudio aborda distintos enfoques empleados en la generaci´on de im´agenes a partir de texto mediante

inteligencia artiﬁcial, con especial atenci´on a la relaci´on sem´antica que se establece entre la descripci´on textual

y la imagen generada en los modelos texto–imagen. Asimismo, se revisa la ﬁabilidad de las m´etricas empleadas

para evaluar su desempe˜no. Esto con la ﬁnalidad de conocer sus capacidades y limitaciones actuales. La

investigaci´on se llev´o a cabo siguiendo la metodolog´ıa PRISMA, para lo cual se seleccionaron 18 art´ıculos

de acuerdo con los criterios establecidos, que abordaban temas relacionados con arquitecturas de difusi´on,

mecanismos de control sem´antico, atenci´on a nivel de frase y prompt engineering. Los resultados se˜nalan que

los modelos basados en difusi´on son los m´as utilizados, mientras que los modelos GAN y VAE se emplean

mayormente en aplicaciones de nicho. A partir del an´alisis realizado, se identiﬁcaron tres niveles de control:

atributos visuales, composici´on y estilo. Sin embargo, actualmente se observan diversas limitaciones en las

m´etricas usadas para evaluar el alineamiento sem´antico y la persistencia de ciertos sesgos asociados a modelos

preentrenados. Las conclusiones se˜nalan que los modelos de difusi´on son los m´as utilizados en la literatura

reciente y que el uso de t´ecnicas como LoRA ayuda a mejorar la coherencia entre texto e imagen. Estos

resultados sugieren que todav´ıa es necesario profundizar en el estudio de la atenci´on relacional, en particular

en el desarrollo de m´etricas estandarizadas en futuras investigaciones.

Palabras claves: Generaci´on de im´agenes a partir de texto, Inteligencia artiﬁcial generativa, Modelos multi-

modales, Modelos de difusi´on, Alineamiento sem´antico

Abstract

This study examines diﬀerent approaches used in text-to-image generation through artiﬁcial intelligence, with

particular emphasis on the semantic relationship established between textual descriptions and the images ge-

nerated by text–image models. In addition, the reliability of the metrics used to evaluate their performance is

reviewed, with the aim of identifying their current capabilities and limitations. The research was conducted

following the PRISMA methodology, through which 18 articles were selected according to predeﬁned criteria.

These studies addressed topics related to diﬀusion architectures, semantic control mechanisms, phrase-level

attention, and prompt engineering. The results indicate that diﬀusion-based models are the most widely used,

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 7, No. 1, Mes Marzo - Agosto, 2026

ISSN: 2708-0935

P´ag. 95-108

https://revistas.ulasalle.edu.pe/innosoft

while GAN and VAE models are primarily applied in niche applications. Based on the analysis, three levels

of control were identiﬁed: visual attributes, composition, and style. However, several limitations are currently

observed in the metrics used to assess semantic alignment, as well as the persistence of certain biases associated

with pretrained models. The conclusions indicate that diﬀusion models dominate the recent literature and that

the use of techniques such as LoRA contributes to improving text–image coherence. These ﬁndings suggest that

further research is still required on relational attention, particularly regarding the development of standardized

metrics in future studies.

Keywords: Text-to-Image Generation, Generative Artiﬁcial Intelligence, Multimodal Models, Diﬀusion Mo-

dels, Semantic Alignment

Introducci´on

La investigaci´on en inteligencia artiﬁcial generativa, particularmente en los modelos que generan im´agenes a

partir de texto, ha crecido de forma exponencial en los ´ultimos a˜nos gracias a los avances de los modelos de

difusi´on condicionados y las arquitecturas Transformer. Los nuevos modelos de generaci´on visual multimodal

han cambiado la manera en que se crean im´agenes a partir de descripciones textuales, permitiendo obtener

resultados de alta calidad. Este avance representa una innovaci´on en la automatizaci´on de contenidos, la

visualizaci´on educativa y diversas aplicaciones creativas en distintos sectores [1]. En este contexto, Text-to-

Image Diﬀusion Models han emergido como la metodolog´ıa dominante dentro de la generaci´on de im´agenes

condicionadas por texto, gracias a su robustez, versatilidad y capacidad para producir resultados visuales

comparables a fotograf´ıas reales [2].

Sobre esta base, durante los ´ultimos cinco a˜nos, diversos estudios han mostrado inter´es en la capacidad de los

modelos de generaci´on de im´agenes por texto para representar correctamente las descripciones textuales del

usuario. Por ejemplo, estudios recientes han incorporado el uso de funciones de recompensa durante el entre-

namiento de modelos de difusi´on [3]. Los resultados indican que este tipo de estrategias mejora el alineamiento

sem´antico, en

especial cuando se emplea retroalimentaci´on para reforzar la relaci´on entre texto e imagen en aspectos como

la cantidad y el tipo de objetos representados.

De forma complementaria, se ha analizado el control del estilo mediante estrategias de semantic guidance, las

cuales permiten ajustar determinadas caracter´ısticas visuales sin comprometer la coherencia con la descripci´on

textual [4]. Combinadas con t´ecnicas de atenci´on cruzada reﬁnada y mecanismos adaptativos, estas estrategias

han demostrado reducir errores relacionados con el conteo de objetos y la representaci´on de relaciones espaciales

complejas, lo que supone un avance respecto a trabajos previos.

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 7, No. 1, Mes Marzo - Agosto, 2026

ISSN: 2708-0935

P´ag. 95-108

https://revistas.ulasalle.edu.pe/innosoft

A pesar de los avances recientes, todav´ıa existen vac´ıos importantes en la literatura. En particular, los me-

canismos y las arquitecturas dise˜nadas para mejorar el control y la correspondencia sem´antica en modelos

texto–imagen no se han consolidado de manera clara ni bajo un marco metodol´ogico uniforme. Muchos estu-

dios se centran en aplicaciones muy espec´ıﬁcas o en ajustes puntuales relacionados con el estilo y el control de

atributos, lo que diﬁculta ver sus fortalezas o limitaciones [5]. Adem´as, la comparaci´on objetiva entre m´etodos

suele ser complicada debido a la falta de m´etricas estandarizadas que midan de forma consistente la alineaci´on

entre texto e imagen.

En este contexto, en este trabajo se propone examinar de manera sistem´atica los diferentes m´etodos, arqui-

tecturas y mecanismos que se utilizan en los modelos texto–imagen, con el prop´osito de mejorar el control y la

correspondencia entre las im´agenes generadas y las descripciones que las acompa˜nan. A partir de esta revisi´on,

se busca descubrir cu´ales son las tendencias m´as relevantes en la literatura reciente y tambi´en identiﬁcar tanto

las fortalezas como las limitaciones de los enfoques que se han propuesto. Es as´ı que, se realiza una revisi´on

sistem´atica de trabajos indexados en bases de datos cient´ıﬁcas, con el ﬁn de responder las siguientes preguntas

clave: ¿qu´e mecanismos de control sem´antico son m´as comunes?, ¿qu´e tipos de arquitecturas se han propuesto?,

y ¿qu´e retos todav´ıa no se han superado?

Materiales y m´etodos o Metodolog´ıa computacional

En el presente trabajo se ha llevado a cabo una revisi´on sistem´atica de la literatura cient´ıﬁca indexada en

diferentes bases de datos, siguiendo los lineamientos de la declaraci´on PRISMA (Preferred Reporting

Items for

Systematic Reviews and Meta-Analyses). Este enfoque se seleccion´o con el prop´osito de detectar, analizar y

sintetizar de forma adecuada la evidencia disponible sobre los mecanismos de control y alineamiento sem´antico

en modelos texto–imagen.

La b´usqueda bibliogr´aﬁca se realiz´o en las bases de datos Scopus, SpringerLink y Redalyc, las mismas fue-

ron elegidas por su relevancia y calidad acad´emica, as´ı como por la extensa cantidad de literatura cient´ıﬁca

disponible en los temas relacionados con la inteligencia artiﬁcial, la generaci´on de im´agenes y los modelos

multimodales.

Estrategia de b´usqueda

La b´usqueda se realiz´o durante los meses de noviembre y diciembre del 2025, tomando en cuenta art´ıculos

publicados entre 2021 y 2025.

Se usaron combinaciones de t´erminos clave asociados con modelos texto–imagen, generaci´on de im´agenes,

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 7, No. 1, Mes Marzo - Agosto, 2026

ISSN: 2708-0935

P´ag. 95-108

https://revistas.ulasalle.edu.pe/innosoft

modelos de multimodales y mecanismos de alineamiento sem´antico. Las ecuaciones de b´usqueda se adaptaron

ligeramente seg´un las diferentes caracter´ısticas de cada base de datos con el ﬁn de incrementar la recuperaci´on

de estudios relevantes. A continuaci´on, se detallan las f´ormulas de b´usqueda empleadas y la cantidad de

art´ıculos obtenidos en la b´usqueda en cada repositorio bibliogr´aﬁco.

Tabla 1. F´ormulas de b´usqueda empleadas en las bases de datos y el n´umero de art´ıculos encontrados respectivamente.

Base de da-

tos

F´ormula de b´usqueda Cantidad de art´ıcu-

los encontrados

Scopus ( ”text-to-image.

R ”text image.

R ¨ımage generation

from text”) AND (¨ımage generation.

R ¨ımage synthe-

sis”) AND ( ”multimodal models.

R ”vision- langua-

ge models”) AND ( ”semantic alignment.

R ”text-

image alignment.

R ”semantic consistency”) OR (

¸controllable image generation.

R ”generation con-

trol”)

SpringerLink (”text-to-image”) AND (.

rchitectures.

pproaches”) AND (”semantic alignment”) AND

(¨ımage generation”)

Redalyc (text-to-image) AND (image generation) AND (archi-

tectures OR models) AND (control)

Antes de seleccionar los art´ıculos que se van a incluir en la revisi´on sistem´atica, se establecieron los criterios de

inclusi´on y exclusi´on, con el ﬁn de garantizar la selecci´on de material bibliogr´aﬁco conforme a las caracter´ısticas

y objetivos planteados en el estudio.

Criterios de inclusi´on

Incluir ´unicamente art´ıculos de investigaci´on y no de revisi´on, estudios de caso ´unico, libros o manuales.

Material bibliogr´aﬁco presentado en idioma espa˜nol o ingl´es.

Art´ıculos de acceso abierto y con estado ﬁnalizado.

Abordar´an modelos texto–imagen basados en arquitecturas de difusi´on o similares.

Analizar´an mecanismos de control o alineamiento sem´antico entre texto e im´agenes generadas.

Art´ıculos que se hayan publicado entre 2025 y 2021, ambos inclusive.

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 7, No. 1, Mes Marzo - Agosto, 2026

ISSN: 2708-0935

P´ag. 95-108

https://revistas.ulasalle.edu.pe/innosoft

Criterios de exclusi´on

Se excluyen los estudios que se reﬁeran a generaci´on de otros formatos como video o audio, que no sean

im´agenes.

No abordar´an expl´ıcitamente el problema del alineamiento sem´antico en modelos texto–imagen.

Los centrados ´unicamente en generaci´on de texto.

Los que aborden modelos de generaci´on que no sean espec´ıﬁcamente texto a imagen.

Presentar´an enfoques puramente te´oricos sin validaci´on experimental.

Las publicaciones que no se encuentran completas o disponibles en su totalidad en los repositorios

seleccionados.

Proceso de selecci´on de estudios

El proceso de selecci´on de estudios se realiz´o siguiendo las cuatro fases de la metodolog´ıa PRISMA, cuyo ﬂujo

se resume en el diagrama correspondiente.

En la fase de identiﬁcaci´on, se recuperaron un total de 91 registros a partir de las b´usquedas realizadas en

repositorios bibliogr´aﬁcos especializados, distribuidos de la siguiente manera: Scopus (n = 45), Redalyc (n =

19) y SpringerLink (n = 27).

Posteriormente, en la fase de cribado, se realiz´o una revisi´on inicial de los t´ıtulos, a partir de la cual se excluyeron

40 registros por no estar relacionados con el objetivo de estudio. No se encontraron registros duplicados en

esta etapa (n

= 0), por lo que el n´umero de estudios cribados se redujo a 51.

En la fase de evaluaci´on de idoneidad, se llev´o a cabo la lectura de los res´umenes y posteriormente se excluyeron

33 estudios, por no cumplir los criterios de inclusi´on establecidos. Las principales razones de exclusi´on fueron

la falta de relaci´on directa con la generaci´on texto–imagen (n = 30) y el enfoque en tareas de generaci´on

audio–imagen en lugar de texto–imagen (n = 3). Luego de la eliminaci´on, se seleccionaron preliminarmente 18

art´ıculos para evaluar su elegibilidad.

Finalmente, en la fase de inclusi´on, los 18 estudios seleccionados en la fase anterior cumplieron todos los

criterios de inclusi´on y fueron seleccionadas para realizar la revisi´on sistem´atica. Estos trabajos constituyen el

conjunto ﬁnal de art´ıculos analizados en el presente trabajo.

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

Revista Innovaci´on y Software

Vol. 7, No. 1, Mes Marzo - Agosto, 2026

ISSN: 2708-0935

P´ag. 95-108

https://revistas.ulasalle.edu.pe/innosoft

Figura 1. Diagrama de ﬂujo PRISMA en cuatro niveles.

An´alisis de los estudios incluidos

Los art´ıculos seleccionados fueron analizados de forma cualitativa y comparativa, identiﬁcando las investigacio-

nes m´as destacadas con relaci´on al objetivo planteado previamente. Este an´alisis permiti´o identiﬁcar tendencias

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

100

Revista Innovaci´on y Software

Vol. 7, No. 1, Mes Marzo - Agosto, 2026

ISSN: 2708-0935

P´ag. 95-108

https://revistas.ulasalle.edu.pe/innosoft

actuales y desaf´ıos abiertos en el desarrollo de modelos texto–imagen.

Resultados y discusi´on

Para este an´alisis se consideran 18 estudios recientes publicados entre 2021 y 2025, los cuales se centran en

modelos texto–imagen con mecanismos de control y alineamiento sem´antico. No todos los art´ıculos incluyen

modelos con arquitecturas expl´ıcitas para cada tipo de an´alisis; por lo tanto, cada gr´aﬁco reﬂeja ´unicamente

los estudios relevantes para cada dimensi´on (arquitecturas, mecanismos, estrategias de control, m´etricas y

tendencias).

En los estudios analizados, las arquitecturas basadas en diﬀusion models predominan sobre GANs y VAEs,

especialmente para tareas de control sem´antico y generaci´on de contenido multimodal [6–8]. Por ejemplo,

modelos como Blended Latent Diﬀusion, que se emplea en la edici´on de im´agenes y Stable Diﬀusion, usado en

la conservaci´on del patrimonio arquitect´onico, muestran mayor capacidad para incorporar informaci´on textual

compleja [6,9]. Los GANs se utilizan principalmente en ´areas espec´ıﬁcas como arte y patrimonio, mientras que

los VAE se emplean en aplicaciones cient´ıﬁcas y m´edicas [10].

Tabla 2. N´umero de art´ıculos por Arquitectura

Arquitectura principal Art´ıculos

Diﬀusion-based (incluye Latent / Stable / adaptaciones con Lo-

RA/ControlNet/CLIP)

GAN (hierarchical / domain-speciﬁc) 1

Nota: Datos usados: los 13 art´ıculos que proponen modelos. Clasiﬁcaci´on por arquitectura principal observada

en cada art´ıculo.

La Tabla 2 indica la prevalencia de los modelos de difusi´on en cantidad de publicaciones, evidenciando una

tendencia orientada a arquitecturas capaces de integrarse con mecanismos de control y alineamiento sem´antico

m´as exactos.

Por otro lado, asimismo se muestra una diversidad de estrategias para alinear texto e imagen, que incluyen

el uso de prompts estructurados, embeddings sem´anticos de grano ﬁno, t´ecnicas de adaptaci´on de bajo rango

(LoRA) y mecanismos de ajuste ﬁno guiados por texto [8, 11, 12]. Adem´as, se resaltan m´etodos de correcci´on

de sesgos empleando GradBias y ajustes de pesos de palabras con el ﬁn de mejorar la ﬁdelidad sem´antica [13].

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

101

Revista Innovaci´on y Software

Vol. 7, No. 1, Mes Marzo - Agosto, 2026

ISSN: 2708-0935

P´ag. 95-108

https://revistas.ulasalle.edu.pe/innosoft

Los m´etodos actuales utilizan t´ecnicas de control en tres grados: caracter´ısticas (color, forma, estilo), compo-

sici´on (posici´on y relaci´on entre objetos) y estilo art´ıstico o cultural, como se muestra en la ﬁgura 2.

Figura 2. Datos usados: los 13 art´ıculos que proponen modelos. Gr´aﬁco de barras apiladas sobre la Variedad de

mecanismos para alinear texto e imagen en los art´ıculos seleccionados

Esta indica que los ajustes de dominio espec´ıﬁco mediante LoRA son los m´as frecuentes, seguidos de la combi-

naci´on de attention mechanisms y prompt engineering o entrenamiento jer´arquico [11, 14]. Estos mecanismos

han mostrado un impacto positivo en la coherencia sem´antica de las im´agenes generadas, aunque su efectividad

depende de la complejidad del prompt y de la diversidad de datos de entrenamiento [15, 16].

Tambi´en se observa que los enfoques actuales aplican principalmente estrategias de control en tres niveles:

atributos, composici´on y estilo art´ıstico o cultural.

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

102

Revista Innovaci´on y Software

Vol. 7, No. 1, Mes Marzo - Agosto, 2026

ISSN: 2708-0935

P´ag. 95-108

https://revistas.ulasalle.edu.pe/innosoft

Figura 3. Datos usados: los 13 art´ıculos que proponen modelos. Gr´aﬁco de barras apiladas de estrategias de control

utilizadas en los art´ıculos seleccionados. Para la graﬁcaci´on se asign´o un puntaje seg´un la presencia de la estrategia: No

se us´o = 0, S´ı se us´o = 2, Parcialmente usado = 1.

El gr´aﬁco descriptivo de “Estrategias de control” organiza por art´ıculos y tipos de control, mostrando que

la mayor´ıa de los estudios combinan control de atributos y composici´on, con un menor n´umero incorporando

control de estilo cultural o art´ıstico. Esto indica un inter´es creciente en generar im´agenes coherentes no solo

con la descripci´on textual, sino tambi´en con convenciones est´eticas espec´ıﬁcas [8, 17].

Asimismo, se identiﬁcan diversas m´etricas para evaluar la correspondencia texto–imagen como: CLIPScore,

FID, IS, m´etricas de coherencia sem´antica y evaluaci´on humana [11,12,14]. Cada m´etrica presenta limitaciones

y oportunidades como se describe a continuaci´on:

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

103

Revista Innovaci´on y Software

Vol. 7, No. 1, Mes Marzo - Agosto, 2026

ISSN: 2708-0935

P´ag. 95-108

https://revistas.ulasalle.edu.pe/innosoft

Tabla 3. M´etricas usadas para evaluar la correspondencia texto-imagen

M´etrica Sensible al alineamiento

sem´antico

Reproducibilidad

FID Baja: captura diferencias vi-

suales, no intenci´on textual

Alta: autom´atica y re-

producible con dataset

ﬁjo

IS (Inception Score) Baja: enfocado en cali-

dad/diversidad, no match

textual

Alta: c´alculo autom´ati-

CLIPScore / CLIP si-

milarity

Media-Alta: correlaci´on con

sem´antica general, falla en

compositionality

Alta: evaluaci´on au-

tom´atica y consistente

LPIPS / SSIM Baja-Media: mide similitud

perceptual, no intenci´on tex-

tual

Alta: reproducible au-

tom´aticamente

VQA-based metrics Alta: eval´ua correspondencia

v´ıa preguntas dirigidas

Media: depende del mo-

delo VQA usado

Attribute accuracy Alta: eval´ua atributos es-

pec´ıﬁcos

Media-Alta: requiere

clasiﬁcadores entrena-

dos

Evaluaci´on humana Muy alta: referencia para in-

tenci´on sem´antica

Baja: costosa y variable

Distributional diagnos-

tics

Media: detecta tendencias y

hallucinations

Media: interpretaci´on

parcial necesaria

Los resultados de esta revisi´on sistem´atica revelan que el avance en la generaci´on de im´agenes a partir de

texto ha transitado desde estructuras puramente generativas hacia arquitecturas h´ıbridas que priorizan el

control sem´antico y la ﬁdelidad cultural. En los estudios revisados, se observa que los modelos de difusi´on han

adquirido mayor relevancia en comparaci´on con los VAE y las GAN, debido a su capacidad para capturar

detalles ﬁnos y lograr una alineaci´on m´as precisa entre texto e imagen [17].

Algunos estudios, por otro lado, destacan la puesta en pr´actica de t´ecnicas de atenci´on a nivel de frase y el uso

de modelos de lenguaje a gran escala (LLM) para ayudar en la visualizaci´on de narrativas complejas, lo que

ayuda a que haya m´as coherencia entre diferentes objetos generados [11,18]. Adicionalmente, se han empleado

m´etodos como la ingenier´ıa de prompts jer´arquicos y LoRA para mejorar la exactitud del resultado y la calidad

visual, sobre todo en aplicaciones concretas como el patrimonio arquitect´onico y el dise˜no de productos [7,10].

No obstante, a pesar de los avances alcanzados, la literatura especializada sigue identiﬁcando diversas limita-

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

104

Revista Innovaci´on y Software

Vol. 7, No. 1, Mes Marzo - Agosto, 2026

ISSN: 2708-0935

P´ag. 95-108

https://revistas.ulasalle.edu.pe/innosoft

ciones. Entre las m´as relevantes se encuentran la persistencia de sesgos impl´ıcitos heredados de los modelos

preentrenados y las diﬁcultades para mantener un control ﬁno durante procesos de edici´on local sin com-

prometer la coherencia global de la imagen generada [6, 9]. Adem´as, la generaci´on de contenido altamente

especializado, como la teledetecci´on o el arte hist´orico, se ve restringida por la falta de datos y las particula-

ridades del dominio. En este contexto, algunos estudios

han propuesto estrategias autom´aticas de depuraci´on de datos, entre ellas los esquemas de doble bucle emplea-

dos en teledetecci´on, con el ﬁn de mejorar la validez t´ecnica de los modelos [8,12]. Por esa raz´on, se recomienda

que futuras investigaciones se enfoquen en desarrollar m´etodos de .

tenci´on consciente de la relaci´on”(relation-

aware) para optimizar la interacci´on entre varios objetos, as´ı como en elaborar modelos de difusi´on avanzada

que procesen atributos faciales de grano ﬁno de manera m´as eﬁciente [19, 20].

A partir del an´alisis se identiﬁcan tendencias claras en la investigaci´on reciente, entre ellas un inter´es crecien-

te en modelos h´ıbridos que incorporan difusi´on, aprendizaje multimodal y mecanismos de control expl´ıcito

mediante se˜nales de identidad o estructurales. Del mismo modo, los sistemas tienden hacia una mayor in-

terpretabilidad y adaptabilidad, al tiempo que ganan la capacidad de equilibrar el control y la creatividad

seg´un el contexto de uso [15, 18, 21]. Finalmente, se proyecta un incremento en el desarrollo de modelos de

texto e imagen especializados por dominio, junto con la adopci´on de arquitecturas m´as ligeras y eﬁcientes, lo

que generar´a nuevas oportunidades para su aplicaci´on pr´actica en ´ambitos como el dise˜no, el arte digital y la

generaci´on de contenido asistida por inteligencia artiﬁcial [14, 16, 19].

Conclusiones

La revisi´on sistem´atica sugiere que los modelos de difusi´on son los m´as utilizados para crear im´agenes a partir

de texto, ya que tienen la capacidad de combinar mecanismos de control sem´antico y producir contenido mul-

timodal con gran ﬁdelidad. Estos modelos ofrecen ventajas signiﬁcativas en comparaci´on con las arquitecturas

basadas en VAE y GAN, especialmente en trabajos que requieren precisi´on cuando se trata de atributos visua-

les complejos y descripciones textuales. El an´alisis indica que la implementaci´on de t´ecnicas como adaptaci´on

de bajo rango (LoRA), prompt engineering jer´arquico y atenci´on a nivel de frase ayuda signiﬁcativamente en

el aumento de la ﬁdelidad visual y la coherencia sem´antica en distintas ´areas de aplicaci´on, entre ellas el arte

digital, el dise˜no de productos y el patrimonio arquitect´onico.

Adem´as, se observa que los mecanismos de control utilizados en los modelos de texto e imagen funcionan, sobre

todo, a tres niveles: la conﬁguraci´on de la escena, el estilo cultural o art´ıstico y las caracter´ısticas visuales.

La uni´on de estos posibilita la producci´on de im´agenes m´as exactas y personalizadas, sim embargo todav´ıa

existen restricciones para el manejo a detalle de objetos individuales sin que esto impacte la coherencia total

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

105

Revista Innovaci´on y Software

Vol. 7, No. 1, Mes Marzo - Agosto, 2026

ISSN: 2708-0935

P´ag. 95-108

https://revistas.ulasalle.edu.pe/innosoft

de la imagen. Tambi´en es un desaf´ıo

continuar evaluando el alineamiento sem´antico debido a que las m´etricas existentes son limitadas y requieren

ser complementadas con valoraciones humanas y cambios espec´ıﬁcos seg´un el contexto de uso.

Tambi´en, se lograron identiﬁcar limitaciones, fortalezas y tendencias en las investigaciones actuales en cuanto

a las arquitecturas y mecanismos existentes. Se percibe existe una tendencia creciente hacia la aplicaci´on

de modelos h´ıbridos, adaptables e interpretables que sean capaces de equilibrar el control y la creatividad

dependiendo el contexto en el que apliquen. En este sentido, este trabajo resulta ´util como una gu´ıa para el

desarrollo de soluciones nuevas para la generaci´on de im´agenes a partir de texto.

Igualmente, en base a los resultados, resulta necesario emplear estrategias m´as soﬁsticadas para el control

relacional y la atenci´on consciente hacia varios objetos, adem´as de incorporar modelos eﬁcaces y especializados

por dominio para mejorar su rendimiento.

Finalmente, se sugieren futuras v´ıas de investigaci´on, tales como el desarrollo de arquitecturas de difusi´on

avanzadas para mejorar la gesti´on de atributos espec´ıﬁcos; la elaboraci´on de m´etricas e ´ındices estandarizados

que permitan calcular y medir la correlaci´on entre texto e imagen; y el an´alisis de modelos adaptativos que

hagan las aplicaciones pr´acticas m´as exactas en campos como el dise˜no, la educaci´on, el arte digital y la

producci´on de contenido con asistencia de la inteligencia artiﬁcial. Estas acciones mejorar´an la ﬁabilidad, la

creatividad y la habilidad de interpretaci´on en los sistemas texto-imagen, lo que ayudar´a a progresar en esta

nueva ´area de la inteligencia artiﬁcial generativa de im´agenes.

Contribuci´on de Autor´ıa

Zaleth Valentina Rivas Calder´on: Conceptualizaci´on, Investigaci´on, Metodolog´ıa, Software, Validaci´on, Redac-

ci´on - borrador original. Estefany Lucia Villanueva Rosales: Conceptualizaci´on, Investigaci´on, Metodolog´ıa,

Software, Validaci´on, Redacci´on - borrador original. Marcelino Torres Villanueva: An´alisis formal, Visualiza-

ci´on, Supervisi´on, Administraci´on de proyectos, Curaci´on de datos, Escritura, revisi´on y edici´on.

Referencias

[1] J. Xu, J. Du, and J. Wang, “A survey of generative models used in text-to-image,” Applied and Compu-

tational Engineering, vol. 79, pp. 38–48, 2024.

[2] C. Zhang, C. Zhang, M. Zhang, I. S. Kweon, and J. Kim, “Text-to-image Diﬀusion Models in Generative

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

106

Revista Innovaci´on y Software

Vol. 7, No. 1, Mes Marzo - Agosto, 2026

ISSN: 2708-0935

P´ag. 95-108

https://revistas.ulasalle.edu.pe/innosoft

AI: A Survey,” 2023. [Online]. Available: https://arxiv.org/abs/2303.07909

[3] K. Wang, X. Liu, Y. Chang, D. Zhao, T. Xian, and X. Geng, “Semantic guidance for precise style control

in diﬀusion image generation,” Scientiﬁc Reports, 2025.

[4] R. Li, W. Li, Y. Yang, H. Wei, J. Jiang, and Q. Bai, “Swinv2-Imagen: hierarchical vision transformer

diﬀusion models for text-to-image generation,” Neural Computing and Applications, vol. 36, pp. 17 245–

17 260, 2024.

[5] H. Ma and H. Zheng, “Text Semantics to Image Generation: A Method of Building Facades Design Base

on Stable Diﬀusion Model,” in Phygital Intelligence (CDRF 2023), Computational Design and Robotic

Fabrication, 2024, pp. 24–34.

[6] O. Avrahami, O. Fried, and D. Lischinski, “Blended Latent Diﬀusion,” ACM Transactions on Graphics,

vol. 42, no. 4, p. art. no. 3592450, 2023.

[7] H. He, H. Yang, Z. Tuo, Y. Zhou, Q. Wang, Y. Zhang, Z. Liu, W. Huang, H. Chao, and J. Yin,

“DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diﬀusion,”

IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 12, pp. 11 874–11 891,

2025.

[8] Z. Ye, X. He, and Y. Peng, “RaT2IGen: Relation-aware Text-to-image Generation via Learnable Prompt,”

ACM Transactions on Multimedia Computing, Communications and Applications, vol. 21, no. 5, p. art.

no. 151, 2025.

[9] Z. Kuang, J. Zhang, Y. Li et al., “Preserving architectural heritage in urban renewal: a stable diﬀusion

model framework for automated historical facade generation,” npj Heritage Science, vol. 13, p. art. no.

256, 2025.

[10] Z. Sordo, E. Chagnon, Z. Hu et al., “Synthetic Scientiﬁc Image Generation with VAE, GAN, and Diﬀusion

Model Architectures,” Journal of Imaging, vol. 11, no. 8, p. art. no. 252, 2025.

[11] M. Gao, Q. Zhang, C. Song, X. Zhang, and Y. Li, “Hierarchical Prompt Engineering and Task-

Diﬀerentiated Low-Rank Adaptation for Artiﬁcial Intelligence-Generated Content Image Quality Assess-

ment,” Information (Switzerland), vol. 16, no. 11, p. art. no. 1006, 2025.

[12] J. Zhu and L. Mu, “GrainedCLIP and DiﬀusionGrainedCLIP: Text-Guided Advanced Models for Fine-

Grained Attribute Face Image Processing,” IEEE Access, vol. 11, pp. 99 030–99 045, 2023.

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

107

Revista Innovaci´on y Software

Vol. 7, No. 1, Mes Marzo - Agosto, 2026

ISSN: 2708-0935

P´ag. 95-108

https://revistas.ulasalle.edu.pe/innosoft

[13] M. D

Inc`a, E. Peruzzo, M. Mancini, X. Xu, H. Shi, and N. Sebe, “GradBias: Unveiling Word Inﬂuence

on Bias in Text-to-Image Generative Models,” IEEE Transactions on Pattern Analysis and Machine

Intelligence, vol. 47, no. 11, pp. 9863–9875, 2025.

[14] J. Li, S. Zhang, L. Sun et al., “Enhancing product concept image generation through semantic feature

prompts and LoRA training,” Scientiﬁc Reports, vol. 15, p. art. no. 40795, 2025.

[15] W. Hu, Y. Zhao, L. Yin et al., “Hierarchical symmetric GAN for Thangka image generation,” npj Heritage

Science, vol. 13, p. art. no. 568, 2025.

[16] N. S. Mudiraj and S. Singh, “Semantic mapping of Hindi text-to-image generation using CUB dataset,”

Scientiﬁc Reports, vol. 15, p. art. no. 36632, 2025.

[17] Y. Zhao, Z. Liang, Y. Qiu et al., “A novel ﬂexible identity-net with diﬀusion models for painting-style

generation,” Scientiﬁc Reports, vol. 15, p. art. no. 27896, 2025.

[18] X. Peng, T. Sun, Q. Hu et al., “Poe2CLP: Phrase-level attention and cross-modal semantic alignment for

poem generate Chinese landscape paintings,” npj Heritage Science, vol. 13, p. art. no. 656, 2025.

[19] K. Jung, N. Lee, and S. Choi, “KoDi: A Korean Diﬀusion Model for Bilingual Text-to-Image Generation

and Cultural Fidelity,” IEEE Access, vol. 13, pp. 200 290–200 307, 2025.

[20] Y. Zhao, M. Li, and M. Berger, “CUPID: Contextual Understanding of Prompt-conditioned Image Dis-

tributions,” Computer Graphics Forum, vol. 43, no. 3, p. art. no. e15086, 2024.

[21] Y. Xu, H. Liu, R. Yang, and Z. Chen, “Remote Sensing Image Semantic Segmentation Sample Generation

Using a Decoupled Latent Diﬀusion Framework,” Remote Sensing, vol. 17, no. 13, p. art. no. 2143, 2025.

[22] Z. Li, Y. Wang, C. Li et al., “LFMDiﬀ: generation of Chinese traditional landscape paintings based on

diﬀusion model,” npj Heritage Science, vol. 13, p. art. no. 564, 2025.

[23] T. Xing, H. Yan, X. Wang, K. Sun, H. Yu, P. Li, and Q. Zhao, “DLDC: A Dual Loop Data Cleaning

Method for Fine-Tuning Remote Sensing Image Generative Models,” IEEE Journal of Selected Topics in

Applied Earth Observations and Remote Sensing, vol. 18, pp. 28 709–28 725, 2025.

Universidad La Salle, Arequipa, Per´u

facin.innosoft@ulasalle.edu.pe

108