Revista Innovaci´on y Software
Vol. 7, No. 1, Mes Marzo - Agosto, 2026
ISSN: 2708-0935
ag. 95-108
https://revistas.ulasalle.edu.pe/innosoft
Esta obra est´a bajo una Licencia
Creative Commons Atribuci´on
4.0 Internacional.
Tipo de art´ıculo: Art´ıculos de revisi´on
Tem´atica: Inteligencia artificial
Recibido: 10/10/2025 | Aceptado: 17/11/2025 | Publicado: 30/3/2026
Identificadores persistentes:
DOI: 10.48168/innosoft.s29.a356
ARK: ark:/42411/s29.a356
Generaci´on de im´agenes a partir de texto mediante
inteligencia artificial: una revisi´on sistem´atica
Text-to-Image Generation Using Artificial Intelligence: A
Systematic Review
Zaleth Rivas Calder´on
1[000-0002-9797-151]*
, Estefany Villanueva Rosales
2[]
, Marcelino Torres
Villanueva
3[0000-0002-9797-1510]
1
Universidad Nacional de Trujillo. Trujillo, Per´u.. zrivasca@unitru.edu.pe
2
Universidad Nacional de Trujillo. Trujillo, Per´u.. elvillanuevaro@unitru.edu.pe
3
Universidad Nacional de Trujillo. Trujillo, Per´u.. mtorres@unitru.edu.pe
Autor para correspondencia: zrivasca@unitru.edu.pe
Resumen
Este estudio aborda distintos enfoques empleados en la generaci´on de im´agenes a partir de texto mediante
inteligencia artificial, con especial atenci´on a la relaci´on sem´antica que se establece entre la descripci´on textual
y la imagen generada en los modelos texto–imagen. Asimismo, se revisa la fiabilidad de las etricas empleadas
para evaluar su desempe˜no. Esto con la finalidad de conocer sus capacidades y limitaciones actuales. La
investigaci´on se llev´o a cabo siguiendo la metodolog´ıa PRISMA, para lo cual se seleccionaron 18 art´ıculos
de acuerdo con los criterios establecidos, que abordaban temas relacionados con arquitecturas de difusi´on,
mecanismos de control sem´antico, atenci´on a nivel de frase y prompt engineering. Los resultados se˜nalan que
los modelos basados en difusi´on son los as utilizados, mientras que los modelos GAN y VAE se emplean
mayormente en aplicaciones de nicho. A partir del an´alisis realizado, se identificaron tres niveles de control:
atributos visuales, composici´on y estilo. Sin embargo, actualmente se observan diversas limitaciones en las
m´etricas usadas para evaluar el alineamiento sem´antico y la persistencia de ciertos sesgos asociados a modelos
preentrenados. Las conclusiones se˜nalan que los modelos de difusi´on son los as utilizados en la literatura
reciente y que el uso de ecnicas como LoRA ayuda a mejorar la coherencia entre texto e imagen. Estos
resultados sugieren que todav´ıa es necesario profundizar en el estudio de la atenci´on relacional, en particular
en el desarrollo de etricas estandarizadas en futuras investigaciones.
Palabras claves: Generaci´on de im´agenes a partir de texto, Inteligencia artificial generativa, Modelos multi-
modales, Modelos de difusi´on, Alineamiento sem´antico
Abstract
This study examines different approaches used in text-to-image generation through artificial intelligence, with
particular emphasis on the semantic relationship established between textual descriptions and the images ge-
nerated by text–image models. In addition, the reliability of the metrics used to evaluate their performance is
reviewed, with the aim of identifying their current capabilities and limitations. The research was conducted
following the PRISMA methodology, through which 18 articles were selected according to predefined criteria.
These studies addressed topics related to diffusion architectures, semantic control mechanisms, phrase-level
attention, and prompt engineering. The results indicate that diffusion-based models are the most widely used,
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
95
Revista Innovaci´on y Software
Vol. 7, No. 1, Mes Marzo - Agosto, 2026
ISSN: 2708-0935
ag. 95-108
https://revistas.ulasalle.edu.pe/innosoft
while GAN and VAE models are primarily applied in niche applications. Based on the analysis, three levels
of control were identified: visual attributes, composition, and style. However, several limitations are currently
observed in the metrics used to assess semantic alignment, as well as the persistence of certain biases associated
with pretrained models. The conclusions indicate that diffusion models dominate the recent literature and that
the use of techniques such as LoRA contributes to improving text–image coherence. These findings suggest that
further research is still required on relational attention, particularly regarding the development of standardized
metrics in future studies.
Keywords: Text-to-Image Generation, Generative Artificial Intelligence, Multimodal Models, Diffusion Mo-
dels, Semantic Alignment
Introducci´on
La investigaci´on en inteligencia artificial generativa, particularmente en los modelos que generan im´agenes a
partir de texto, ha crecido de forma exponencial en los ´ultimos a˜nos gracias a los avances de los modelos de
difusi´on condicionados y las arquitecturas Transformer. Los nuevos modelos de generaci´on visual multimodal
han cambiado la manera en que se crean im´agenes a partir de descripciones textuales, permitiendo obtener
resultados de alta calidad. Este avance representa una innovaci´on en la automatizaci´on de contenidos, la
visualizaci´on educativa y diversas aplicaciones creativas en distintos sectores [1]. En este contexto, Text-to-
Image Diffusion Models han emergido como la metodolog´ıa dominante dentro de la generaci´on de im´agenes
condicionadas por texto, gracias a su robustez, versatilidad y capacidad para producir resultados visuales
comparables a fotograf´ıas reales [2].
Sobre esta base, durante los ´ultimos cinco a˜nos, diversos estudios han mostrado inter´es en la capacidad de los
modelos de generaci´on de im´agenes por texto para representar correctamente las descripciones textuales del
usuario. Por ejemplo, estudios recientes han incorporado el uso de funciones de recompensa durante el entre-
namiento de modelos de difusi´on [3]. Los resultados indican que este tipo de estrategias mejora el alineamiento
sem´antico, en
especial cuando se emplea retroalimentaci´on para reforzar la relaci´on entre texto e imagen en aspectos como
la cantidad y el tipo de objetos representados.
De forma complementaria, se ha analizado el control del estilo mediante estrategias de semantic guidance, las
cuales permiten ajustar determinadas caracter´ısticas visuales sin comprometer la coherencia con la descripci´on
textual [4]. Combinadas con t´ecnicas de atenci´on cruzada refinada y mecanismos adaptativos, estas estrategias
han demostrado reducir errores relacionados con el conteo de objetos y la representaci´on de relaciones espaciales
complejas, lo que supone un avance respecto a trabajos previos.
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
96
Revista Innovaci´on y Software
Vol. 7, No. 1, Mes Marzo - Agosto, 2026
ISSN: 2708-0935
ag. 95-108
https://revistas.ulasalle.edu.pe/innosoft
A pesar de los avances recientes, todav´ıa existen vac´ıos importantes en la literatura. En particular, los me-
canismos y las arquitecturas dise˜nadas para mejorar el control y la correspondencia sem´antica en modelos
texto–imagen no se han consolidado de manera clara ni bajo un marco metodol´ogico uniforme. Muchos estu-
dios se centran en aplicaciones muy espec´ıficas o en ajustes puntuales relacionados con el estilo y el control de
atributos, lo que dificulta ver sus fortalezas o limitaciones [5]. Adem´as, la comparaci´on objetiva entre m´etodos
suele ser complicada debido a la falta de m´etricas estandarizadas que midan de forma consistente la alineaci´on
entre texto e imagen.
En este contexto, en este trabajo se propone examinar de manera sistem´atica los diferentes m´etodos, arqui-
tecturas y mecanismos que se utilizan en los modelos texto–imagen, con el prop´osito de mejorar el control y la
correspondencia entre las im´agenes generadas y las descripciones que las acompa˜nan. A partir de esta revisi´on,
se busca descubrir cu´ales son las tendencias as relevantes en la literatura reciente y tambi´en identificar tanto
las fortalezas como las limitaciones de los enfoques que se han propuesto. Es as´ı que, se realiza una revisi´on
sistem´atica de trabajos indexados en bases de datos cient´ıficas, con el fin de responder las siguientes preguntas
clave: ¿qu´e mecanismos de control sem´antico son as comunes?, ¿qu´e tipos de arquitecturas se han propuesto?,
y ¿qu´e retos todav´ıa no se han superado?
Materiales y etodos o Metodolog´ıa computacional
En el presente trabajo se ha llevado a cabo una revisi´on sistem´atica de la literatura cient´ıfica indexada en
diferentes bases de datos, siguiendo los lineamientos de la declaraci´on PRISMA (Preferred Reporting
´
Items for
Systematic Reviews and Meta-Analyses). Este enfoque se seleccion´o con el prop´osito de detectar, analizar y
sintetizar de forma adecuada la evidencia disponible sobre los mecanismos de control y alineamiento sem´antico
en modelos texto–imagen.
La b´usqueda bibliogr´afica se realiz´o en las bases de datos Scopus, SpringerLink y Redalyc, las mismas fue-
ron elegidas por su relevancia y calidad acad´emica, as´ı como por la extensa cantidad de literatura cient´ıfica
disponible en los temas relacionados con la inteligencia artificial, la generaci´on de im´agenes y los modelos
multimodales.
Estrategia de b´usqueda
La b´usqueda se realiz´o durante los meses de noviembre y diciembre del 2025, tomando en cuenta art´ıculos
publicados entre 2021 y 2025.
Se usaron combinaciones de erminos clave asociados con modelos texto–imagen, generaci´on de im´agenes,
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
97
Revista Innovaci´on y Software
Vol. 7, No. 1, Mes Marzo - Agosto, 2026
ISSN: 2708-0935
ag. 95-108
https://revistas.ulasalle.edu.pe/innosoft
modelos de multimodales y mecanismos de alineamiento sem´antico. Las ecuaciones de b´usqueda se adaptaron
ligeramente seg´un las diferentes caracter´ısticas de cada base de datos con el fin de incrementar la recuperaci´on
de estudios relevantes. A continuaci´on, se detallan las ormulas de b´usqueda empleadas y la cantidad de
art´ıculos obtenidos en la b´usqueda en cada repositorio bibliogr´afico.
Tabla 1. ormulas de b´usqueda empleadas en las bases de datos y el n´umero de art´ıculos encontrados respectivamente.
Base de da-
tos
ormula de b´usqueda Cantidad de art´ıcu-
los encontrados
Scopus ( ”text-to-image.
O
R ”text image.
O
R ¨ımage generation
from text”) AND (¨ımage generation.
O
R ¨ımage synthe-
sis”) AND ( ”multimodal models.
O
R ”vision- langua-
ge models”) AND ( ”semantic alignment.
O
R ”text-
image alignment.
O
R ”semantic consistency”) OR (
¸controllable image generation.
O
R ”generation con-
trol”)
45
SpringerLink (”text-to-image”) AND (.
a
rchitectures.
O
R
.
a
pproaches”) AND (”semantic alignment”) AND
(¨ımage generation”)
27
Redalyc (text-to-image) AND (image generation) AND (archi-
tectures OR models) AND (control)
19
Antes de seleccionar los art´ıculos que se van a incluir en la revisi´on sistem´atica, se establecieron los criterios de
inclusi´on y exclusi´on, con el fin de garantizar la selecci´on de material bibliogr´afico conforme a las caracter´ısticas
y objetivos planteados en el estudio.
Criterios de inclusi´on
Incluir ´unicamente art´ıculos de investigaci´on y no de revisi´on, estudios de caso ´unico, libros o manuales.
Material bibliogr´afico presentado en idioma espa˜nol o ingl´es.
Art´ıculos de acceso abierto y con estado finalizado.
Abordar´an modelos texto–imagen basados en arquitecturas de difusi´on o similares.
Analizar´an mecanismos de control o alineamiento sem´antico entre texto e im´agenes generadas.
Art´ıculos que se hayan publicado entre 2025 y 2021, ambos inclusive.
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
98
Revista Innovaci´on y Software
Vol. 7, No. 1, Mes Marzo - Agosto, 2026
ISSN: 2708-0935
ag. 95-108
https://revistas.ulasalle.edu.pe/innosoft
Criterios de exclusi´on
Se excluyen los estudios que se refieran a generaci´on de otros formatos como video o audio, que no sean
im´agenes.
No abordar´an expl´ıcitamente el problema del alineamiento sem´antico en modelos texto–imagen.
Los centrados ´unicamente en generaci´on de texto.
Los que aborden modelos de generaci´on que no sean espec´ıficamente texto a imagen.
Presentar´an enfoques puramente te´oricos sin validaci´on experimental.
Las publicaciones que no se encuentran completas o disponibles en su totalidad en los repositorios
seleccionados.
Proceso de selecci´on de estudios
El proceso de selecci´on de estudios se realiz´o siguiendo las cuatro fases de la metodolog´ıa PRISMA, cuyo flujo
se resume en el diagrama correspondiente.
En la fase de identificaci´on, se recuperaron un total de 91 registros a partir de las b´usquedas realizadas en
repositorios bibliogr´aficos especializados, distribuidos de la siguiente manera: Scopus (n = 45), Redalyc (n =
19) y SpringerLink (n = 27).
Posteriormente, en la fase de cribado, se realiz´o una revisi´on inicial de los t´ıtulos, a partir de la cual se excluyeron
40 registros por no estar relacionados con el objetivo de estudio. No se encontraron registros duplicados en
esta etapa (n
= 0), por lo que el umero de estudios cribados se redujo a 51.
En la fase de evaluaci´on de idoneidad, se llev´o a cabo la lectura de los res´umenes y posteriormente se excluyeron
33 estudios, por no cumplir los criterios de inclusi´on establecidos. Las principales razones de exclusi´on fueron
la falta de relaci´on directa con la generaci´on texto–imagen (n = 30) y el enfoque en tareas de generaci´on
audio–imagen en lugar de texto–imagen (n = 3). Luego de la eliminaci´on, se seleccionaron preliminarmente 18
art´ıculos para evaluar su elegibilidad.
Finalmente, en la fase de inclusi´on, los 18 estudios seleccionados en la fase anterior cumplieron todos los
criterios de inclusi´on y fueron seleccionadas para realizar la revisi´on sistem´atica. Estos trabajos constituyen el
conjunto final de art´ıculos analizados en el presente trabajo.
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
99
Revista Innovaci´on y Software
Vol. 7, No. 1, Mes Marzo - Agosto, 2026
ISSN: 2708-0935
ag. 95-108
https://revistas.ulasalle.edu.pe/innosoft
Figura 1. Diagrama de flujo PRISMA en cuatro niveles.
An´alisis de los estudios incluidos
Los art´ıculos seleccionados fueron analizados de forma cualitativa y comparativa, identificando las investigacio-
nes as destacadas con relaci´on al objetivo planteado previamente. Este an´alisis permiti´o identificar tendencias
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
100
Revista Innovaci´on y Software
Vol. 7, No. 1, Mes Marzo - Agosto, 2026
ISSN: 2708-0935
ag. 95-108
https://revistas.ulasalle.edu.pe/innosoft
actuales y desaf´ıos abiertos en el desarrollo de modelos texto–imagen.
Resultados y discusi´on
Para este an´alisis se consideran 18 estudios recientes publicados entre 2021 y 2025, los cuales se centran en
modelos texto–imagen con mecanismos de control y alineamiento sem´antico. No todos los art´ıculos incluyen
modelos con arquitecturas expl´ıcitas para cada tipo de an´alisis; por lo tanto, cada gr´afico refleja ´unicamente
los estudios relevantes para cada dimensi´on (arquitecturas, mecanismos, estrategias de control, m´etricas y
tendencias).
En los estudios analizados, las arquitecturas basadas en diffusion models predominan sobre GANs y VAEs,
especialmente para tareas de control sem´antico y generaci´on de contenido multimodal [68]. Por ejemplo,
modelos como Blended Latent Diffusion, que se emplea en la edici´on de im´agenes y Stable Diffusion, usado en
la conservaci´on del patrimonio arquitect´onico, muestran mayor capacidad para incorporar informaci´on textual
compleja [6,9]. Los GANs se utilizan principalmente en ´areas espec´ıficas como arte y patrimonio, mientras que
los VAE se emplean en aplicaciones cient´ıficas y m´edicas [10].
Tabla 2. N´umero de art´ıculos por Arquitectura
Arquitectura principal Art´ıculos
Diffusion-based (incluye Latent / Stable / adaptaciones con Lo-
RA/ControlNet/CLIP)
12
GAN (hierarchical / domain-specific) 1
Nota: Datos usados: los 13 art´ıculos que proponen modelos. Clasificaci´on por arquitectura principal observada
en cada art´ıculo.
La Tabla 2 indica la prevalencia de los modelos de difusi´on en cantidad de publicaciones, evidenciando una
tendencia orientada a arquitecturas capaces de integrarse con mecanismos de control y alineamiento sem´antico
as exactos.
Por otro lado, asimismo se muestra una diversidad de estrategias para alinear texto e imagen, que incluyen
el uso de prompts estructurados, embeddings sem´anticos de grano fino, ecnicas de adaptaci´on de bajo rango
(LoRA) y mecanismos de ajuste fino guiados por texto [8, 11, 12]. Adem´as, se resaltan etodos de correcci´on
de sesgos empleando GradBias y ajustes de pesos de palabras con el fin de mejorar la fidelidad sem´antica [13].
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
101
Revista Innovaci´on y Software
Vol. 7, No. 1, Mes Marzo - Agosto, 2026
ISSN: 2708-0935
ag. 95-108
https://revistas.ulasalle.edu.pe/innosoft
Los etodos actuales utilizan ecnicas de control en tres grados: caracter´ısticas (color, forma, estilo), compo-
sici´on (posici´on y relaci´on entre objetos) y estilo art´ıstico o cultural, como se muestra en la figura 2.
Figura 2. Datos usados: los 13 art´ıculos que proponen modelos. Gr´afico de barras apiladas sobre la Variedad de
mecanismos para alinear texto e imagen en los art´ıculos seleccionados
Esta indica que los ajustes de dominio espec´ıfico mediante LoRA son los m´as frecuentes, seguidos de la combi-
naci´on de attention mechanisms y prompt engineering o entrenamiento jer´arquico [11, 14]. Estos mecanismos
han mostrado un impacto positivo en la coherencia sem´antica de las im´agenes generadas, aunque su efectividad
depende de la complejidad del prompt y de la diversidad de datos de entrenamiento [15, 16].
Tambi´en se observa que los enfoques actuales aplican principalmente estrategias de control en tres niveles:
atributos, composici´on y estilo art´ıstico o cultural.
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
102
Revista Innovaci´on y Software
Vol. 7, No. 1, Mes Marzo - Agosto, 2026
ISSN: 2708-0935
ag. 95-108
https://revistas.ulasalle.edu.pe/innosoft
Figura 3. Datos usados: los 13 art´ıculos que proponen modelos. Gr´afico de barras apiladas de estrategias de control
utilizadas en los art´ıculos seleccionados. Para la graficaci´on se asign´o un puntaje seg´un la presencia de la estrategia: No
se us´o = 0, S´ı se us´o = 2, Parcialmente usado = 1.
El gr´afico descriptivo de “Estrategias de control” organiza por art´ıculos y tipos de control, mostrando que
la mayor´ıa de los estudios combinan control de atributos y composici´on, con un menor n´umero incorporando
control de estilo cultural o art´ıstico. Esto indica un inter´es creciente en generar im´agenes coherentes no solo
con la descripci´on textual, sino tambi´en con convenciones est´eticas espec´ıficas [8, 17].
Asimismo, se identifican diversas m´etricas para evaluar la correspondencia texto–imagen como: CLIPScore,
FID, IS, m´etricas de coherencia sem´antica y evaluaci´on humana [11,12,14]. Cada m´etrica presenta limitaciones
y oportunidades como se describe a continuaci´on:
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
103
Revista Innovaci´on y Software
Vol. 7, No. 1, Mes Marzo - Agosto, 2026
ISSN: 2708-0935
ag. 95-108
https://revistas.ulasalle.edu.pe/innosoft
Tabla 3. etricas usadas para evaluar la correspondencia texto-imagen
M´etrica Sensible al alineamiento
sem´antico
Reproducibilidad
FID Baja: captura diferencias vi-
suales, no intenci´on textual
Alta: autom´atica y re-
producible con dataset
fijo
IS (Inception Score) Baja: enfocado en cali-
dad/diversidad, no match
textual
Alta: alculo autom´ati-
co
CLIPScore / CLIP si-
milarity
Media-Alta: correlaci´on con
sem´antica general, falla en
compositionality
Alta: evaluaci´on au-
tom´atica y consistente
LPIPS / SSIM Baja-Media: mide similitud
perceptual, no intenci´on tex-
tual
Alta: reproducible au-
tom´aticamente
VQA-based metrics Alta: eval´ua correspondencia
v´ıa preguntas dirigidas
Media: depende del mo-
delo VQA usado
Attribute accuracy Alta: eval´ua atributos es-
pec´ıficos
Media-Alta: requiere
clasificadores entrena-
dos
Evaluaci´on humana Muy alta: referencia para in-
tenci´on sem´antica
Baja: costosa y variable
Distributional diagnos-
tics
Media: detecta tendencias y
hallucinations
Media: interpretaci´on
parcial necesaria
Los resultados de esta revisi´on sistem´atica revelan que el avance en la generaci´on de im´agenes a partir de
texto ha transitado desde estructuras puramente generativas hacia arquitecturas h´ıbridas que priorizan el
control sem´antico y la fidelidad cultural. En los estudios revisados, se observa que los modelos de difusi´on han
adquirido mayor relevancia en comparaci´on con los VAE y las GAN, debido a su capacidad para capturar
detalles finos y lograr una alineaci´on as precisa entre texto e imagen [17].
Algunos estudios, por otro lado, destacan la puesta en pr´actica de t´ecnicas de atenci´on a nivel de frase y el uso
de modelos de lenguaje a gran escala (LLM) para ayudar en la visualizaci´on de narrativas complejas, lo que
ayuda a que haya as coherencia entre diferentes objetos generados [11,18]. Adicionalmente, se han empleado
m´etodos como la ingenier´ıa de prompts jer´arquicos y LoRA para mejorar la exactitud del resultado y la calidad
visual, sobre todo en aplicaciones concretas como el patrimonio arquitect´onico y el dise˜no de productos [7,10].
No obstante, a pesar de los avances alcanzados, la literatura especializada sigue identificando diversas limita-
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
104
Revista Innovaci´on y Software
Vol. 7, No. 1, Mes Marzo - Agosto, 2026
ISSN: 2708-0935
ag. 95-108
https://revistas.ulasalle.edu.pe/innosoft
ciones. Entre las as relevantes se encuentran la persistencia de sesgos impl´ıcitos heredados de los modelos
preentrenados y las dificultades para mantener un control fino durante procesos de edici´on local sin com-
prometer la coherencia global de la imagen generada [6, 9]. Adem´as, la generaci´on de contenido altamente
especializado, como la teledetecci´on o el arte hist´orico, se ve restringida por la falta de datos y las particula-
ridades del dominio. En este contexto, algunos estudios
han propuesto estrategias autom´aticas de depuraci´on de datos, entre ellas los esquemas de doble bucle emplea-
dos en teledetecci´on, con el fin de mejorar la validez t´ecnica de los modelos [8,12]. Por esa raz´on, se recomienda
que futuras investigaciones se enfoquen en desarrollar m´etodos de .
a
tenci´on consciente de la relaci´on”(relation-
aware) para optimizar la interacci´on entre varios objetos, as´ı como en elaborar modelos de difusi´on avanzada
que procesen atributos faciales de grano fino de manera as eficiente [19, 20].
A partir del an´alisis se identifican tendencias claras en la investigaci´on reciente, entre ellas un inter´es crecien-
te en modelos h´ıbridos que incorporan difusi´on, aprendizaje multimodal y mecanismos de control expl´ıcito
mediante se˜nales de identidad o estructurales. Del mismo modo, los sistemas tienden hacia una mayor in-
terpretabilidad y adaptabilidad, al tiempo que ganan la capacidad de equilibrar el control y la creatividad
seg´un el contexto de uso [15, 18, 21]. Finalmente, se proyecta un incremento en el desarrollo de modelos de
texto e imagen especializados por dominio, junto con la adopci´on de arquitecturas as ligeras y eficientes, lo
que generar´a nuevas oportunidades para su aplicaci´on pr´actica en ´ambitos como el dise˜no, el arte digital y la
generaci´on de contenido asistida por inteligencia artificial [14, 16, 19].
Conclusiones
La revisi´on sistem´atica sugiere que los modelos de difusi´on son los m´as utilizados para crear im´agenes a partir
de texto, ya que tienen la capacidad de combinar mecanismos de control sem´antico y producir contenido mul-
timodal con gran fidelidad. Estos modelos ofrecen ventajas significativas en comparaci´on con las arquitecturas
basadas en VAE y GAN, especialmente en trabajos que requieren precisi´on cuando se trata de atributos visua-
les complejos y descripciones textuales. El an´alisis indica que la implementaci´on de t´ecnicas como adaptaci´on
de bajo rango (LoRA), prompt engineering jer´arquico y atenci´on a nivel de frase ayuda significativamente en
el aumento de la fidelidad visual y la coherencia sem´antica en distintas ´areas de aplicaci´on, entre ellas el arte
digital, el dise˜no de productos y el patrimonio arquitect´onico.
Adem´as, se observa que los mecanismos de control utilizados en los modelos de texto e imagen funcionan, sobre
todo, a tres niveles: la configuraci´on de la escena, el estilo cultural o art´ıstico y las caracter´ısticas visuales.
La uni´on de estos posibilita la producci´on de im´agenes as exactas y personalizadas, sim embargo todav´ıa
existen restricciones para el manejo a detalle de objetos individuales sin que esto impacte la coherencia total
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
105
Revista Innovaci´on y Software
Vol. 7, No. 1, Mes Marzo - Agosto, 2026
ISSN: 2708-0935
ag. 95-108
https://revistas.ulasalle.edu.pe/innosoft
de la imagen. Tambi´en es un desaf´ıo
continuar evaluando el alineamiento sem´antico debido a que las etricas existentes son limitadas y requieren
ser complementadas con valoraciones humanas y cambios espec´ıficos seg´un el contexto de uso.
Tambi´en, se lograron identificar limitaciones, fortalezas y tendencias en las investigaciones actuales en cuanto
a las arquitecturas y mecanismos existentes. Se percibe existe una tendencia creciente hacia la aplicaci´on
de modelos h´ıbridos, adaptables e interpretables que sean capaces de equilibrar el control y la creatividad
dependiendo el contexto en el que apliquen. En este sentido, este trabajo resulta ´util como una gu´ıa para el
desarrollo de soluciones nuevas para la generaci´on de im´agenes a partir de texto.
Igualmente, en base a los resultados, resulta necesario emplear estrategias as sofisticadas para el control
relacional y la atenci´on consciente hacia varios objetos, adem´as de incorporar modelos eficaces y especializados
por dominio para mejorar su rendimiento.
Finalmente, se sugieren futuras v´ıas de investigaci´on, tales como el desarrollo de arquitecturas de difusi´on
avanzadas para mejorar la gesti´on de atributos espec´ıficos; la elaboraci´on de m´etricas e ´ındices estandarizados
que permitan calcular y medir la correlaci´on entre texto e imagen; y el an´alisis de modelos adaptativos que
hagan las aplicaciones pr´acticas as exactas en campos como el dise˜no, la educaci´on, el arte digital y la
producci´on de contenido con asistencia de la inteligencia artificial. Estas acciones mejorar´an la fiabilidad, la
creatividad y la habilidad de interpretaci´on en los sistemas texto-imagen, lo que ayudar´a a progresar en esta
nueva ´area de la inteligencia artificial generativa de im´agenes.
Contribuci´on de Autor´ıa
Zaleth Valentina Rivas Calder´on: Conceptualizaci´on, Investigaci´on, Metodolog´ıa, Software, Validaci´on, Redac-
ci´on - borrador original. Estefany Lucia Villanueva Rosales: Conceptualizaci´on, Investigaci´on, Metodolog´ıa,
Software, Validaci´on, Redacci´on - borrador original. Marcelino Torres Villanueva: An´alisis formal, Visualiza-
ci´on, Supervisi´on, Administraci´on de proyectos, Curaci´on de datos, Escritura, revisi´on y edici´on.
Referencias
[1] J. Xu, J. Du, and J. Wang, “A survey of generative models used in text-to-image,” Applied and Compu-
tational Engineering, vol. 79, pp. 38–48, 2024.
[2] C. Zhang, C. Zhang, M. Zhang, I. S. Kweon, and J. Kim, “Text-to-image Diffusion Models in Generative
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
106
Revista Innovaci´on y Software
Vol. 7, No. 1, Mes Marzo - Agosto, 2026
ISSN: 2708-0935
ag. 95-108
https://revistas.ulasalle.edu.pe/innosoft
AI: A Survey,” 2023. [Online]. Available: https://arxiv.org/abs/2303.07909
[3] K. Wang, X. Liu, Y. Chang, D. Zhao, T. Xian, and X. Geng, “Semantic guidance for precise style control
in diffusion image generation,” Scientific Reports, 2025.
[4] R. Li, W. Li, Y. Yang, H. Wei, J. Jiang, and Q. Bai, “Swinv2-Imagen: hierarchical vision transformer
diffusion models for text-to-image generation,” Neural Computing and Applications, vol. 36, pp. 17 245–
17 260, 2024.
[5] H. Ma and H. Zheng, “Text Semantics to Image Generation: A Method of Building Facades Design Base
on Stable Diffusion Model,” in Phygital Intelligence (CDRF 2023), Computational Design and Robotic
Fabrication, 2024, pp. 24–34.
[6] O. Avrahami, O. Fried, and D. Lischinski, “Blended Latent Diffusion,” ACM Transactions on Graphics,
vol. 42, no. 4, p. art. no. 3592450, 2023.
[7] H. He, H. Yang, Z. Tuo, Y. Zhou, Q. Wang, Y. Zhang, Z. Liu, W. Huang, H. Chao, and J. Yin,
“DreamStory: Open-Domain Story Visualization by LLM-Guided Multi-Subject Consistent Diffusion,”
IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 47, no. 12, pp. 11 874–11 891,
2025.
[8] Z. Ye, X. He, and Y. Peng, “RaT2IGen: Relation-aware Text-to-image Generation via Learnable Prompt,”
ACM Transactions on Multimedia Computing, Communications and Applications, vol. 21, no. 5, p. art.
no. 151, 2025.
[9] Z. Kuang, J. Zhang, Y. Li et al., “Preserving architectural heritage in urban renewal: a stable diffusion
model framework for automated historical facade generation,” npj Heritage Science, vol. 13, p. art. no.
256, 2025.
[10] Z. Sordo, E. Chagnon, Z. Hu et al., “Synthetic Scientific Image Generation with VAE, GAN, and Diffusion
Model Architectures,” Journal of Imaging, vol. 11, no. 8, p. art. no. 252, 2025.
[11] M. Gao, Q. Zhang, C. Song, X. Zhang, and Y. Li, “Hierarchical Prompt Engineering and Task-
Differentiated Low-Rank Adaptation for Artificial Intelligence-Generated Content Image Quality Assess-
ment,” Information (Switzerland), vol. 16, no. 11, p. art. no. 1006, 2025.
[12] J. Zhu and L. Mu, “GrainedCLIP and DiffusionGrainedCLIP: Text-Guided Advanced Models for Fine-
Grained Attribute Face Image Processing,” IEEE Access, vol. 11, pp. 99 030–99 045, 2023.
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
107
Revista Innovaci´on y Software
Vol. 7, No. 1, Mes Marzo - Agosto, 2026
ISSN: 2708-0935
ag. 95-108
https://revistas.ulasalle.edu.pe/innosoft
[13] M. D
´
Inc`a, E. Peruzzo, M. Mancini, X. Xu, H. Shi, and N. Sebe, “GradBias: Unveiling Word Influence
on Bias in Text-to-Image Generative Models,” IEEE Transactions on Pattern Analysis and Machine
Intelligence, vol. 47, no. 11, pp. 9863–9875, 2025.
[14] J. Li, S. Zhang, L. Sun et al., “Enhancing product concept image generation through semantic feature
prompts and LoRA training,” Scientific Reports, vol. 15, p. art. no. 40795, 2025.
[15] W. Hu, Y. Zhao, L. Yin et al., “Hierarchical symmetric GAN for Thangka image generation,” npj Heritage
Science, vol. 13, p. art. no. 568, 2025.
[16] N. S. Mudiraj and S. Singh, “Semantic mapping of Hindi text-to-image generation using CUB dataset,”
Scientific Reports, vol. 15, p. art. no. 36632, 2025.
[17] Y. Zhao, Z. Liang, Y. Qiu et al., “A novel flexible identity-net with diffusion models for painting-style
generation,” Scientific Reports, vol. 15, p. art. no. 27896, 2025.
[18] X. Peng, T. Sun, Q. Hu et al., “Poe2CLP: Phrase-level attention and cross-modal semantic alignment for
poem generate Chinese landscape paintings,” npj Heritage Science, vol. 13, p. art. no. 656, 2025.
[19] K. Jung, N. Lee, and S. Choi, “KoDi: A Korean Diffusion Model for Bilingual Text-to-Image Generation
and Cultural Fidelity,” IEEE Access, vol. 13, pp. 200 290–200 307, 2025.
[20] Y. Zhao, M. Li, and M. Berger, “CUPID: Contextual Understanding of Prompt-conditioned Image Dis-
tributions,” Computer Graphics Forum, vol. 43, no. 3, p. art. no. e15086, 2024.
[21] Y. Xu, H. Liu, R. Yang, and Z. Chen, “Remote Sensing Image Semantic Segmentation Sample Generation
Using a Decoupled Latent Diffusion Framework,” Remote Sensing, vol. 17, no. 13, p. art. no. 2143, 2025.
[22] Z. Li, Y. Wang, C. Li et al., “LFMDiff: generation of Chinese traditional landscape paintings based on
diffusion model,” npj Heritage Science, vol. 13, p. art. no. 564, 2025.
[23] T. Xing, H. Yan, X. Wang, K. Sun, H. Yu, P. Li, and Q. Zhao, “DLDC: A Dual Loop Data Cleaning
Method for Fine-Tuning Remote Sensing Image Generative Models,” IEEE Journal of Selected Topics in
Applied Earth Observations and Remote Sensing, vol. 18, pp. 28 709–28 725, 2025.
Universidad La Salle, Arequipa, Per´u
facin.innosoft@ulasalle.edu.pe
108