2024, випуск 4, c. 90-109
Одержано 12.11.2024; Виправлено 26.11.2024; Прийнято 03.12.2024
Надруковано 18.12.2024; Вперше Online 23.12.2024
https://doi.org/10.34229/2707-451X.24.4.9
Попередня | ПОВНИЙ ТЕКСТ | Наступна
Концептуальна модель та NLP-система “Text to image”
П.П. Маслянко * , К.І. Павловська
Національний технічний університет України “КПІ імені Ігоря Сікорського”, Україна, Київ
* Листування: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.
Вступ. Розробка теоретичних інструментів та інструментальних засобів трансформації текстової інформації у зображення є актуальною проблемою для різних галузей діяльності людини та організаційних систем різноманітного призначення.
В статті запропоновано концептуальну модель та NLP-систему “Text to image” на основі методології системної інженерії систем Data Science, архітектуру та програмне забезпечення системи генерації зображень на основі латентної дифузійної моделі. Запропоновано покращення базової архітектури латентної дифузійної моделі шляхом використання дифузійного трансформера.Встановлено, що на відміну від підходів, що базуються на архітектурі U-Net, DiTs працюють з латентними патчами, забезпечуючи кращу масштабованість та підвищену продуктивність.
Мета роботи – розробка науково обгрунтованої концептуальної моделі та системи для перетворення текстових описів у зображення, що базується на методології системної інженерії, сучасних методах глибинного навчання та бізнес профілі Еріксона – Пенкера.
Результати. Побудовано оціночні задачі, властивості яких регулюються параметром, для задачі розміщення об'єктів в евклідовому просторі. Досліджені властивості оціночної задачі в залежності від значення параметра та показані межі значення параметра, дотримання яких дозволяє отримувати оцінки, адекватні початковій задачі.
Проведено верифікацію та валідацію розробленої NLP-систему “Text to image” для перетворення текстових даних у зображення. Результати генерації демонструють точне відтворення ключових елементів, що свідчить про високу якість відповідності зображення текстовому опису. В результаті проведення порівняльного аналізу продуктивності моделей визначено, що система TransformerLD, хоч і поступається моделям Stable Diffusion і DALL-E 2 за показниками FID та IS, все ж залишається конкурентоспроможною.
Висновки. Побудова динамічного дерева розгалужень та нелінійних оцінок дозволяє прискорити процес пошуку оптимального розв'язку, але суттєво залежить від початкової задачі, що ускладнює розробку загального алгоритму.
Розробка концептуальної моделі, та NLP-системи “Text to image” дозволяє реалізувати ефективне перетворення текстових даних у зображення, що є актуальним питанням в сфері візуалізації даних.
Ключові слова: системна інженерія, Data Science, NLP-системи “Text to image.
Цитувати так: Маслянко П.П., Павловська К.І. Концептуальна модель та NLP-система “Text to image”. Cybernetics and Computer Technologies. 2024. 4. С. 90–109. https://doi.org/10.34229/2707-451X.24.4.9
Список літератури
1. Yin L. A Review of Text-to-Image Synthesis Methods. 2024 5th International Conference on Computer Vision. 2024. P. 858–861. https://ieeexplore.ieee.org/document/10603609
2. Li H. et al. On the Scalability of Diffusion-based Text-to-Image Generation. 2024 Conference on Computer Vision and Pattern. 2024. P. 9400–9409. https://ieeexplore.ieee.org/document/10655871
3. Patel M., Kim C., Cheng S., Baral C., Yang Y. ECLIPSE: A Resource-Efficient Text-to-Image Prior for Image Generations. 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. P. 9069–9078. https://ieeexplore.ieee.org/document/10656952
4. Zhang Y., Song Y., Yu J., Pan H., Jing Z. Fast Personalized Text to Image Synthesis with Attention Injection. ICASSP 2024 IEEE International Conference on Acoustics, Speech and Signal Processing. 2024. P. 6195–6199. https://ieeexplore.ieee.org/document/1044704
5. Rauniyar A., Raj A., Kumar A., Kandu A.K., Singh A., Gupta A. Text to Image Generator with Latent Diffusion Models. International Conference on Computational Intelligence and Networking. 2023. P. 144–148. https://ieeexplore.ieee.org/document/10140348
6. Prerak S. Addressing Bias in Text-to-Image Generation: A Review of Mitigation Methods. 2024 Third International Conference on Smart Technologies and Systems for Next Generation Computing. 2024. P. 1–6. https://ieeexplore.ieee.org/document/10671230
7. Shi J., Xiong W., Lin Z., Jung H.J. InstantBooth: Personalized Text-to-Image Generation without Test-Time Finetuning. IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. P. 8543–8552. https://ieeexplore.ieee.org/document/10657619
8. Yamac A., Genc D., Zaman E., Gerschner F., Klaiber M., Theissler A. Open-Source Text-to-Image Models: Evaluation using Metrics and Human Perception. Annual Computers and Applications Conference. 2024. P. 1659–1664. https://ieeexplore.ieee.org/document/1063362
9. Text-to-image: latent diffusion models. Nicd: офіційний веб-сайт. https://nicd.org.uk/knowledge-hub/image-to-text-latent-diffusion-models (звернення: 21.11.2024)
10. TokenCompose: Text-to-Image Diffusion with Token-level Supervision. https://mlpc-ucsd.github.io/TokenCompose/ (звернення: 21.11.2024)
11. Zhang S. e't al. Learning Multi-Dimensional Human Preference for Text-to-Image Generation. 2024 Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, WA, USA, 2024. P. 8018–8027. https://ieeexplore.ieee.org/document/10655849/
12. Maung A., Nguyen H.H., Kiya H., Echizen I. Fine-Tuning Text-To-Image Diffusion Models for Class-Wise Spurious Feature Generation. 2024 IEEE International Conference on Image Processing (ICIP). 2024. P. 3910–3916. https://ieeexplore.ieee.org/document/1064762
13. Peebles W., Xie S. Scalable Diffusion Models with Transformers. arXiv. 2022. https://arxiv.org/abs/2212.09748 (звернення: 21.11.2024)
14. Maslianko P., Sielskyi Y. Data Science — Definition and Structural Representation. System Research & Information Technologies. 2021. No. 1. P. 61–78. https://doi.org/10.20535/SRIT.2308-8893.2021.1.05
15. Маслянко П.П., Сєльський Є.П. Метод системної інженерії систем нейронного машинного перекладу. Наукові вісті КПІ. 2021. № 2. С. 46–55. https://doi.org/10.20535/kpisn.2021.2.236939
16. Kandwal S., Nehra V. A Survey of Text-to-Image Diffusion Models in Generative AI. International Conference on Cloud Computing. 2024. P. 73–78. https://ieeexplore.ieee.org/document/1046337
17. Ahamed S., Al Amin A., Ahsan S.M.M. Synthesizing Realistic Images from Textual Descriptions: A Transformer-Based GAN Approach. 2023 International Conference on Next-Generation Computing. 2023. P. 1–6. https://ieeexplore.ieee.org/document/10212565
18. Rethinking FID: Towards a Better Evaluation Metric for Image Generation. https://arxiv.org/html/2401.09603 (звернення: 21.11.2024)
19. Zhou D., Li Y., Ma F., Zhang X., Yang Y. MIGC: Multi-Instance Generation Controller for Text-to-Image Synthesis. IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024. P. 6818–6828. https://ieeexplore.ieee.org/document/10658514
20. He F. et al. CartoonDiff: Training-free Cartoon Image Generation with Diffusion Transformer Models. IEEE International Conference on Acoustics, Speech and Signal Processing. 2024. P. 3825–3829. https://ieeexplore.ieee.org/document/10447821
21. Quantitative Comparison of Stable Diffusion, Midjourney and DALL-E 2. http://bit.ly/3BVLwwV (звернення: 21.11.2024)
22. Akar C.A., Luckow A., Obeid A., Beddawi C., Kamradt M., Makhoul A. Enhancing Complex Image Synthesis with Conditional Generative Models and Rule Extraction. 2023. P. 136–143. https://ieeexplore.ieee.org/document/10459883
ISSN 2707-451X (Online)
ISSN 2707-4501 (Print)
Попередня | ПОВНИЙ ТЕКСТ | Наступна