2024, випуск 4, c. 110-120

Одержано 07.08.2024; Виправлено 27.08.2024; Прийнято 03.12.2024

Надруковано 18.12.2024; Вперше Online 23.12.2024

https://doi.org/10.34229/2707-451X.24.4.10

Попередня  |  ПОВНИЙ ТЕКСТ  |  Наступна

 

УДК 004.8:004.91

Автоматизація формування понятійної структури бази знань з використанням глибокого навчання

Д. Симонов ORCID ID favicon Big

Інститут кібернетики імені В.М. Глушкова НАН України, Київ

Листування: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.

 

Вступ. Можливість автоматизації процесів це ключовий аспект сучасних інформаційних технологій. Побудова та використання концептуальної структури бази знань стає нагальною потребою у сучасному світі, де кількість інформації зростає в геометричній прогресії. Важлива можливість – це автоматизація процесів, зокрема побудови онтологій, що вимагає вилучення знань з повнотекстових джерел та їх автоматичного структурування. Бази знань використовуються для управління складними динамічними системами, забезпечуючи зберігання, організацію та доступ до великого обсягу інформації, що дозволяє ефективно аналізувати та прогнозувати поведінку таких систем.

Мета роботи – продемонструвати ефективність використання методів глибинного навчання для автоматизації формування концептуальної структури бази знань. Дослідження також має на меті показати, як інтеграція баз знань з методами глибинного навчання може покращити якість прогнозів та підвищити ефективність управління траєкторією реабілітації пацієнтів.

Результати. Алгоритм успішно вилучав і обробляв інформацію про симптоми з медичних документів, ефективно справлявся з дублікатами та синонімами. Використання косинусної подібності дозволило ідентифікувати синонімічні симптоми в існуючій базі знань, що полегшило інтеграцію нової інформації, запобігаючи при цьому надлишковості та дублікатів. Система продемонструвала свою здатність визначати, які симптоми слід включити до бази знань, а які слід вилучити на основі їхньої схожості з уже існуючими записами. Результати підкреслюють потенціал цього автоматизованого підходу до розширення бази знань і сприяють вдосконаленню прогностичних моделей у сфері охорони здоров'я.

Висновки. Дослідження продемонструвало ефективність глибинного навчання для автоматизації формування концептуальної структури медичної бази знань. Підхід підвищує наповнюваність та повноту бази знань, що має вирішальне значення для побудови прогностичних моделей траєкторій реабілітації пацієнтів та покращення підтримки прийняття рішень у сфері охорони здоров'я.

 

Ключові слова: знання-орієнтовані системи управління, база знань, Support Vector Machine, Word2Vec, Skip-Gram, BioBERT.

 

Цитувати так: Symonov D. Automating the Formation of the Conceptual Structure of the Knowledge Base Using Deep Learning. Cybernetics and Computer Technologies. 2024. 4. P. 110–120. https://doi.org/10.34229/2707-451X.24.4.10

 

Список літератури

           1.     Symonov D., Symonov Y. Methods for selecting models of functioning of multicomponent information and environmental systems. Scientific Journal «Mathematical Modeling». 2024. No. 1. P. 57–63. https://doi.org/10.31319/2519-8106.1(50)2024.304943

           2.     Симонов Д. І., Заіка Б. Ю. Моделювання управління складними інформаційними багатокомпонентними системами. Науковий вісник Ужгородського університету. Серія «Математика і інформатика». 2024. № 44 (1). С. 168–174. https://doi.org/10.24144/2616-7700.2024.44(1).168-174

           3.     Петренко М.Г., Палагін О.В., Бойко М.О., Матвейшин С.М. Знання-орієнтований інструментальний комплекс оброблення баз даних наукових публікацій із застосуванням Semantic Web технологій. Control Systems and Computers. 2022. № 3. С. 11–28. https://doi.org/10.15407/csc.2022.03.011

           4.     Veisi H. Introduction to SVM: Learning with Fractional Orthogonal Kernel Classifiers in Support Vector Machines. Industrial and Applied Mathematics. Singapore: Springer, 2023. P. 3–18. https://doi.org/10.1007/978-981-19-6553-1

           5.     Telalović Hasić J., Salković A. Breast cancer classification using Support Vector Machines (SVM). Advanced Technologies, Systems, and Applications VIII. Cham: Springer, 2023. P. 195–205. https://doi.org/10.1007/978-3-031-43056-5_16

           6.     Mallik A., Kumar S. Word2Vec and LSTM based deep learning technique for context-free fake news detection. Multimed Tools Appl. 2024. No. 83. P. 919–940. https://doi.org/10.1007/s11042-023-15364-3

           7.     Johnson S.J., Murty M.R., Navakanth I. A detailed review on word embedding techniques with emphasis on word2vec. Multimed Tools Appl. 2024. No. 83. P. 37979–38007. https://doi.org/10.1007/s11042-023-17007-z

           8.     Sharma A., Kumar S. Ontology-based semantic retrieval of documents using Word2vec model. Data & Knowledge Engineering. 2023. No. 144. P. 102110. https://doi.org/10.1016/j.datak.2022.102110

           9.     Chintawar S., Kulkarni R., Patil N. OntoPred: An efficient attention-based approach for protein function prediction using Skip-Gram features. SN Comput. Sci. 2023. No. 4. P. 666. https://doi.org/10.1007/s42979-023-02135-y

       10.     Yu. T. The design of electronic medical records system using Skip-gram algorithm. Netw Model Anal Health Inform Bioinforma. 2021. Vol 10, No. 7. https://doi.org/10.1007/s13721-020-00281-4

       11.     Preethi P., Sharada A. Word Embeddings - Skip Gram Model, ICICCT 2019 – System Reliability, Quality Control, Safety. Maintenance and Management. 2019. P. 133–139. https://doi.org/10.1007/978-981-13-8461-5

       12.     Zhu Y., Li L., Lu H., Zhou A., Qin X. Extracting drug-drug interactions from texts with BioBERT and multiple entity-aware attentions. Journal of Biomedical Informatics. 2020. No. 106. P. 103451. https://doi.org/10.1016/j.jbi.2020.103451

       13.     Turchin A., Masharsky S., Zitnik M. Comparison of BERT implementations for natural language processing of narrative medical documents. Informatics in Medicine Unlocked. 2023. No. 36. P. 101139. https://doi.org/10.1016/j.imu.2022.101139

       14.     Davagdorj K., Park K.H., Amarbayasgalan T., Munkhdalai L., Wang L., Li M. & Ryu K.H. BioBERT based efficient clustering framework for biomedical document analysis. Genetic and Evolutionary Computing. 2022. P. 179–188. https://doi.org/10.1007/978-981-16-8430-2_17

       15.     Paganelli M., Tiano D. & Guerra F. A multi-facet analysis of BERT-based entity matching models. The VLDB Journal. 2023. https://doi.org/10.1007/s00778-023-00824-x

       16.     Jamshidi S., Mohammadi M., Bagheri S., Esmaeili N.H., Rezvanian A., Gheisari M., Ghaderzadeh M., Shahabi A.S., Wu Z. Effective text classification using BERT, MTM LSTM, and DT. Data & Knowledge Engineering. 2024. No. 151. P. 102306. https://doi.org/10.1016/j.datak.2024.102306

       17.     Jatnika D., Bijaksana M.A., Suryani A.A. Word2Vec model analysis for semantic similarities in English words. Procedia Computer Science. 2019. No. 157. P. 160–167. https://doi.org/10.1016/j.procs.2019.08.153

 

 

ISSN 2707-451X (Online)

ISSN 2707-4501 (Print)

Попередня  |  ПОВНИЙ ТЕКСТ  |  Наступна

 

 

            Випуски

 

© Вебсайт та оформлення. 2019-2025,

Інститут кібернетики імені В.М. Глушкова НАН України,

Національна академія наук України.