2021, випуск 2, c. 76-84

Одержано 16.04.2021; Виправлено 14.06.2021; Прийнято 24.06.2021

Надруковано 30.06.2021; Вперше Online 01.07.2021

https://doi.org/10.34229/2707-451X.21.2.8

Попередня  |  Повний текст  |  Наступна

 

УДК  004.89

Про біомедичні обчислення в кластерному та хмарному середовищі

Т.О. Бардадим 1 *,   В.М. Горбачук 1 ORCID ID favicon Big,   Н.А. Новоселова 2,   С.П. Осипенко 1,   В.Ю. Скобцов 2,   І.Е. Том 2

1 Інститут кібернетики імені В.М. Глушкова НАН України, Київ

2 Об'єднаний інститут проблем інформатики НАН Білорусі, Мінськ

* Листування: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.

 

Вступ. У публікації узагальнено досвід використання прикладних контейнерних програмних засобів у хмарному середовищі, отриманий авторами в ході проекту «Розробка методів, алгоритмів і інтелектуальної аналітичної системи для обробки і аналізу різнорідних клінічних та біомедичних даних з метою поліпшення діагностики складних захворювань», виконаного колективом Об'єднаного інституту проблем інформатики НАН Білорусі та Інституту кібернетики імені В.М. Глушкова НАН України. Паралельно описані особливості біомедичних даних та основні підходи до їх обробки та класифікації, реалізовані в рамках інтелектуальної аналітичної системи та можливості їх реалізації у складі контейнерного додатка.

Мета роботи. Опис сучасних технологій, що забезпечують відтворюваність чисельних експериментів у цій галузі, та інструментів, спрямованих на інтеграцію декількох джерел біомедичної інформації з метою поліпшення діагностики і прогнозу складних захворювань. Особлива увага приділяється методам обробки даних, отриманих з різних джерел біомедичної інформації і включеним до складу інтелектуальної аналітичної системи.

Отримані результати. Узагальнено досвід використання прикладних контейнерних біомедичних програмних засобів у хмарному середовищі. Обговорюється відтворюваність наукових обчислень і можливості сучасних технологій наукових обчислень. Описано основні підходи до попередньої обробки та інтеграції біомедичних даних у рамках інтелектуальної аналітичної системи. Розроблена модель гібридної класифікації є основою інтелектуальної аналітичної системи і спрямована на інтеграцію декількох джерел біомедичної інформації.

Висновки. Досвід використання розробленого модуля класифікації NonSmoothSVC, що входить до складу розробленої інтелектуальної аналітичної системи, отриманий при його тестуванні на штучних і реальних даних, дозволяє зробити висновок про декілька переваг, які дає контейнерна форма реалізації створеного додатку. А саме:

• вона дозволяє надавати доступ до реальних даних, що знаходяться в хмарному середовищі,

• дає можливість виконання розрахунків для вирішення дослідницьких завдань на хмарних ресурсах як за допомогою розроблених інструментів, так і за допомогою хмарних сервісів,

• така форма організації дослідження робить чисельні експерименти відтвореними, тобто будь-який інший дослідник може порівнювати результати своїх розробок з конкретними даними, які вже були вивчені іншими, щоб перевірити висновки і технічну здійсненність нових результатів,

• існує універсальна можливість використання розроблених інструментів на технічних пристроях різного класу від персонального комп'ютера до потужного кластеру.

Модель гібридної класифікації як ядро інтеллектуальної системи дозволяє інтегрувати багатовимірні, різнорідні біомедичні дані з метою кращого розуміння молекулярних шляхів походження і розвитку хвороби, поліпшення ідентифікації підтипів хвороб і прогнозів хвороби.

 

Ключові слова: класифікатор, хмарний сервіс, контейнерний додаток, гетерогенні біомедичні дані.

 

Цитувати так: Bardadym T., Gorbachuk V., Novoselova N., Osypenko S., Skobtsov V., Tom I. On Biomedical Computations in Cluster and Cloud Environment. Cybernetics and Computer Technologies. 2021. 2. P. 76–84. https://doi.org/10.34229/2707-451X.21.2.8

 

Список літератури

           1.     Воронцов К.В. Математические методы обучения по прецедентам (теория обучения машин). URL: http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf.

           2.     Гупал А.М., Сергиенко И.В. Симметрия в ДНК. Методы распознавания дискретных последовательностей. Киев: Наукова думка, 2016. 227 с.

           3.     Baldi P., Wesley Hatfield G. DNA Microarrays and Gene Expression. From Experiments to Data Analysis and Modeling. Cambridge University Press, 2011.

           4.     Kuhn M., Johnson K. Applied predictive modeling. New York: Springer, 2013. https://doi.org/10.1007/978-1-4614-6849-3

           5.     Heath L.S., and Ramakrishnan N. (Eds.). Problem solving handbook in computational biology and bioinformatics. NY: Springer Science & Business Media. 2010. https://doi.org/10.1007/978-0-387-09760-2

           6.     Ioannidis J. Why Most Published Research Findings Are False. PLoS Medicine. 2005. 2 (8). P. e124 https://doi.org/10.1371/journal.pmed.0020124

           7.     Baker M. Reproducibility crisis? Natur. 2016. 26 (533). P. 353-66.

           8.     Strozzi F. Janssen R., Wurmus R., Crusoe M.R. et al., Scalable workflows and reproducible data analysis for genomics. In: Evolutionary Genomics, 2nd ed., New York, NY: Humana Press, 2019. P. 723–745. https://doi.org/10.1007/978-1-4939-9074-0_24

           9.     Zhuravlev Y., Laptin Y., Vinogradov A., Zhurbenko N., Lykhovyd O., Berezovskyi O. Linear classifiers and selection of informative features. Pattern Recogn. and Image Anal. 2017. 27 (3). P. 426–432. https://doi.org/10.1134/S1054661817030336

       10.     Laptin Y., Zhuravlev Y., Vinogradov A. Comparison of Some Approaches to Classification Problems, and Possibilities to Construct Optimal Solutions Efficiently, Pattern Recogn. and Image Anal. 2014. 24 (2). P. 189-195. https://doi.org/10.1134/S1054661814020175

       11.     Журбенко Н.Г. Линейный классификатор и проекция на политоп. Кибернетика и системный анализ. 2020. 56 (3). С. 163–170. https://doi.org/10.1007/s10559-020-00264-3

       12.     Шор Н.З., Журбенко Н.Г. Метод минимизации, использующий операцию растяжения пространства в направлении разности двух последовательных градиентов. Кибернетика. 1971. 3. C. 51–59. https://doi.org/10.1007/BF01070454.

       13.     Шор Н.З. Методы минимизации недифференцируемых функций и их приложения. К.: Наук. думка, 1979. 199 с.

       14.     Shor N.Z., Nondifferentiable Optimization and Polynomial Problems. London: Kluwer Acad. Publ. 1998. 381 p. https://doi.org/10.1007/978-1-4757-6015-6

       15.     Лаптин Ю.П. Точные штрафные функции и выпуклые продолжения функций в схемах декомпозиции по переменным. Кибернетика и системный анализ. 2016. 1. С. 96–108. https://doi.org/10.1007/s10559-016-9803-8

       16.     Лаптин Ю.П., Бардадым Т.А. Проблемы определения коэффициентов точных штрафных функцій. Кибернетика и системный анализ. 2019. 3. С. 64–79. https://doi.org/10.1007/s10559-019-00147-2.

       17.     Chang, Chih-Chung, Lin, Chih-Jen. LIBSVM - A Library for Support Vector Machines. https://www.csie.ntu.edu.tw/~cjlin/libsvm/.

       18.     BLAS (Basic Linear Algebra Subprograms). http://www.netlib.org/blas/.

       19.     LAPACK—Linear Algebra PACKage. http://www.netlib.org/lapack/.

       20.     Free software machine learning library for the Python programming language. https://scikit-learn.org/stable/index.html

       21.     Tools for creation of isolated Linux-containers. https://www.docker.com/

       22.     The Cancer Genomics Cloud. http://www.cancergenomicscloud.org/

       23.     The Cancer Genome Atlas (TCGA). https://www.cancer.gov/about-nci/organization/ccg/research/structural-genomics/tcga

       24.     Bonnal R. Yates A., Goto N., Gautier L. et al. Sharing Programming Resources Between Bio* Projects. In: Evolutionary Genomics, 2nd ed., New York, NY: Humana Press. 2019. P. 747-766. https://doi.org/10.1007/978-1-4939-9074-0_25

       25.     Novoselova N.A., Tom I.E. Integrated network approach to protein function prediction. The Scientific Journal of Riga Technical University. Information Technology and Management Science. 2018. 21. P. 98–103. https://doi.org/10.7250/itms-2018-0016.

       26.     Том И.Э. Информационные технологии в анализе медицинских данных. Наука и инновации. 2016. 3. С. 28-31.

       27.     Novoselova N.A., Tom I.E. Semi-supervised clustering with active constraint selection. Proc. XIII International Conference "Pattern Recognition and Information Processing"- PRIP-2016, BSU, October 3-5, 2016, Minsk. P. 69-72.

       28.     Новоселова Н.А., Том И.Э. Метод построения функциональных модулей генетических данных. Информатика. 2016. 1 (49). C. 64-74.

       29.     Novoselova N.A., Tom I.E. Algorithm for ranking features for detecting biomarkers in gene expression data, Artificial Intelligence. 2013. 3. P. 58-68.

       30.     Novoselova N.A., Tom I.E. , Borisov A., Polaka I. Feature ranking by classification accuracy estimation of multiple data sample, Information Technology and Management Science. 2013. 16. P. 95-100. https://doi.org/10.2478/itms-2013-0015

       31.     Kuncheva L.I., Combining Pattern Classifiers. Methods and Algorithms. Wiley. 2004. https://doi.org/10.1002/0471660264

       32.     Novoselova N.A., Tom I.E., Ablameyko S.V. Evolutionary design of the classifier ensemble. Artificial Intelligence. 2011. 3. P. 429-48.

 

 

ISSN 2707-451X (Online)

ISSN 2707-4501 (Print)

Попередня  |  Повний текст  |  Наступна

 

 

 

© Вебсайт та оформлення. 2019-2021,

Інститут кібернетики імені В.М. Глушкова НАН України,

Національна академія наук України.