2021, випуск 2, c. 68-75

Одержано 24.02.2021; Виправлено 12.03.2021; Прийнято 24.06.2021

Надруковано 30.06.2021; Вперше Online 01.07.2021

https://doi.org/10.34229/2707-451X.21.2.7

Попередня  |  Повний текст  |  Наступна

 

УДК 004.9

Про методи класифікації прихованих концептів мови у спеціалізованих текстах із залученням псевдообернення, кластеризації і групування ознак

Ю.В. Крак 1, 2 * ORCID ID favicon Big,   А.І. Куляс 1 ORCID ID favicon Big,   В.М. Петрович 1 *,   В.О. Кузнєцов 1 *

1 Інститут кібернетики імені В.М. Глушкова НАН України, Київ

2 Київський національний університет імені Тараса Шевченка, Київ

* Листування: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її. Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її. Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.

 

Розглянуто проблему аналізу прихованих концептів у наукових текстах українською мовою з використанням методів видобутку тексту, зменшення розмірності, групування ознак та лінійних класифікаторів.

Для обробки спеціалізованих текстів сформовано корпус наукових текстів, словників стоп-слів та афіксів. Отримані тексти проаналізовані та перетворені в подання зворотної частоти тексту документа (TF-IDF). Для обробки вектора ознак запропоновано використати методи зменшення розмірності даних, зокрема, алгоритм синтезу лінійних систем та перетворення Карунена Лоева та групування ознак, а саме: T-стохастичне групування найближчих сусідів (T-SNE). На тестових прикладах проведена серія експериментів  для визначення інформаційної щільності в тексті та класифікації за ключовими словами у спеціалізованих текстах із використанням методу консенсусу випадкових зразків (RANSAC). Запропоновано метод класифікації прихованих концептів із використанням методів кластеризації (K-середніх). В результаті експерименту отримана структура класифікатора прихованих концептів у структурованих текстах, яка дозволила досягти відносно високу точність розпізнавання (97 99 %) за допомогою таких алгоритмів класифікації: дерев рішень та екстремального підсилення градієнта. Досліджено стійкість алгоритмів класифікації до збурень вихідних даних із використанням варіаційного автокодувальника, експерименти показали, що даний метод зменшує середньоквадратичну помилку, але смуга розділення зменшується, що впливає на збіжність алгоритму оптимізації і позначається на стійкості алгоритмів класифікації.

У подальшому пропонується застосувати інші методи аналізу структурованих текстів українською мовою та способи покращення роздільності спеціалізованих текстів з подібними авторськими стилями та з різною тематикою, використовуючи набір параметрів із забезпеченням необхідної полоси роз-дільності.

 

Ключові слова: аналіз тексту, концепти мови, псевдообернення, кластеризація, групування ознак.

 

Цитувати так: Крак Ю.В., Куляс А.І., Петрович В.М., Кузнєцов В.О. Про методи класифікації прихованих концептів мови у спеціалізованих текстах із залученням псевдообернення, кластеризації і групування ознак. Cybernetics and Computer Technologies. 2021. 2. С. 68–75. https://doi.org/10.34229/2707-451X.21.2.7

 

Список літератури

           1.     Джурабаєв О.В., Бармак О.В., Манзюк Е.А., Скрипник Т.К. Інформаційна зосередженість змістовності в тексті. Вісник Хмельницького національного університетру. Сер. «Технічні науки». 2019. 4 (275). С. 80 – 83.

           2.     Бармак О.В., Мазурець О.В., Живілік А.В. Інформаційна технологія автоматизованого анотування та реферування цифрових текстів. Вісник Хмельницького національного університету. Сер. «Технічні науки». 2017. 4 (251). С. 147 – 158.

           3.     Робертсон С. Розуміння зворотної частоти документа: про теоретичні аргументи для IDF. Journal of Documentation. 2004. 60 (5). C. 503–520.

           4.     Крак Ю.В., Бармак А.В., Манзюк В.С. Информационная технология синтеза разделяющих гиперплоскостей для линейных классификаторов. Проблемы управления и информатики. 2019. 1. С. 245–254.

           5.     Візуалізація даних за допомогою t-SNE. Journal of Machine Learning Research. 2017. 9. C. 2595.

           6.     Кривонос Ю.Г., Кириченко М.Ф., Крак Ю.В., Донченко В.С., Куляс А.І. Аналіз та синтез ситуацій в системах прийняття рішень. Київ: Наукова думка, 2009. 336 с.

           7.     Хаст А., Нисьо Й., Марчетті А. Оптимальний RANSAC – до повторюваного алгоритму пошуку оптимального набору. WSCG . 2013. 21 (1). C. 21–30.

           8.     Ґінтон Дж., Салакхутдинов Р. Зниження розмірності даних за допомогою нейронних мереж. Science. 2006. 313. С. 504–507.

           9.     Крак Ю., Кручинін К., Бармак О., Манзюк Е. Візуальна аналітика в системах машинного навчання для ефективного прийняття рішень. Springer, 2020. С. 327–338.

       10.     Крак Ю.В., Кудин Г.И., Куляс А.И. Многомерное шкалирование средствами псевдообратных операций. Кибернетика и системный анализ. 2019. 55 (1). С. 47–57.

 

 

ISSN 2707-451X (Online)

ISSN 2707-4501 (Print)

Попередня  |  Повний текст  |  Наступна

 

 

 

© Вебсайт та оформлення. 2019-2022,

Інститут кібернетики імені В.М. Глушкова НАН України,

Національна академія наук України.