2025, випуск 1, c. 74-80
Одержано 06.01.2025; Виправлено 27.01.2025; Прийнято 25.03.2025
Надруковано 28.03.2025; Вперше Online 30.03.2025
https://doi.org/10.34229/2707-451X.25.1.7
Попередня | ПОВНИЙ ТЕКСТ | Наступна
Чірплет-аналіз мовних сигналів на основі перетворення Гільберта – Хуанга
Інститут кібернетики імені В.М. Глушкова НАН України, Київ
Листування: Ця електронна адреса захищена від спам-ботів. Вам потрібно увімкнути JavaScript, щоб побачити її.
Вступ. У статті пропонується новий підхід до аналізу мовних сигналів на основі чірплет-перетворення, яке об’єднує перетворення Гільберта – Хуанга з чірплет-аналізом. Цей метод забезпечує розширені можливості сегментації та виділення ознак у мовних сигналах, уможливлюючи точну ідентифікацію частотно-часових характеристик. Пропонується подолати обмеження традиційних методів, таких як швидке перетворення Фур’є і вейвлет-аналіз, використовуючи більш адаптивне рішення, адаптоване до нелінійної та нестаціонарної природи мовних сигналів.
Мета роботи. Створення чисельно-аналітичного методу фонетичного аналізу мовного сигналу. Центральним у методології є поєднання емпіричної модової декомпозиції від перетворення Гільберта – Хуанга з чірплет-проекціями на альтернативні нелінійні масштаби, такі як мел-шкала. Цей підхід забезпечує чудову локалізацію динамічних змін у частотно-часовій області, одночасно узгоджуючи їх із перцептивними характеристиками людського слуху. Використовуючи чірплет-перетворення, запропонований метод покращує виявлення лінгвістичних елементів, включаючи фонеми та інші сегменти мови, навіть за наявності компонентів, що накладаються.
Результати. Практична реалізація цього методу продемонстрована шляхом експериментального аналізу мовних сигналів. Результати вказують на покращення точності сегментації порівняно зі звичайними підходами. Часово-частотні візуалізації ілюструють адаптивність методу для обробки складних мовних сигналів із різними динамічними властивостями.
Висновки. Це дослідження сприяє прогресу в аналізі мовлення, розпізнаванні та обробці аудіосигналів, пропонуючи потенційні застосування в таких сферах, як системи з голосовим керуванням, лінгвістичні дослідження та технології розпізнавання мовлення. Запропонований підхід можна додатково вдосконалити та інтегрувати з алгоритмами машинного навчання для автоматизації класифікації та аналізу мовних сегментів. Стаття забезпечує основу для майбутніх досліджень перетину чірплет-перетворень і нелінійної обробки сигналів, підкреслюючи їхню роль у вирішенні реальних проблем у мовних і аудіотехнологіях.
Ключові слова: перетворення чірплет, перетворення Гільберта – Хуанга, емпіричне модова декомпозиція, мел-шкала, альтернативні нелінійні шкали.
Цитувати так: Безвербний І.A. Чірплет-аналіз мовних сигналів на основі перетворення Гільберта – Хуанга. Cybernetics and Computer Technologies. 2025. 1. С. 74–80. https://doi.org/10.34229/2707-451X.25.1.7
Список літератури
1. Semotiuk M.V., Palagin A.V. Technocratic model of the human auditory system. arXiv preprint arXiv:2310.05639, 2023. https://doi.org/10.48550/arXiv.2310.05639
2. Daubechies І. Ten lectures on wavelets. Society for industrial and applied mathematics. 1992. 350 с. https://jqichina.wordpress.com/wp-content/uploads/2012/02/ten-lectures-of-waveletsefbc88e5b08fe6b3a2e58d81e8aeb2efbc891.pdf
3. Coifman R.R. Wavelets and their applications past and future. Independent Component Analyses, Wavelets, Neural Networks, Biosystems, and Nanoengineering VII. SPIE, 2009. P. 23–35.
4. Grossmann A., Morlet J. Decomposition of Hardy functions into square integrable wavelets of constant shape. SIAM journal on mathematical analysis. 1984. 15 (4). P. 723–736.
5. Sazhok M., Poltyeva A., Robeiko A., Seliukh R., Fedoryn D. Punctuation Restoration for Ukrainian Broadcast Speech Recognition System based on Bidirectional Recurrent Neural Network and Word Embeddings. Proceedings of the 5th International Conference on Computational Linguistics and Intelligent Systems (COLINS 2021). 2021. Vol. I: Main Conference. P. 300–310. http://ceur-ws.org/Vol-2870/paper25.pdf
6. Sazhok M.M., Robeiko V.V., Smoliakov Ye.A., Zabolotko T.O., Seliukh R.A., Fedoryn D.Ya., Yukhymenko O.A. Modeling Domain Openness in Speech Information Technologies. Control Systems and Computers. 2023. Iss. 4. P. 19–28. https://doi.org/10.15407/csc.2023.04.019
7. Безвербний І.А. До питання виділення фонем у мовному сигналі за допомогою ефекту стоячої хвилі. Комп’ютерні засоби, мережі та системи. 2019. № 18. С. 32–35. http://dspace.nbuv.gov.ua/handle /123456789/168473
8. Pesquet-Popescu B., Pesquet J.C. Ondelettes et applications. Techniques de l’ingénieur. 2001. 5. P. 215.
9. Lokenath D. Wavelet transforms and time-frequency signal analysis. Springer Science & Business Media, 2012. 350 p.
10. Xie X., Cai H., Li C. A Voice Disease Detection Method Based on MFCCs and Shallow CNN. arXiv preprint arXiv:2304.08708, 2023. https://arxiv.org/pdf/2304.08708
ISSN 2707-451X (Online)
ISSN 2707-4501 (Print)
Попередня | ПОВНИЙ ТЕКСТ | Наступна