Новини

 

Філологи КНУ створили застосунок, який аналізує текст на токсичність!

01.04.2024

 У традиційний День філолога КНУ, 29 березня 2024 року, університетські мовознавці презентували важливий проєкт, який виявлятиме авторство анонімних українськомовних текстів за допомогою методів штучного інтелекту в мережі «Інтернет».

Вебзастосунок під назвою TextAttributor 1.0, розроблений прикладними лінгвістами Шевченкового університету, є початковим результатом великого проєкту, над яким автори працюють спільно з Українським лінгвістичним центром за підтримки посольства Великої Британії в Україні. До проєкту також долучені фахівці з інформаційних технологій, зокрема з МОН України та НАН України, а також з Факультету інформаційних технологій КНУ.

 

Презентували розробку в Укрінформі авторки проєкту, науковиці кафедри української мови та прикладної лінгвістики Навчально-наукового інституту філології КНУ: професорка Наталія Дарчук, доцентка Оксана Зубань, асистентка Валентина Робейко та доцентка Юлія Вознюк.

За словами спікерок, програма полегшить роботу лінгвістичного аналізу, адже за допомогою неї можна виконувати низку завдань:

  • автоматичний лінгвістичний аналіз тексту;
  • атрибуцію україномовного тексту;
  • стилеметрію авторських текстів;
  • визначення токсичності українськомовного тексту;
  • визначення мови ворожнечі в соціальних мережах;
  • автоматичну генерацію експертного висновку атрибуції тексту.

Застосунок із параметризації медійного українськомовного тексту послужить інструментом для лінгвістичного аналізу в завданнях з телеметрії, визначення авторства і визначення токсичності тексту. «TextAttributor 1.0 аналізує будь-який текст за 18 параметрами, серед яких базовими є такі, як кількість слів, кількість речень, обсяг словника. Є й інші параметри. Їх 15 і вони обчислюються за певними формулами. Одним із таких параметрів є індекс токсичності тексту, який вираховується за формулою і враховує вербальні ознаки, які систематизовані в окремі бази даних. – розповідає доцентка кафедри української мови та прикладної лінгвістики ННІФ Оксана Зубань. – У базі даних застосунку є лексикографічний словник обсягом 5 тис. слів, до якого увійшли слова з негативною тональністю, словник мови ворожнечі обсягом 3 тис. слів (із негативними назвами людей, обсценною та лайливою лексикою), словник токсичних сполук обсягом 1,5 тис. синтагм, які виражають негативний сенс лише в певному словосполученні». У майбутньому розробники планують вивести непродуктивні параметри та ввести додаткові індекси, зокрема семантичні, що дозволить покращити лінгвістичний аналіз і дасть можливість використовувати його в експертній діяльності.

Під час презентації в Укрінформі прикладні лінгвісти продемонстрували програму й пояснили, як із нею працювати: «Завантаживши тексти у програму, слід переглянути коректність введених текстів, зокрема чи є пробіли та чи збережені інші візуальні параметри. Від цього залежить об’єктивний результат. Далі відбувається кількаетапний процес – автоматичний морфологічний аналіз, автоматична лематизація, автоматичний синтаксичний і семантичний аналізи, будуються частотні словники за текстом і проводиться обчислення тих статистичних індексів, що закладені в моделі програми». Такі можливості системи, за словами професорки Наталії Дарчук, будуть корисними не лише лінгвістам. «Ми ставили перед собою мету – створити таку програму, із якою може працювати будь-хто. Нашим завданням є полегшити автоматичний лінгвістичний аналіз, автоматичну експертизу й дуже важливо, що за цією моделлю можна буде визначати наративи. Тобто машина буде класифікувати тексти за висловлюваннями. Це є у перспективі. TextAttributor 1.0 працює наразі з аналізом слова. А ми прагнемо долучити семантику та синтаксис, бо вони дозволять вийти на когнітивний аналіз тексту». Виступаючи Наталія Петрівна, яка працює вже десятки років із корпусами текстів, наголосила, що пунктуація та службові слова, місце яким у «класичній» лінгвістиці відводять зазвичай другорядне у порівнянні з повнозначними, відіграють важливу роль у формуванні думки. Тому автори планують активно досліджувати це й надалі.

Досвідом роботи з нейронною мережею поділилася на презентації також Валентина Робейко, яка зауважила, що до проєкту були залучені також студенти освітньої програми з вивчення прикладної лінгвістики. Вони збирали тексти, на певному етапі тестували програму.

Ознайомитися з презентованою програмою можна за покликанням: http://ta.mova.info/

 

Фото з фейсбук-сторінки Оксани Бас-Кононенко

За інформацією Відділу зв'язків з громадськістю імені Володимира Мукана ННІ філології

Центр комунікацій 

Інформаційно-обчислювальний центр університету

© Всі права захищені 1995-2024