Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

вівторок, 1 березня 2011 р.

Тиждень 1108.

Сьогодні розглянемо про що писалося 8-го тижня (14-20 січня). Затримка із опублікуванням результатів викликана сумнівами (вже вкотре) щодо правильності обраного алгоритму визначення міри близькості слів між собою та обчислення сентиментного значення слова.

Поясню детальніше. Міра близькості одного слова до іншого в наборі текстів, як правило, визначається як обчислення коефіцієнта подібності (переважно косинусної) між контекстними векторами цих слів. Ці вектори, в свою чергу, обчислюються як простий підрахунок кількості потраплянь кожного із слів, відібраних для формування вектора, у вікно огляду для даного слова в речені у всіх текстах корпусу. Принаймні такий метод я знайшов у літературі. Я вирішив спробувати інший метод: вектор контексту являє собою набір середніх відстаней (відносних позицій) кожного із відібраних слів до поточного слова у речені для всього набору текстів. Виходить шось типу набір координат у багатомірному просторі, чим більш схожі координати, тим два слова знаходяться ближче одне до одного. Так от, після кількох текстів, я переконався, що мій метод визначення контекстних векторів є більш гнучким і формує точніші взаємозв'язки мід словами у реченні. Він використовувався і до цього в моїх постах, і використовуватиметься й надалі (принаймні, поки що).

Обчислення сентиментного спрямування слова також може обчислюватись двома способами: коли його обрахунок проводиться відразу по всьому корпусу текстів і коли сентиментні значення слова обчислюються для кожного тексту окремо, а потім, для визначення результуючого значення, їх знакові значення додаються. Як показав аналіз результатів таких обчислень по кількох текстах, в першому випадку суттєві сентиментні значення отримують лише 10% відібраних слів, а переважна більшість слів має білянульове значення. Тобто, при формуванні великого контекстного вектора по вьому набору текстів, для більшості слів такі вектори є досить схожими. Для другого випадку сентиментні значення слів мають більш контрастний характер і більш схожі на правду. Цей метод обчислення я також завжди використовував у своєму аналізі. Отже, ще раз підтвердилась правильність вибраних методів отримання результатів.

Почнемо огляд 8-го тижня року. 

Кількість слів становила трохи більше 94К слів, що на 10+% більше від попереднього максимального значення із початку року. Це можна пояснити тим, що із цього тижня відбираються також слова, написані латиницею. І цього тижня їх набралось більше 7К слів. Інтенсивність використання кожного слова була на рівні попереднього тижня - близько 15 повторів.

Список 30-ти найбільш важливих (за TFIDF) слів.

8-го тижня, як і попереднього, "язык", а також "тимошенко" по популярності випередили "президент" і "янукович".

Перейдемо до графів. Спочатку дві сотні слів із найбільшим СЗС.

І знову бачимо, що найбільш вживані/важливі (з великим шрифтом) слова мають семантичне значення трохи більше нуля (+0.1...+0.2). Серед найбільш обговорюваних можна виділити (окрім постійних "украина", "україна" та "президент") знову ж таки "реформа", "свобода" (обидва з великому позитивному сенсі +0.95), "русь"(?), "государство", "страна", "земля", "законопроект", "пенсія" і "зарплата". Цього тижня навіть в перші дві сотні слів не потрапили "янукович" і "тимошенко". Причиною тому є низька сентиментна складова СЗС. В першого вона складає +0.16, в другого - -0.08... Зате потрапив "литвин" (+0.41) в поєднанні із "законопроект" і "парламент". Через досить великі сентиментні значення негативного спрямування також з'явились такі слова як "онопенко" (прізвище Голови Верховного Суду України, -0.29) та "данилишин" (це прізвище колишнього міністра економіки вже давно фігурує в ЗМІ, -0.70). Досить широко представлені ніки учасників форумів, які мають відгалуження починаючи із "написав" і "написал". Як і попереднього тижня, присутні форумні "розбірки" по лінії "население" - "геноцид" - "голодомор" та інші не менш цікаві гілки..:)

Тепер розглянемо графи деяких цікавих, на мій погляд, слів детальніше.

"Янукович", як і раніше, також поєднаний із "тимошенко". Це пов'язане із відкритими кримінальними справами щодо останньої і серії звинувачень, в свою чергу, Ю.Тимошенко на адресу В.Януковича.

Поглянемо ще на кілька прізвищ колишніх членів уряду Ю.Тимошенко, про яких писали приблизно в однаковому контексті відкриття стосовно них кримінальних справ.

В.Онопенко, Голова ВСУ, в нього був проведений обшук прокуратурою під приводом відкриття справи проти його молодшої дочки Ірини.

Б.Данилишин, екс-міністр економіки, перебуває в Чехії, отримав політичний притулок.

 

М.Поживанов, колишній Голова Держкомрезерву, перебуває в Австрії.

Є.Корнійчук, колишній перший заступник міністра юстиції, був затриманий, відпущений під підписку про невиїзд.

Ну і під кінець про податки.

"Бюджет" в контексті "налог" сприймається негативно.. Так само, як і "коррупция" при "ндс".. А от "упрощенка" від "ндс", як і можна було очікувати - практично на вершині позитивного сприйняття.

На сьогодні - все.

Далі буде.

Немає коментарів:

Дописати коментар