Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

вівторок, 8 лютого 2011 р.

63 тижні української політики. Графи.

Як і обіцяв, наведу деякі зразки словарних графів, сформованих за параметрами, обчисленими за означений 63-тижневий період. Кожне слово являє собою вершину графа з двома параметрами: значимість (TFIDF) та полярність (СЗС, див. попередній пост). Слова з'єднуються між собою гранями, які мають один параметр - контекстна міра близькості двох слів. Щоб не захаращувати граф для кожного слова обчислюється лише 10 найближчих сусідів в наборі текстів.

Окремо хочу сказати про програмне забезпечення, яке дозволяє будувати та редагувати графи. Після тривалих пошуків та спроб я надибав на Gephi. Це найкраща програма з величезною кількістю інструментів, неймовірними можливостями та підтримкою багатьох (якщо не всіх) форматів представлення графів. До того ж працює у Windows, Linux та Mac OS.

Отож, почнемо. Преший малюнок - 50 слів із найбільшим значенням СЗС.

Розмір шрифта відповідає абсолютному значенню СЗС, колір - сентиментній полярності слова (червоний - позитивній, синій - негативній), а ширина грані - контекстній близькості слів.

Як можна помітити, тут виділилось два скупчення, всередині кожного з яких зв'язки між словами досить сильні. Перша група пов'язана із конкретними політиками ("янукович", "тимошенко", і не потрапив попередній президент...), партіями (""парти[і]я", регион[ы]", "фракци[і]я"), посадами ("президент", "депутат", "премьер", "министр") та діями ("сказал", "заявил"). Дещо осторонь тут стоять "свобода", "слово" і "право", які зв'/зані лише з "україна", "сказал", "друг" та "может" із другої групи. В цьому скупченні всі слова мають позитивне забарвлення. Найбільш зв'язків тут має "янукович", це слово з'єднане практично з кожним іншим словом групи. А от друге по величині "президент" напряму зв'язане лише із словами "виктор", "янукович" і "тимошенко" (як не дивно).

 

Друга група представляє слова загальної та абстрактої тематики: "украина", "украинский", "выбор(ы)", "россия", "страна", "развитие", "помощь", "поддержка", "лучше(ий)", "дело", "вопрос" тощо. Тут містяться також слова із негативним СЗС: "проблема", "уголовный", "голодомор" та "против" (СЗС близько 0). Слово "украина", хоч і має найбільше значення СЗС, проте з'єднане лише з двома словами: "россия" і "может". Друге по рангу "выбор(ы)" також має лише два зв'язки: "был" та "россия". Двома незаперечним лідерами за зв'язками в цій групі є слова "может" і "был".

Подивимось, які ще найбільш зв'язані слова можна виділити з набору.

Найбільш з'єднаними є слова: "янукович" (беззаперечно), знову ж таки "может" і "был", "парламент", "заявил", "сказал". Причому звя'зок між собою останніх двох є чи не найміцнішим серед всіх.

І на закінчення наведу кілька графів найближчих зв'язків деяких слів з позитивним та негативним СЗС.

 

 

Це заключний пост із серії про 63-тижневий період. Надалі я планую щотижня публікувати аналогічні звіти за попередній тиждень. А наступного разу будуть результати обробки публікацій за 5 перших тижнів нового року.

Далі буде.

 

 

 

 

 

Немає коментарів:

Дописати коментар