Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

середа, 28 грудня 2011 р.

Головні слова останнього місяця року.

Почнемо огляд словарного набору грудня. Спочатку я хотів (як і писав у попередньому пості) зробити огляд останніх шести місяців, але виявилось, що шукати новини через Google не так просто. При великій кількості звернень до серверу пошуковика, через деякий час він перестає видавати результати пошуку, надсилає повідомлення щось типу у Вас на комп'ютері працює якийсь скрипт або програма, які інтенсивно використовують пошук Google і т.д. Після цього адекватні посилання на сайти новин можна отримати лише за останній місяць. Тому новини в нас будуть лише за цей період.

Для пошуку новин використовувся запит "новости политика украина". Всього було скачано 711 текстів новин. Найпопулярнішими були такі сайти:

Найбільш сентиментно забарвленими словами були:

Найбільш позитивними були слова, пов'язані з темами земельної реформи та підписання резолюції на саміту Україна-ЄС. Негативними були слова, пов'язані з найрізноманітнішими темами. Причому, з 10 найнегативніших слів шонайменше 3 - українські.

Тепер перейдемо до розгляду загального словарного графа. Як і раніше, розмір слів відповідає їх TF-IDF-значенню, а колір - сентиментному навантаженню (червоний - позитивному, синій - негативному). Крім того колір з'єднання (грані) графа відповідає кольору того слова, до якого він надходить. Тобто, якщо в деякого слова є багато зв'язків на графі, можна побачити, які з них походять з інших слів (тоді колір з'єднань буде кольору цього слова), а які є найсильнішими з'єднаннями з іншими словами (тоді ці з'єднання будуть кольору слова, до якого вони надходять). Сам граф будувався з відсіканням зв'язків (і слів, якщо в них не залишилось значимих з'єднань), менших за 0.5. Він виглядає наступним чином:

Як бачимо, в загальному можна виділити кілька основних згустків. Їх ми зараз і розглянемо детальніше.

Це верхня частина нашого графа, яку ми умовно назвемо "Україна". Тут зконцентровані українські слова із невеличкими "чужорідними" вкрапленнями. Як бачимо, центральною частиною тут є "україна" (-0.004). Також популярними (які мають зв'язки того ж кольору) є слова "час" (+0.050), "питання" (+0.075). Також можна виділити часто вживані слова "європейський" (+0.056), "європа" (+0.005), "український" (+0.018), "країна" (+0.047). Трохи нижче йдуть два невеликі, але змістовні відгалуження.Назвемо їх:







              • "Тимошенко": "справа" (+0.012), "києва" (-0.014), "засідання" (+0.019), "тимошенко" (+0.059);
              • "Газ": "російський" (+0.039), "ціна" (+0.023), "газпром" (+0.051), "газовий" (+0.070), "газ" (+0.035), "переговори" (+0.075). А ще "вдасться" (+0.036) і "31 грудня" (-0.005)...

Цю велику центральну частину назвемо "Украина". Найбільш популярними тут є слова "украина" (+0.065), "европейский" (+0.097), "говорить" (+0.083). Ця чатина характеризується поєднанням слів різноманітної тематики.

На цій ділянці зосереджені розрізнені групи слів, серед яких можна виділити одну, яку назвемо "Выборы", оскільки це слово тут є об'єднуючим. Найвживанішими в цьому ланцюжку є "власть" (+0.040), "оппозиция" (+0.042), "выборы" (+0.062), "партия" (+0.052), "единая" (+0.032), "россия" (+0.064), "голос" (+0.043), "избиратель" (+0.002), "кандидат" (-0.025). Симптоматичною також є група слів, яка знаходиться неподалік: "путин" (+0.037), "революция" (+0.011), "болотная" (+0.038) і "модель" (+0.032).

В цій гілці все однозначно. Назвемо її "Чернобыльцы". Основні ланцюжок слів тут "бюджет" (0.041), "млрд" (+0.019), "госбюджет" (+0.047), "выплата" (+0.033), "пенсия" (+0.078), "чернобыльцы" (+0.011), "донецк" (-0.001), "протест" (0.0).

Два досить щільних утворення, перше з який назвемо "Работа", а друге "Экономика". В першому популярними є слова "работа" (+0.008), "сумма" (+0.009), "город" (+0.002), "городской" (+0.004), "увеличение" (+0.015), "гривня" (-0.007). В другому дуже щільно переплетені такі слова, як "сравнение" (+0.006), "показатель" (-0.007), "динамика" (+0.001), "грн" (+0.039), "треть" (-0.023), "зарплата" (+0.043), "предприятие" (+0.0.45).

І остання в цьому графі частина, яка буде називатись "Рынок". Основні слова тут "рынка" (+0.003), "предложение" (+0.071), "производитель" (+0.031), "продукт" (-0.013), "урожай" (-0.015).

Отже, в сухому залишку за останній місяць новин ми маємо такі підгрупи (за зменшенням розміру): "Украина", "Україна", "Экономика", "Работа", "Выборы", "Чернобыльцы", "Газ" і "Тимошенко".

Наступного разу вже в новому році розглянемо новини останнього тижня року, що минає. До того часу я трохи підправлю алгоритм оцінювання сентиментної сладової слів, щоб вона виглядала більш прийнятно.

Далі буде.

Немає коментарів:

Дописати коментар