Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

середа, 28 грудня 2011 р.

Головні слова останнього місяця року.

Почнемо огляд словарного набору грудня. Спочатку я хотів (як і писав у попередньому пості) зробити огляд останніх шести місяців, але виявилось, що шукати новини через Google не так просто. При великій кількості звернень до серверу пошуковика, через деякий час він перестає видавати результати пошуку, надсилає повідомлення щось типу у Вас на комп'ютері працює якийсь скрипт або програма, які інтенсивно використовують пошук Google і т.д. Після цього адекватні посилання на сайти новин можна отримати лише за останній місяць. Тому новини в нас будуть лише за цей період.

Для пошуку новин використовувся запит "новости политика украина". Всього було скачано 711 текстів новин. Найпопулярнішими були такі сайти:

Найбільш сентиментно забарвленими словами були:

Найбільш позитивними були слова, пов'язані з темами земельної реформи та підписання резолюції на саміту Україна-ЄС. Негативними були слова, пов'язані з найрізноманітнішими темами. Причому, з 10 найнегативніших слів шонайменше 3 - українські.

Тепер перейдемо до розгляду загального словарного графа. Як і раніше, розмір слів відповідає їх TF-IDF-значенню, а колір - сентиментному навантаженню (червоний - позитивному, синій - негативному). Крім того колір з'єднання (грані) графа відповідає кольору того слова, до якого він надходить. Тобто, якщо в деякого слова є багато зв'язків на графі, можна побачити, які з них походять з інших слів (тоді колір з'єднань буде кольору цього слова), а які є найсильнішими з'єднаннями з іншими словами (тоді ці з'єднання будуть кольору слова, до якого вони надходять). Сам граф будувався з відсіканням зв'язків (і слів, якщо в них не залишилось значимих з'єднань), менших за 0.5. Він виглядає наступним чином:

Як бачимо, в загальному можна виділити кілька основних згустків. Їх ми зараз і розглянемо детальніше.

Це верхня частина нашого графа, яку ми умовно назвемо "Україна". Тут зконцентровані українські слова із невеличкими "чужорідними" вкрапленнями. Як бачимо, центральною частиною тут є "україна" (-0.004). Також популярними (які мають зв'язки того ж кольору) є слова "час" (+0.050), "питання" (+0.075). Також можна виділити часто вживані слова "європейський" (+0.056), "європа" (+0.005), "український" (+0.018), "країна" (+0.047). Трохи нижче йдуть два невеликі, але змістовні відгалуження.Назвемо їх:







              • "Тимошенко": "справа" (+0.012), "києва" (-0.014), "засідання" (+0.019), "тимошенко" (+0.059);
              • "Газ": "російський" (+0.039), "ціна" (+0.023), "газпром" (+0.051), "газовий" (+0.070), "газ" (+0.035), "переговори" (+0.075). А ще "вдасться" (+0.036) і "31 грудня" (-0.005)...

Цю велику центральну частину назвемо "Украина". Найбільш популярними тут є слова "украина" (+0.065), "европейский" (+0.097), "говорить" (+0.083). Ця чатина характеризується поєднанням слів різноманітної тематики.

На цій ділянці зосереджені розрізнені групи слів, серед яких можна виділити одну, яку назвемо "Выборы", оскільки це слово тут є об'єднуючим. Найвживанішими в цьому ланцюжку є "власть" (+0.040), "оппозиция" (+0.042), "выборы" (+0.062), "партия" (+0.052), "единая" (+0.032), "россия" (+0.064), "голос" (+0.043), "избиратель" (+0.002), "кандидат" (-0.025). Симптоматичною також є група слів, яка знаходиться неподалік: "путин" (+0.037), "революция" (+0.011), "болотная" (+0.038) і "модель" (+0.032).

В цій гілці все однозначно. Назвемо її "Чернобыльцы". Основні ланцюжок слів тут "бюджет" (0.041), "млрд" (+0.019), "госбюджет" (+0.047), "выплата" (+0.033), "пенсия" (+0.078), "чернобыльцы" (+0.011), "донецк" (-0.001), "протест" (0.0).

Два досить щільних утворення, перше з який назвемо "Работа", а друге "Экономика". В першому популярними є слова "работа" (+0.008), "сумма" (+0.009), "город" (+0.002), "городской" (+0.004), "увеличение" (+0.015), "гривня" (-0.007). В другому дуже щільно переплетені такі слова, як "сравнение" (+0.006), "показатель" (-0.007), "динамика" (+0.001), "грн" (+0.039), "треть" (-0.023), "зарплата" (+0.043), "предприятие" (+0.0.45).

І остання в цьому графі частина, яка буде називатись "Рынок". Основні слова тут "рынка" (+0.003), "предложение" (+0.071), "производитель" (+0.031), "продукт" (-0.013), "урожай" (-0.015).

Отже, в сухому залишку за останній місяць новин ми маємо такі підгрупи (за зменшенням розміру): "Украина", "Україна", "Экономика", "Работа", "Выборы", "Чернобыльцы", "Газ" і "Тимошенко".

Наступного разу вже в новому році розглянемо новини останнього тижня року, що минає. До того часу я трохи підправлю алгоритм оцінювання сентиментної сладової слів, щоб вона виглядала більш прийнятно.

Далі буде.

середа, 21 грудня 2011 р.

Починаємо знову.

Після тривалого мовчання, я знову розпочинаю графовий аналіз українських політичних новин. Надалі може не тільки політичних новин, і може не тільки українських...)

За цей час був повністю переписаний робочий код. Тепер всі новини отримуються за результатами пошуку у Google. До уваги беруться слова латиницею та кирилицею, а також числа, які разом із слідуючим за ним словом об'єднуються в один терм. Для приведення слів до одного кореня використовується стемер Портера (англ., рос. і укр.). Алгоритм обчислення сентиментної складової залишився незмінним. Поки що алгоритм відбору корисної інформації з HTML-коду працює не дуже добре. Але я його ще вдосконалюватиму.

Для початку я подам помісячні звіти починаючи із липня і по грудень, а надалі повернуся до щотижневих оглядів.

Починаємо завтра.

вівторок, 26 липня 2011 р.

Тиждень 1129.

Розглянемо, що відбувалось 29-го тижня року (11.07 - 17.07).

Граф найцікавіших слів цього тижня має кілька згуртованих районів:

  • найбільший вгорі, пов'язаний із "найцікавішими" подіями у відчизняному політикумі (той що лівіше до уваги не беремо, оскільки він стосується до вербальних боїв на форумах, хоча це теж можна проаналізувати окремо): "суд"(-0.16) - "судебный"(-0.21) - "заседание"(-0.27) - "дело"(-0.26) - "уголовный"(-0.99) - "прокуратура"(-0.49);
  • інший, що також стосується судових подій (і так само негативний) розташований справа внизу, він значно менший, проте з більш міцними зв'язками: "засідання"(-0.23) - "головуючий"(-0.76) - "розпорядження"(-0.51) - "порушення"(-1.0) - "порядку"(-0.32) - "встановлено"(-0.83) - "неповага"(-0.73);
  • деякі інші невеликі підграфи:
    • "мельниченко"(-0.39) - "сбу"(-0.52) - "доказ"(+0.76) - "злочин"(-0.79);
    • "правила"(-0.54) - "снип"(+0.56) - "строительный"(+0.58) - "нормативный"(+0.64) - "независимый"(+1.0) - "правильный"(+0.94) - "неправильный"(-1.0);
    • "теплоход"(-0.33) - "трагедия"(-0.97) - "судно"(-0.30) - "катастрофа"(-1.0) - "высылка"(-1.0) - "посольство"(-0.45) - "атташе"(-1.0) - "сотрудник"(-0.54);

Тепер глянемо на найміцніші зв'язки між словами.

Тут групи слів практично такі ж, як і в попереднього графа. Кожен може оцінити його сам.

Далі буде.

понеділок, 25 липня 2011 р.

Тижні 26-28.

Спробуймо оглянути останні три тижні. Вони цікаві деякими гучними і не дуже подіями.

 

Тиждень 1126 (20.06 - 26.06).

Цього тижня можна виділити кілька груп із різними кольорами. Кілька відокремлених груп зверху та знизу представляють дискусії на форумах. Вони відзначаються щільністю розташування і протилежністю емоційного забарвлення слів, які там використовуються. Основний граф характеризується різноманітністю вживаних слів у центральній і лівій його частинах і монолітним семантичним та емоційним наповненням в правій його частині, яка описує початок гучного (чи просто шумного?) процесу над екс-прем'єром. Тут використовуються слова "тимошенко" (-0.08), "дело" (-0.22), "уголовный" (-0.94), "газовый" (-0.32), "контракт" (-0.48) тощо. Серед цікавинок основного графа, наприклад, можна відмітити зв'язок слів "мвф" (+0.47), "программа" (+0.60), "поддержка" (+0.91), "получить" (+0.60) і "угроза" (-0.89).

Варто відмітити, що використання підрахунку сили зв'язків між словами, описаного мною в попередньому пості (коли обчислюється коефіцієнт кореляції кількості використань слів в кожному тексті) дозволяє разом із словами, що нас цікавлять спостерігати і авторів (наприклад, на форумах), які найчастіше ці слова використовують.

Граф за цей тиждень трохи схожий на п-в Крим, хіба ні?)

Тепер поглянемо на граф із найміцнішими зв'язками між словами. Це дозволить оцінити найвживаніші сполучення слів за тиждень.

Найбільш щільною є хмарина слів в лівому нижньому куті. Це об'єднання різноманітних часто повторюваних слів із форумів. В основній же частині найміцніше зв'язаними, в основному, є ланцюжки слів, які описують новини про гучні кримінальні справи в країні:

  • "мельниченко"(-0.43) - "кучма"(+0.10);
  • "заведомо"(-0.16) - "ложный"(+0.17);
  • "кримінальна"(-0.29) - "справа"(-0.04) - "екс"(-0.10);
  • "уголовное"(-0.94) - "дело"(-0.22);
  • "юлия"(-0.11) - "тимошенко"(-0.08) - "суд"(-0.02) - "печерский"(-0.24) - "районный"(-0.15).

Проте, зважаючи на дати, які охоплює цей тиждень, також досить вживаним був наступний ланцюжок слів:

  • "ссср"(+0.12) - "германия"(+0.11) - "гитлер"(+0.05) - "польша"(+0.22) - "франция"(+0.23).

 

Тиждень 1127 (27.06 - 03.07).

Цей тиждень виявився менше структурованим, ніж попередній. Тут немає яких-небудь строго визначених під-графів (окрім форумних, в нижній частині). Слова використовувались із більшим різноманіттям. Мабуть, це пов'язано із виступами президента того тижня. У верхній частині можна спостерігати досить розгалужену частину графа, слова в якій мають переважно позитивне забарвлення і пов'язані в основному із загально-політичною риторикою. Серед цих слів найбільш з'єднаними є "будет", "страна" і "янукович". Навіть "тимошенко"(+0.14) має з'єднання лише із "фролов"(-0.60). Ще можна відмітити четвірку добре з'єднаних між собою слів "луценко"(-0.21) - "имущество"(-0.30) - "наложение"(-0.48) - "гаврилюк"(-0.73).

Тепер поглянемо на найсильніше з'єднані слова.

Найтовстіші зв'язки мають поєднання слів, які стосуються вже відомих кримінальних справ:

  • "имущество"(-0.30) - "наложение"(-0.48) - "арест"(-0.18) - "гаврилюк"(-0.73);
  • "юлия"(+0.05) - "тимошенко"(+0.14) - "суд"(+0.07).

Розгалужена верхня частина з дещо слабшими зв'язками, серед яких найсильнішими є:

  • "янукович"(+0.20) - "реформа"(+0.88);
  • "есть"(+0.11) - "будет"(+0.22) - "будут"(+0.03) - "вопрос"(+0.07);

Ще один міцний ланцюжок: "казак"(-0.44) - "крест"(+0.13) - "милиция"(-0.28).

 

Тиждень 1128 (04.07 - 10.07).

Цього тижня граф найцікавіших слів також виявився досить одноманітним. Хіба що в правому верхньому кутку виділяється структурований під-граф  позитивних слів із законотворчою тематикою, зокрема, прийнятої цього тижня Пенсійної реформи. В нижній частині зосередились в основному негативно забарвлені слова. Наприклад, такі поєднання:

  • "самсоненко"(-0.56) - "семенюк"(-0.56) - "превышение"(-0.82) - "полномочий"(-0.41) - "рнбо"(-1.0);
  • "теплоход"(-0.58) - "булгария"(-0.48) - "мчс"(-0.62).

Також варто відзначити ще одну знакову подію цього тижня: "луганский"(-0.38) - "ландик"(-0.50) - "инцидент"(-0.89) - "драка"(-0.64).

Подивимось на сполучення слів.

Тут, окрім у згаданих ланцюжків про кримінальні події, несподівано організованим та міцним виявився під-граф: "русский"(-0.03) - "народ"(+0.12) - "призыв"(-0.73) - "кавказ"(-0.22) - "украинцы"(+0.29) - "государство"(+0.35) - "национальный"(+0.29) - "украинский"(+0.12) - "россия"(-0.08) - "украина"(-0.03).

 

Поки що все. Сподіваюсь, надалі випуски будуть виходити більш вчасно.)

Далі буде.

 

вівторок, 14 червня 2011 р.

Шо далі?

Моє тривале мовчання пов'язане в першу чергу із відпусткою та деяким випаданням із контексту :), а по-друге із бажанням обдумати як всю мою теперішню діяльність можна покращити та масштабізувати чи що. Яким чином можна автоматизувати виявлення важливих (а не тільки частих, хоча можливо, частозгадуваний=важливий, в певній мірі..) подій і фактів в наборах відібраних текстів.. Наступні необхідні кроки, мабуть, - це виявлення частин мови та власних імен (англійською Part Of Speech та Named Entity Recognition). Тоді можна буде відфільтровувати та виявляти взаємозв'язки між акторами (хто робить) через дієслова (що робить) чи прислівники (де?, як?). Зараз, в принципі, це також можна зробити, вручну перелопативши велику кількість залежностей між словами відібравши необхідні. Але це великий обсяг роботи. Необхідна автоматизація (це чарівне слово)!) Крім того, скоріш за все, потрібен ще перехід на рівень тексту. Поясню. Зараз я працюю переважно на рівні речення. Це дозволяє мені визначити умовні відстані між словами в реченні та, через близькість до наперед відомих позитивних чи негативних слів, визначити їх сентиментне забарвлення. Також через визначення такої відстані в реченні між часто вживаними словами, побудувати їхні графи. Проте, напевно, виявлення таких зв'язків у реченні не відображає всієї суті аналізованого тексту. Не завжди (чи як правило) факти, імена чи події, які мають значний семантичний зв'язок (не) з'являються в одному і тому ж реченні і поєднані в один смисловий ланцюжок через інші члени речення. Це поки що лише ідеї, які потребують практичної перевірки...
А поки що як найпростіший крок, можна буде для двох вибраних слів визначати їх коефіцієнт лінійної кореляції через підрахунок кількості появи кожного слова в заданому наборі текстів. Тобто, якщо одне слово частіше з'являється в певних текстах і інше слово також, то ми можемо судити про їх деяку поєднаність. А обчислений коеф. кореляції використовувати у графах як силу зв'язку між двома словами. Спробую, тоді напишу про результати.
Ще що необхідно - так це збільшення масштабів отримання текстів. Причому як із новиннєвих сайтів, так і блогів. І тут дорога лише на пошуковик (читай Google). Цим я зараз і зайнятий інтенсивно. Пишу інструментарій для роботи із інтерфейсом послуги Google Search. А ше думаю, думаю...)) Взагалі в теорії це має бути щось типу надбудови над пошуковою системою (пошуковик над пошуковиком), яка при заданих категоріях пошуку і часового проміжку (якщо це необхідно) видає кольоровий граф взаємозв'язків між словами із відображенням сили зв'язків та сентиментної спрямованості його вершин (слів). А далі вже на основі отриманого графу проводиться аналіз самих слів та їх зв'язків. В принципі, це цілком можливо виконати.
Поки що це все. Якщо в когось є якісь питання-побажання-поради, буду радий поспілкуватись.
 


неділя, 17 квітня 2011 р.

Тиждень 1115. Кучма-3.

Поглянемо, що цікавого приніс нам новий тиждень (4-10 квітня).

Загальний розмір словника тижня був на рівні попереднього - 60К слів, що є на 30% менше ніж за всі інші тижні. Можливо, це пов'язано із відсутністю протягом останніх двох тижнів постів із форуму сайту FOR-UA у корпусі текстів. Цей форум переїжджав на інший хостинг і був не надто активний за цей період. Хоча, звісно, третина всього розміру - це значна частина словника і малоімовірно, щоб будь-яке джерела інформації в нашому випадку могло зхаповнювати таку частину контекстного середовища... Подивимось, яка картина буде в наступні тижні. Кількість вживань кожного слова зросла до 15. Процент нових слів був на рівні минулих тижнів - 4%. Отже, швидше за все нас чекає дещо збільшені взаємозалежності між основними найвживанішими словами.

А такими словами були наступні:

"Кучма", як і два минулих тижні, посідає перше місце. Хоча, напевне, це ненадовго. В першому десятку присутні нові слова "ндс" і "налог". Також новим є слово "послание". До 30 найвживаніших слів потрапили також "зарплата" і "вто". "Земля" присутнє практично у всіх тижнях.

Тепер подивимось на граф тижня.

Цього тижня немає такого вираженого негативного сегменту, як у попередньому. Граф є досить сильно зв'язаним, а основними центрами є слова "президент" (+0.23), "украина" (+0.21), "янукович" (+0.38), "глава" (+0.28), "государство" (+0.28), "будет" (+0.27) і "виктор" (+0.36). Скоріш за все це пов'язано із виступом Президента у Верховній Раді зі щорічним посланням ("послан" +0.57). Основними центрами із негативним сентиментним значенням є як і раніше "кучма" (-0.18) - "гонгадзе" (-0.31), а також "уголовный" (-0.99), "убийство" (-0.46), "обвиняемый" (-0.66), "ознакомлен" (-0.89), следователь" (-0.58). Ще одним не таким явним є негативний центр із словом "проблема" (-0.99), яке поєднане з "реформа" (+0.97), "янукович", "будут" (+0.34), "система" (+0.34), "украина", "страна" (+0.28), "вто" (+0.32), "экономика" (+0.51), "барьер" (+0.85), "модернизация" (+0.77) і "качественный" (+0.97).

Поглянемо ще на деякі цікаві слова окремо.

Слово "зарплата" (+0.23), найбільш пов'язана із "газ" (+0.10), "налог" (+0.01), "будут", "закон" (+0.07), "товар" (+0.28), "фонд" (+0.28), "конверт" (+0.07), "плата" (+0.34), "пенси(і)я" (+0.20) і "выплата" (+0.03). "Налог" же в свою чергу має контекст із "зарплата", "бюджет" (+0.10), "доход" (-0.22), "млрд" (+0.12), "расход" (-0.05), "размер" (-0.08), "сбор" (-0.11), "уплата" (-0.55).

"Земля" найбільш асоціюється із "люди" (+0.08), "одна" (+0.13), "друго(и)й" (+0.22), "день" (+0.20), "житель" (+0.25), "таких" (+0.08), "товар", "нефть" (+0.31), "банк" (+0.31), "кредит" (+0.38), "земельны(и)й" (+0.61), "центральны(и)й" (+0.27), "брать(и)" (-0.21).

Про "вто" пишуть разом із "проблема", "свободный" (+0.95), "соглашение" (+0.49), "политический" (+0.12), "задача" (+0.42), "вступление" (+0.50), "требует" (-0.05), "ставить" (+0.19), "последствия" (-0.18), "секретариат" (+0.23) і "наличие" (+0.59).

Наразі це все. Далі буде.

 

середа, 13 квітня 2011 р.

Тиждень 1114. Кучма-2.

Які нові слова та взаємозв'язки між ними приніс нам тиждень №14 (28 березня -3 квітня)? Подивимось.

Спочатку загальні дані.

За цей тиждень було використано всього близько 63К унікальних слів, що на 30% менше ніж у попередні тижні. Середня кількість повторів кожного слова також була найнижчою від початку року - 13.8. Процент нових слів серед відібраних знаходився на рівні попередніх тижнів - 4.4%. Тобто говорили не багато, використовуючи ті самі слова з невеликою кількістю нових.

Як і попереднього тижня, із великим відривом лідирує слово "кучма". Також серед впізнаваних слів-прізвищ є "тимошенко", "мельниченко", "янукович", "гонгадзе" і "луценко". З першої тридцятки зникли слова, що відносяться до подій у Японії та Лівії.

Поглянемо тепер на загальний граф найцікавіших слів.

Цього тижня також, як і попереднього присутній яскраво виражений сектор негативних слів. Можна сказати, що ця частина графу є найбільшою із наведених 200 найвиразніших слів. Найбільш зв'язаним із іншими знову виступає слово "кучма" (-0.40). Найбільш поєднаними із ним є слова "экс" (-0.27), "тимошенко" (+0.17), "янукович" (+0.29), "гонгадзе" (-0.39), "ющенко" (+0.38), "прокуратура" (-0.37), "реформа" (+0.91), "свобода" (+0.99), "рейтинг" (+0.71), "хорошо(ий)" (+0.91), "фарс" (-0.83).. За бажання, тут можна знайти ще кілька цікавих зв'язків в інших частинах графа..)

Наведу ще кілька цікавих графів окремих слів.

Тут про поїздку нашого президента до Брунею. "Бруней" (+0.31) має найсильніші зв'зки із "янукович", "проводит" і "нефть" (+0.10).

 

Наразі це все. Далі буде.

 

вівторок, 5 квітня 2011 р.

Тиждень 1113. Кучма.

Подивимось, що нам приніс новий тиждень (21-27 березня).

Кількість задіяних слів становила понад 88К слів, середня кількість повторів слів - більше 16. Відносна кількість нових слів зменшилась до 3.5%.

Найголовнішими цього тижня були такі слова.

Як бачимо, безаперечним лідером повідомлень минулого тижня було слово "кучма". Крім нього іншими (та прямо пов'язаними із ним) словами-прізвищами були "мельниченко" і "гонгадзе". Всі вони ознаменовують гучну тему порушення кримінальної справи троти екс-президента Л.Кучми кримінальної справи щодо службової халатності, яка призвела до загибелі журналіста Г.Гонгадзе. А також пов'язані із цією справою спічі колишнього охоронця М.Мельниченка. Також доволі актуальною в нашому медійному просторі була лівійська тема: "ливия" і "каддафі(и)" займають відповідно 7-е та 21-е місця.

Подивимось тепер на граф найцікавіших слів.

У графа цього тижня було два основних слова, які мають найбільшу кількість зв'язків і навколо яких побудовані два основних кластери - це "украина" (-0.13) і "кучма" (-0.56). Перше стосується різноманітних сторін життя держави, як то "россия" (+0.22), "грузі(и)я" (+0.28), "русь" (+0.28), "парті(и)я" (+0.26), "дело" (-0.36), "хорошо" (+0.92), "лучше" (+0.95), "против" (-0.36), "плохо" (-0.93), "развитие" (+0.96), "белорусский" (+0.41) тощо. Друге відноситься до теми зазначеної вище. Практично всі слова цього кластеру мають негативний сентиментний відтінок. Наведу лише слова, які означають прізвища пов'язаних персонажів: "гонгадзе" (-0.74), "мельниченко" (-0.46), "литвин" (-0.42), "пукач" (-0.54), "чорновил" (-0.47), "кравченко" (-0.62), "кузьмин" (-0.79), "ульянченко" (-0.56), "мороз" (-0.43), "салов" (-0.62). Більшість цих слів також зв'язані між собою. Наприклад, "литвин" поєднане із "кучма", "гонгадзе", "мельниченко", "кравченко", "ульянченко", "запис(ь)" (-0.52) і "генпрокурор" (-0.72). Маємо щільний клубок із прізвищ і подій...

Поглянемо на граф найбільше з'єднаних слів.

Тут можна побачити групи слів, які мають найсильніші зв'язки. Наприклад, можна побачити, що "кучма", крім всього іншого, поєднане також із "президент" (-0.13), "тимошенко" (-0.09), "янукович" (+0.12), "каддафі(и)" (+0.19), "ющенко" (-0.06)...

Поки що все. Далі буде.

 

 

субота, 26 березня 2011 р.

Тиждень 1112.

12-го тижня загальна статистика використання слів була на рівні попередніх тижнів: 92К слів тижневого словника, 15 повторів кожного слова і 5% нових слів серед відібраних для аналізу.

Найважливішими цього тижня були такі слова.

Дивним чином "ливия" опинилась на першому місці, випередивши найважливіші для нас слова "украина" та "україна". Я к і попереднього тижня в перших рядках перебувають "россия", "депутат" і "тимошенко". Далі йдуть "реактор" та "японі(и)я", що зрозуміло. В першій двадцятці також з'явились "каддафі(и)", "реформа" і "пенсионный". Серед тридцяти найважливіших за 12-ий тиждень слів були також прізвища "янукович" та "литвин".

Подивимось тепер, як виглядає граф найвиразніших слів цього тижня.

Як бачимо, центральним словом цього тижня було "год" (+0.19), яке має велику кількість зв'язків з іншими словами, такими як "ливия" (+0.13), "земля" (+0.29), "жизнь" (+0.31), "будет" (+0.23), "крым" (+0.44), "бог" (+0.33), "парті(и)я" (+0.20), "система" (+0.31), "народни(ы)й" (+0.39), "регион" (+0.41), "зарплата" (+0.35), "необходимо" (+0.41), "лучше" (+0.94), "развитие" (+0.89), "зона" (+0.36), "государство" (+0.28), "хорошо" (+0.94), "плохо" (-0.86), "хуже" (-0.97) та іншими. Гарне та велике слово "реформа" (+0.95) пов'язана із "пенсионный" (+0.51), "депутат" (+0.43), "верховни(ы)й" (+0.29), "парламент" (+0.47), "законопроект" (+0.40), "парті(и)я", "система", "добре" (+0.95) і "слабо" (-0.98)... Тобто, все на рівні не закону, а лише його проекту, не говорячи вже про їх (реформ) впровадження...

Небувала до цього активність проявилась у слова "литвин" (+0.46). Воно поєднувалось із "янукович" (+0.26), "фракці(и)я" (+0.54), "парламент", "верховни(ы)й", "законопроект", "наливайченко" (-0.47), "сенсорний" (+0.75), "кнопка" (+0.73), "ефремов" (+0.67), "яценюк" (+0.53) і "кужель" (-0.78). Головною темою у Вреховній Раді було впровадження пресоналізованої системи голосування за допомогою сенсорної кнопки та коментарі державних мужів, про що свідчать зв'язки слова "сенсорний" із "голосование" (+0.32), "фракці(и)я", "парламент", "литвин", "наливайченко", "скучать" (+1.0)..))

Поглянемо тепер на слова із наміцнішими зв'язками.

Тут можемо побачити більше зв'язків слів жовтого кольору (із сентиментними значеннями близькими до нуля). Наприклад, що "тимошенко" (-0.03) поєднане із "парті(и)я", "президент" (+0.16), "янукович", "заявила" (+0.18), "глава" (+0.24), "реформа".

На сьогодні все. Далі буде.

 

вівторок, 22 березня 2011 р.

Тиждень 1111.

Поглянемо, що приніс нам 11-ий тиждень (7-13 березня).

Розмір тижневого словника продовжував триматися вище позначки 90К слів. Кількість повторювань слів та відносна кількість нових слів також були на рівні попередніх тижнів.

Подивимось на 30 найважливіших (за TFIDF) слів цього тижня.

На перші місця 11-го тижня, як не дивно, вийшло мовне питання ("русский", "мова", "язык"). В першій десятці (знову) опинилась "тимошенко", суттєво обігнавши і "президент", і "янукович", який цього тижня пас задніх. Звісно, не могли пройти непоміченими і події в Японії, в другій двадцятці спостерігаємо розташовані підряд "реактор", "японі(и)я" та "землетрясение". Ще з'явились такі нові слова, як "премі(и)я", "шевченко" і "каддафі(и)". Їх оточення ми розглянемо пізніше.

Зараз подивимось на загальний граф тижня із двома сотнями найцікавіших (за СЗС) слів.

Цього тижня особливо були активними форуми, про що можна судити із наявності числених гілок із ніками користувачів та емоційно насиченими словами. З цього приводу прошу вибачення за наявність у графі слів із ненормативною лексикою. Як то кажуть, "слів із пісні...". Що цікаво, у загальний граф не потрапили прізвища жодних політиків чи відомих людей. Це свідчить про їх низьке сентиментне забарвлення (близьке до нуля).

Тепер поглянемо на граф слів, які мають сильні зв'язки із іншими словами (коефіцієнт наближеності від 0.33 до 1.0). Це дозволить нам оцінити, які слова з якими найчастіше вживались.

Тут ми бачимо кілька знайомих прізвищ. "Янукович" (+0.19) крім всього іншого поєднаний із "простий", "тимошенко" (-0.06), "компані(и)я", "реформа", "азаров" (+0.23), "ющенко" (-0.13). "Тимошенко" - із "азаров" (+0.15), "сша" (+0.10), "депутат", "парті(и)я".

Цікава історія із словом "премі(и)я" (+0.04).

Воно має зв'язки із "шкляр" (+0.22), "сказал", "заявил", "шевченковская" (+0.06), "вручение" (-0.43), "посетить" (-0.25). Від'ємні сентиментні значення двох останніх слів свідчать про їх негативний контекст. Мова йшла про відмову письменника В.Шкляра відвідати церемонію вручення літературної Шевченківської премії на знак протесту проти політики Міністерства освіти та культури.

Щодо 11-го тижня це все. Далі буде.

 

неділя, 13 березня 2011 р.

Тиждень 1110.

Перш ніж розглядати, що нам приніс новий тиждень, хочу повідомити, що кількість українських інтернет-видань збільшилась на сім: ПОДРОБНОСТИ (podrobnosti.ua), УРА-Информ (ura-inform.com), GLAVRED.INFO (glavred.info), MIGnews.com.ua (mignews.com.ua), УНІАН (unian.net), Донбасс.ua (donbass.ua) і Україна сьогодні (www.ua-today.com). Тепер повний список джерел виглядає наступним чином.
Що ж, почнемо.
Як бачимо, 10-го тижня, як і попередні два кількість унікальних слів перевищувала 90К. Кількість повторів слова таков на рівні минулих тижнів - трохи менше 15. Як і відносна кількість нових слів із відібраних - біля 8%.
Найважливішими були наступні слова.
Минулого тижня із суттєвим відривом найчастіше вживались слова "украина", "україна" і "депутат". "Тимошенко" також небажає пасти задніх і випереджає навіть "янукович". Вцілому, окрім слів "самолет" (з публікацій про катастрофу літака АН-158 в Росії) і "гумилёв" (з форумів про інтерв'ю відомого російського історика Л.Гумільова) серед 30-ти найперших слів більше нових слів не спостерігалось.
Поглянемо тепер, як змінювалась сентиментна складова деяких із зазначених слів з початку року.
Взагальному, "президент" і "янукович" мають однакові сентиментні значення на рівні +0.2...+0.25 і є тотожними. 9-го тижня обидва слова мали трохи більші значення (+0.31, +0.38 відповідно), ніж в інші тижні. Це пов'язано, мабуть, із телепередачею "Спілкуванням із народом" президента, яке відбулось цього тижня. "Власть" потрохи покращувала свої показники із -0.04 до +0.14. Так само, як і "тимошенко", хоча її значення сентиментів за період коливалось від -0.31 до +0.15, а середнє було на рівні -0.1. "Украина" ж має "невеселі" значення, зазвичай менші від +0.15. Та й в "опозиція" справи не кращі: від -0.34 до +0.12, в середньому - 0... Найнижче її значення було того ж таки 9-го тижня, мабуть також через "Спілкуванням із народом".
Тепер поглянемо на графи слів. Почнемо, як завжди, із найвиразніших (за СЗС) слів.
Як можна бачити, минулого тижня зв'язків між собою у цих слів було не так і багато. Найперше кидається в очі розлога гілка негативних слів "прокуратура" - "генпрокуратура" - "лазаренко" - "пукач" - "уголовный" і т.д. Піднімали "оскоминні" теми про повернення в Україну грошей П.Лазаренка та продовження терміну перебування під вартою О.Пукача. На форумах обговорювали заробітчан ("мойщик"(+0.52) - "унитаз"(+0.31) - "заробитчанин"(-0.76)), а ще "глонасс"(-0.65) - "спутник"(-0.50) - "герметичность"(-0.83) - "микросхема"(-0.86) і повідомлення блогера з Твіттера про особливості організації його зустріч із заст. голови адміністрації Президента Росії В.Сурковим ("блоггер"(-1.0) - "сурков"(-0.67) - "взятка"(-1.0)).
Поглянемо на ще кілька нових слів.
Неменш цікавою була тема "детонатор"(-0.22) - "плутониевый"(-0.33) - "триггер"(-0.75) - "термоядерный"(-0.43)... 
На завершення, графи кількох цікавих слів.
Тут цікавий зв'язок слів "каддафи"(-0.17) - "ливия"(-0.02) - "украина" - "виктор" - "янукович" - "город"(-0.06). Мабуть, йдеться про розпорядження президента знайти, чи не отримував в аренду уряд Каддафі землю в Україні при попередньому уряді.
Ну а це - хліб насущний: "гречка"(-0.43) - "бензин"(-0.14) - "продукты"(-0.21) - "китай"(-0.01) - "мясо"(+0.23) - "сало"(+0.13).
На сьогодні все. Далі буде.