Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

субота, 26 березня 2011 р.

Тиждень 1112.

12-го тижня загальна статистика використання слів була на рівні попередніх тижнів: 92К слів тижневого словника, 15 повторів кожного слова і 5% нових слів серед відібраних для аналізу.

Найважливішими цього тижня були такі слова.

Дивним чином "ливия" опинилась на першому місці, випередивши найважливіші для нас слова "украина" та "україна". Я к і попереднього тижня в перших рядках перебувають "россия", "депутат" і "тимошенко". Далі йдуть "реактор" та "японі(и)я", що зрозуміло. В першій двадцятці також з'явились "каддафі(и)", "реформа" і "пенсионный". Серед тридцяти найважливіших за 12-ий тиждень слів були також прізвища "янукович" та "литвин".

Подивимось тепер, як виглядає граф найвиразніших слів цього тижня.

Як бачимо, центральним словом цього тижня було "год" (+0.19), яке має велику кількість зв'язків з іншими словами, такими як "ливия" (+0.13), "земля" (+0.29), "жизнь" (+0.31), "будет" (+0.23), "крым" (+0.44), "бог" (+0.33), "парті(и)я" (+0.20), "система" (+0.31), "народни(ы)й" (+0.39), "регион" (+0.41), "зарплата" (+0.35), "необходимо" (+0.41), "лучше" (+0.94), "развитие" (+0.89), "зона" (+0.36), "государство" (+0.28), "хорошо" (+0.94), "плохо" (-0.86), "хуже" (-0.97) та іншими. Гарне та велике слово "реформа" (+0.95) пов'язана із "пенсионный" (+0.51), "депутат" (+0.43), "верховни(ы)й" (+0.29), "парламент" (+0.47), "законопроект" (+0.40), "парті(и)я", "система", "добре" (+0.95) і "слабо" (-0.98)... Тобто, все на рівні не закону, а лише його проекту, не говорячи вже про їх (реформ) впровадження...

Небувала до цього активність проявилась у слова "литвин" (+0.46). Воно поєднувалось із "янукович" (+0.26), "фракці(и)я" (+0.54), "парламент", "верховни(ы)й", "законопроект", "наливайченко" (-0.47), "сенсорний" (+0.75), "кнопка" (+0.73), "ефремов" (+0.67), "яценюк" (+0.53) і "кужель" (-0.78). Головною темою у Вреховній Раді було впровадження пресоналізованої системи голосування за допомогою сенсорної кнопки та коментарі державних мужів, про що свідчать зв'язки слова "сенсорний" із "голосование" (+0.32), "фракці(и)я", "парламент", "литвин", "наливайченко", "скучать" (+1.0)..))

Поглянемо тепер на слова із наміцнішими зв'язками.

Тут можемо побачити більше зв'язків слів жовтого кольору (із сентиментними значеннями близькими до нуля). Наприклад, що "тимошенко" (-0.03) поєднане із "парті(и)я", "президент" (+0.16), "янукович", "заявила" (+0.18), "глава" (+0.24), "реформа".

На сьогодні все. Далі буде.

 

вівторок, 22 березня 2011 р.

Тиждень 1111.

Поглянемо, що приніс нам 11-ий тиждень (7-13 березня).

Розмір тижневого словника продовжував триматися вище позначки 90К слів. Кількість повторювань слів та відносна кількість нових слів також були на рівні попередніх тижнів.

Подивимось на 30 найважливіших (за TFIDF) слів цього тижня.

На перші місця 11-го тижня, як не дивно, вийшло мовне питання ("русский", "мова", "язык"). В першій десятці (знову) опинилась "тимошенко", суттєво обігнавши і "президент", і "янукович", який цього тижня пас задніх. Звісно, не могли пройти непоміченими і події в Японії, в другій двадцятці спостерігаємо розташовані підряд "реактор", "японі(и)я" та "землетрясение". Ще з'явились такі нові слова, як "премі(и)я", "шевченко" і "каддафі(и)". Їх оточення ми розглянемо пізніше.

Зараз подивимось на загальний граф тижня із двома сотнями найцікавіших (за СЗС) слів.

Цього тижня особливо були активними форуми, про що можна судити із наявності числених гілок із ніками користувачів та емоційно насиченими словами. З цього приводу прошу вибачення за наявність у графі слів із ненормативною лексикою. Як то кажуть, "слів із пісні...". Що цікаво, у загальний граф не потрапили прізвища жодних політиків чи відомих людей. Це свідчить про їх низьке сентиментне забарвлення (близьке до нуля).

Тепер поглянемо на граф слів, які мають сильні зв'язки із іншими словами (коефіцієнт наближеності від 0.33 до 1.0). Це дозволить нам оцінити, які слова з якими найчастіше вживались.

Тут ми бачимо кілька знайомих прізвищ. "Янукович" (+0.19) крім всього іншого поєднаний із "простий", "тимошенко" (-0.06), "компані(и)я", "реформа", "азаров" (+0.23), "ющенко" (-0.13). "Тимошенко" - із "азаров" (+0.15), "сша" (+0.10), "депутат", "парті(и)я".

Цікава історія із словом "премі(и)я" (+0.04).

Воно має зв'язки із "шкляр" (+0.22), "сказал", "заявил", "шевченковская" (+0.06), "вручение" (-0.43), "посетить" (-0.25). Від'ємні сентиментні значення двох останніх слів свідчать про їх негативний контекст. Мова йшла про відмову письменника В.Шкляра відвідати церемонію вручення літературної Шевченківської премії на знак протесту проти політики Міністерства освіти та культури.

Щодо 11-го тижня це все. Далі буде.

 

неділя, 13 березня 2011 р.

Тиждень 1110.

Перш ніж розглядати, що нам приніс новий тиждень, хочу повідомити, що кількість українських інтернет-видань збільшилась на сім: ПОДРОБНОСТИ (podrobnosti.ua), УРА-Информ (ura-inform.com), GLAVRED.INFO (glavred.info), MIGnews.com.ua (mignews.com.ua), УНІАН (unian.net), Донбасс.ua (donbass.ua) і Україна сьогодні (www.ua-today.com). Тепер повний список джерел виглядає наступним чином.
Що ж, почнемо.
Як бачимо, 10-го тижня, як і попередні два кількість унікальних слів перевищувала 90К. Кількість повторів слова таков на рівні минулих тижнів - трохи менше 15. Як і відносна кількість нових слів із відібраних - біля 8%.
Найважливішими були наступні слова.
Минулого тижня із суттєвим відривом найчастіше вживались слова "украина", "україна" і "депутат". "Тимошенко" також небажає пасти задніх і випереджає навіть "янукович". Вцілому, окрім слів "самолет" (з публікацій про катастрофу літака АН-158 в Росії) і "гумилёв" (з форумів про інтерв'ю відомого російського історика Л.Гумільова) серед 30-ти найперших слів більше нових слів не спостерігалось.
Поглянемо тепер, як змінювалась сентиментна складова деяких із зазначених слів з початку року.
Взагальному, "президент" і "янукович" мають однакові сентиментні значення на рівні +0.2...+0.25 і є тотожними. 9-го тижня обидва слова мали трохи більші значення (+0.31, +0.38 відповідно), ніж в інші тижні. Це пов'язано, мабуть, із телепередачею "Спілкуванням із народом" президента, яке відбулось цього тижня. "Власть" потрохи покращувала свої показники із -0.04 до +0.14. Так само, як і "тимошенко", хоча її значення сентиментів за період коливалось від -0.31 до +0.15, а середнє було на рівні -0.1. "Украина" ж має "невеселі" значення, зазвичай менші від +0.15. Та й в "опозиція" справи не кращі: від -0.34 до +0.12, в середньому - 0... Найнижче її значення було того ж таки 9-го тижня, мабуть також через "Спілкуванням із народом".
Тепер поглянемо на графи слів. Почнемо, як завжди, із найвиразніших (за СЗС) слів.
Як можна бачити, минулого тижня зв'язків між собою у цих слів було не так і багато. Найперше кидається в очі розлога гілка негативних слів "прокуратура" - "генпрокуратура" - "лазаренко" - "пукач" - "уголовный" і т.д. Піднімали "оскоминні" теми про повернення в Україну грошей П.Лазаренка та продовження терміну перебування під вартою О.Пукача. На форумах обговорювали заробітчан ("мойщик"(+0.52) - "унитаз"(+0.31) - "заробитчанин"(-0.76)), а ще "глонасс"(-0.65) - "спутник"(-0.50) - "герметичность"(-0.83) - "микросхема"(-0.86) і повідомлення блогера з Твіттера про особливості організації його зустріч із заст. голови адміністрації Президента Росії В.Сурковим ("блоггер"(-1.0) - "сурков"(-0.67) - "взятка"(-1.0)).
Поглянемо на ще кілька нових слів.
Неменш цікавою була тема "детонатор"(-0.22) - "плутониевый"(-0.33) - "триггер"(-0.75) - "термоядерный"(-0.43)... 
На завершення, графи кількох цікавих слів.
Тут цікавий зв'язок слів "каддафи"(-0.17) - "ливия"(-0.02) - "украина" - "виктор" - "янукович" - "город"(-0.06). Мабуть, йдеться про розпорядження президента знайти, чи не отримував в аренду уряд Каддафі землю в Україні при попередньому уряді.
Ну а це - хліб насущний: "гречка"(-0.43) - "бензин"(-0.14) - "продукты"(-0.21) - "китай"(-0.01) - "мясо"(+0.23) - "сало"(+0.13).
На сьогодні все. Далі буде.

неділя, 6 березня 2011 р.

Тиждень 1109.

Поглянемо, про що писали тижня 1109 (21-27 лютого). Спочатку загальна статистика.

Розмір загального словника (біля 93К слів) був на рівні попереднього тижня, середня кількість вживань кожного слова теж сильно не змінилась.

Процент нових слів для всього тижневого словника за два останні тижні зріс через дозвіл на занесення до нього слів на латиниці. Як бачимо, це спричинило подвоєння кількості нових слів у ньому. А от відносна кількість нових слів серед відібраних, після деякого "просідання" за 6-7 тижні, залишилась практично на "стандартному" рівні 8-9%. Тобто, за відібраного словника слів на латиниці потрапляє дуже незначна кількість (TFIDF-значення цих слів є непеважно невеликими).

Подивимось, якими були найважливіші три десятки слів за тиждень.

Окрім постійно-використовуваних, з'явились такі слова як "евро", "армия", "нато", "обижать", "женщина". Пізніше ми поглянемо на ближче. А поки загальний граф двох сотень слів із найбільшим СЗС та зв'язками.

Порівняно із минулим тижнем цього тижня найвживаніші (найбільші) слова мають значно більшу кількість зв'язків, особливо такі слова як "страна", "президент", "украина", "янукович" і "год". Мабуть, це пов'язано із "Розмовою із народом" (не з президентом)), присвячену року президентства В.Януковича, яка відбулась 25-го лютого і яку транслювали найбільші телеканали країни. Серед інших "великих" слів можна відмітити "конституц(і)ия", "конституционный", "ассамблея", "кравчук" - ці слова описували процес створення Конституційної Асамблеї України для внесення змін до Конституції, головою якої президент країни призначив екс-президента Л.Кравчука. Серед інших слів були популярними "сша", "нато", "арм(і)ия", "мужчина", "женщина". Серед нових прізвищ минулого тижня лунали "каддаф(і)и" та "расмуссен". Причому, всі ці слова мали досить суттєвий позитивний відтінок (+0.30...+0.40). Цікаво, що слово "друзі" також досить часто використовували минулого тижня проте воно має відверто негативне навантаження (-0.59), скоріш за все його використовували як поняття "любих друзів" у владі, яке з'явилось ще за минулого президента та у "простонародьи" інтенсивно тоді використовувалось для описування безнаказаної і тотальної корупції у владних структурах. Ще цікавим є зв'язок слова "голодомор" (-0.98) із словами "янукович", "слово" і "наука". З чим це пов'язано, кожен хай вирішує для себе сам...

Шо ж, поглянемо тепер на деякі слова детальніше.

"Евро", як бачимо, в основному пов'язане із проведенням чемпіонату Європи-2012: "город", "украинцы", "человек", "год", і має, проте, негативний контекст -0.10.

"Арм(і)ия" використовуалась разом з "первая", "человек", "нова(я)", "компан(і)ия", "сша", "красная", "упа", "ссср".

"Нато" (+0.30) вживалось в контексті візиту генсека НАТО А. ф. Расмусена до України: "секретар(ь)", "генсек", "расмуссен", "альянс", "блок", "визит", "переговор(и)ы", "литвин", "гриценко".

Ну, з цим товаришем все зрозуміло: "каддаф(і)и" (+0.31) використовували разом із "муаммар", "война" (+0.14), "ливия" (-0.13), "ливийский" (+0.04), "лидер", "заявил", "аль" для опису однойменних подій, які зараз відбуваються в Лівії, хоча також є зв'язок із "юлия" (+0.12). До чого б це...:)

Перейдемо до більш приємніших слів. "Женщина" найбільший зв'язок має із "мужчина", "человек", "процесс", "население", "русская", "больше" і "вещь(и)".) "Мужчина" ж в свою чергу, із "женщина", "вопрос", "более" і "больше".

Як ми і припускали, "друзі" в основному пов'язані із родинними зв'язками (у владі): "янукович", "верный", "знає", "плохо(й)", "жена", "родственник", "знайомий", а також міжнародні відносини: "нато", "мнение", "отметил", "лукашенко".

На сьогодні все. Далі буде.

 

вівторок, 1 березня 2011 р.

Тиждень 1108.

Сьогодні розглянемо про що писалося 8-го тижня (14-20 січня). Затримка із опублікуванням результатів викликана сумнівами (вже вкотре) щодо правильності обраного алгоритму визначення міри близькості слів між собою та обчислення сентиментного значення слова.

Поясню детальніше. Міра близькості одного слова до іншого в наборі текстів, як правило, визначається як обчислення коефіцієнта подібності (переважно косинусної) між контекстними векторами цих слів. Ці вектори, в свою чергу, обчислюються як простий підрахунок кількості потраплянь кожного із слів, відібраних для формування вектора, у вікно огляду для даного слова в речені у всіх текстах корпусу. Принаймні такий метод я знайшов у літературі. Я вирішив спробувати інший метод: вектор контексту являє собою набір середніх відстаней (відносних позицій) кожного із відібраних слів до поточного слова у речені для всього набору текстів. Виходить шось типу набір координат у багатомірному просторі, чим більш схожі координати, тим два слова знаходяться ближче одне до одного. Так от, після кількох текстів, я переконався, що мій метод визначення контекстних векторів є більш гнучким і формує точніші взаємозв'язки мід словами у реченні. Він використовувався і до цього в моїх постах, і використовуватиметься й надалі (принаймні, поки що).

Обчислення сентиментного спрямування слова також може обчислюватись двома способами: коли його обрахунок проводиться відразу по всьому корпусу текстів і коли сентиментні значення слова обчислюються для кожного тексту окремо, а потім, для визначення результуючого значення, їх знакові значення додаються. Як показав аналіз результатів таких обчислень по кількох текстах, в першому випадку суттєві сентиментні значення отримують лише 10% відібраних слів, а переважна більшість слів має білянульове значення. Тобто, при формуванні великого контекстного вектора по вьому набору текстів, для більшості слів такі вектори є досить схожими. Для другого випадку сентиментні значення слів мають більш контрастний характер і більш схожі на правду. Цей метод обчислення я також завжди використовував у своєму аналізі. Отже, ще раз підтвердилась правильність вибраних методів отримання результатів.

Почнемо огляд 8-го тижня року. 

Кількість слів становила трохи більше 94К слів, що на 10+% більше від попереднього максимального значення із початку року. Це можна пояснити тим, що із цього тижня відбираються також слова, написані латиницею. І цього тижня їх набралось більше 7К слів. Інтенсивність використання кожного слова була на рівні попереднього тижня - близько 15 повторів.

Список 30-ти найбільш важливих (за TFIDF) слів.

8-го тижня, як і попереднього, "язык", а також "тимошенко" по популярності випередили "президент" і "янукович".

Перейдемо до графів. Спочатку дві сотні слів із найбільшим СЗС.

І знову бачимо, що найбільш вживані/важливі (з великим шрифтом) слова мають семантичне значення трохи більше нуля (+0.1...+0.2). Серед найбільш обговорюваних можна виділити (окрім постійних "украина", "україна" та "президент") знову ж таки "реформа", "свобода" (обидва з великому позитивному сенсі +0.95), "русь"(?), "государство", "страна", "земля", "законопроект", "пенсія" і "зарплата". Цього тижня навіть в перші дві сотні слів не потрапили "янукович" і "тимошенко". Причиною тому є низька сентиментна складова СЗС. В першого вона складає +0.16, в другого - -0.08... Зате потрапив "литвин" (+0.41) в поєднанні із "законопроект" і "парламент". Через досить великі сентиментні значення негативного спрямування також з'явились такі слова як "онопенко" (прізвище Голови Верховного Суду України, -0.29) та "данилишин" (це прізвище колишнього міністра економіки вже давно фігурує в ЗМІ, -0.70). Досить широко представлені ніки учасників форумів, які мають відгалуження починаючи із "написав" і "написал". Як і попереднього тижня, присутні форумні "розбірки" по лінії "население" - "геноцид" - "голодомор" та інші не менш цікаві гілки..:)

Тепер розглянемо графи деяких цікавих, на мій погляд, слів детальніше.

"Янукович", як і раніше, також поєднаний із "тимошенко". Це пов'язане із відкритими кримінальними справами щодо останньої і серії звинувачень, в свою чергу, Ю.Тимошенко на адресу В.Януковича.

Поглянемо ще на кілька прізвищ колишніх членів уряду Ю.Тимошенко, про яких писали приблизно в однаковому контексті відкриття стосовно них кримінальних справ.

В.Онопенко, Голова ВСУ, в нього був проведений обшук прокуратурою під приводом відкриття справи проти його молодшої дочки Ірини.

Б.Данилишин, екс-міністр економіки, перебуває в Чехії, отримав політичний притулок.

 

М.Поживанов, колишній Голова Держкомрезерву, перебуває в Австрії.

Є.Корнійчук, колишній перший заступник міністра юстиції, був затриманий, відпущений під підписку про невиїзд.

Ну і під кінець про податки.

"Бюджет" в контексті "налог" сприймається негативно.. Так само, як і "коррупция" при "ндс".. А от "упрощенка" від "ндс", як і можна було очікувати - практично на вершині позитивного сприйняття.

На сьогодні - все.

Далі буде.