Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

субота, 31 липня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 40.

Продовжую з тижнем №40 (19.07-25.07).



Tabl.1.gif



Draw.1a.gif



Draw.1b.gif



Draw.2.gif


Як бачимо, останній тиждень був урожайним. І по загальному словнику (більше 98 тис. слів - другий за величиною показник за всю історію), і по відібраному (рекорд - 155 слів). Крім того процент нових слів серед відібраних однаково високий, як і попереднього, 39-го, тижня (понад 16 %). Є всі шанси побачити серед найпопулярніших слів багато нових.



Tabl.2.36-40.gif


Отже, серед десяти найважливіших слів за останній тиждень з'явилось три нових слова: "российский", "саакашвили" і "лукашенко". Поглянемо на найближчі для кожного з десятки слова.



Tabl.3.40.gif


Серед всіх десяти слів найбільш виражений зв'язок з іншими словами у слова "президент". Минулого тижня це слово найчастіше вживалось в контексті українсько-російських відносин на фоні візиту російського прем'єра в Крим.


Інші слова, які з'являлись в текстах різних джерел:




























тут зачеплювалась тема візиту "Репортерів без кордонів" в Україну і їх результатам (вірніше відсутності таких - через відпустки Президента та його адміністрації)



тут висвілювалась тема візиту в Україну Патріарха Московської ПЦ Кирила




Ще два цікавих слова:
















цікаво, що "мир" найбільше (хоча і не надто впевнено) асоціюється з "русский", а от "война" значно переконливіше із "народ"; і обидва слова найбільше вживались російськими ЗМІ та, звісно, на форумах.



Тепер перейдемо до розподілу джерел на групи. Спочатку хмарина розподілу джерел за останні п'ять тижнів.




Cloud.buble.Week_36-40.gif


Як бачимо, вигляд хмарини даних продовжує змінюватись в бік розмивання кордонів груп. Примітно, що наскільки основні українські та російські джерела були семантично близькі одне до одного 39-го тижня, настільки віддаленими вони стали 40-го. Подивимось, можливо цей тиждень є початком зміни конфігурації самої хмарини. Також помітно, що скупчення форумів тепер більш розсіяне ніж раніше. Деякі форуми проникають в інші групи.


Тепер наведу найвживаніші слова для кожного кластера.



Tabl.4.36-40.gif


Отже, як розташувались джерела по групам на основі даних про кластери.




  1. Кластер 0. Скупчення трьох російських джерел: російську Дни.Ру за 36-ий тиждень, Газета.Ru за 36-ий тиждень і ИА REGNUM за 35-36-ий тижні. Темою тут були відносини між Росією та Молдовою та візитом американського держсекретаря Х.Клінтон у країни Східної Європи та Азії.



  2. Кластер 1, "група форумів
    ". Склад цієї групи знову змінився. Її членами є практично всі джерела з форумів (за виключенням форуму з УРА-Информ) та російські Комсомольская правда і ИА REGNUM. Тут як завжди суміш різноманітних тем.



  3. Кластер 2, "українська група". Зараз ця група поменшала. Тепер тут перебувають лише українські джерела 4POST, Час (5 Канал), Газета.ua, Факти (ICTV), Інтерфакс-Україна, Корреспондент.net і Репортер (Новий канал). Тут обговорюються загальноукраїнські теми.


  4. Кластер 3, "російська група". Ця група дещо побільшала: тепер сюди входять російські Лента.Ру, NEWSru.com, РБК і РИА НОВОСТИ, українські російськомовні ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ, Сегодня.ua і Вiкна-новини (СТБ) та західні ЗМІ від ИноСМИ.Ru.

  5. Кластер 4. Включає лише два російських джерела Дни.Ру і Газета.Ru за останній 40-ий тиждень. Тут висвітлювались теми про позиційних до нинішньої влади Росії президентів Білорусі та Грузії.

  6. Кластер 5, "

    прифорумна

    група
    ". Членів цієї групи побільшало, тепер сюди входять тільки українські Цензор.нет, DailyUA, GLAVRED.INFO, Українська правда, proUA.com, Версии.com, Вся-Правда, ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ та західні ЗМІ у викладі Корреспондент.net/Мир о нас і Newsru.ua. Вперше поза форумної групи виявилось джерело з форумів. Форуми з УРА-Информ перемістились також в цю групу. Тут висвітлюються загальноукраїнські теми, але з ухилом до форумів.

  7. Кластер 6. Тут перебуває лише українська Вiкна-новини за 36-ий тиждень. Темою тут була ситуція з літаком Президента, коли він через спеку не зміг вилетіти із Запоріжжя.

  8. "блукаюча група". Джерелами, які протягом останніх п'яти тижнів змінювали свої групи не менше трьох разів є три російські джерела Дни.Ру, Газета.Ru і ВЗГЛЯД.РУ.



  9. "нульова група". Без текстів 40-го тижня були українське ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ і російський ВЗГЛЯД.РУ.





Як бачимо, тривають постійні зміни в складах груп. Частина українських джерел перемістились із форумної та української груп у прифорумну групу, російська група трохи консолідувалася, а форуми дещо "розхитались". Що буде далі - побачимо.

Далі буде...

неділя, 25 липня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тижні 38-39.

Вибачте за тривале мовчання. Сьогодні наздоганятиму згаяне і розглядатимемо два останні тижні: 38-ий (05.07-11.07) та 39-ий (12.07-18.07).


Минулого тижня при формуванні текстів для російської Газета.Ru я виявив недоліки в параметрах очищення починаючи з 30-го тижня і до останнього. Так що тепер розміри словників за ці тижні дещо відрізнятимуться від попередньо поданих. І, звичайно, найвживаніші слова для цього джерела теж змінились.


Спершу загальна статистика.



Tabl.1.gif



Draw.1a.gif



Draw.1b.gif



Draw.2.gif


Як видно, останні два тижні були однаково досить багатослівними. Розміри сукупних словників перевищували 90 тис. слів, а розміри відібраних - планку в 140 слів.


По новизні, проте, ці тижні суттєво відрізняються: 38-го тижня процент нових слів серед відібраних особливо не відрізнявся від попередніх тижнів - біля 6 %, а останнього тижня підскочив до рівня більше 16 %. Отже, 39-го тижня серед джерел нам слід очікувати появу багатьох нових слів. Поглянемо на п'ятірки найважливіших слів по джерелам.



Tabl.2.35-39.gif


Десятка найвживаніших слів за два останні тижні практично не змінилась. Хіба що з неї вибуло слово "россия", яке тут перебувало останні кілька тижнів.



Tabl.3.38.gif
Tabl.3.39.gif


Хочу пояснити, чому числа кореляції стали такими малими порявняно з попередніми тижнями. Раніше кореляція двох слів вираховувалась в сумарних тижневих текстах кожного джерела. Оскільки в такий текст входять всі статті за тиждень для кожного джерела, обчислені взаємозалежності двох слів можуть бути хибними, тобто може бути виявлена залежність слів з різних статтей, шо не є правильно. Тому тепер для обчислення кореляції між двома словами всі тексти джерел попередньо розділяються на статті (а форуми - на пости). В результаті, якщо раніше розмір ряду, по якому обчислювався відповідний коефіцієнт, становив 43 (кількість всіх джерел), то тепер він становить 30-40 тис. Тому і отримуємо такі малі числа коефіцієнта кореляції.


Продовжу. 38-го тижня частовживаних нових слів було мало. Наприклад, можна згадати:





тут мова йшла про переговори уряду з МВФ щодо отримання кредиту;





це слово пов'язане з реформою податкового законодавства, яким безпосередньо займається віце-прем'єр С.Тігіпко, зокрема також піднімалось питання про ПДВ; значно активніше від інших цю тему висвітлював український Цензор.нет;





в даному випадку обговорювалось звільнення віце-прем'єра В.Семиноженка; найпристальніше цій темі приділяв увагу український Версии.com;


А от 39-го тижня можна зустріти цілу батарею нових слів. Перш за все - кілька нових прізвищ:





ця тема стосується конфлікту між головою Адміністрації Президента С.Льовочкіним та екс-міністром з надзвичайних ситуацій Н.Шуфричем;





тут описуються новини від опозиційних до теперішньої влади Росії президентів Грузії та Білорусі; звичайно, найбільше цій темі приділяють увагу російські NEWSru.com, Газета.Ru, Комсомольская правда і РИА НОВОСТИ;







тут "засвітились" нові прізвища з останніх призначень Президента на деякі посади.





тут зачіплена чи не найважливіша тема останнього тижня - підвищення ціни на газ для населення; примітно, що поряд із ЗМІ (російським Лента.Ру і українським Вiкна-новини) цю тему активно обговорювали і на форумах, особливо на сайті GLAVRED.INFO;


та й сам "газ", якщо 38-го тижня





він вживався виключно в контексті "стокгольмської справи" про повернення 11 млрд. м.куб. газу,


то 39-го тижня





це слово було практично синонімом зростання ціни для населення, як одну з ключових вимог МВФ.


Перейдемо тепер до опису груп джерел за останні п'ять тижнів. Спершу подам картинку розподілу джерел.




Cloud.buble.Week_35-39.gif


Також поглянемо на слова, які є характерними для кожного з семи кластерів:



Tabl.4.35-39.gif


Розподіл на групи за останні два тижні практично не змінився. На основі кластеризації можна виділити такі групи:




  1. Кластер 0. Представляє собою лише одне джерело: російську Комсомольская правда за 36-ий тиждень. Тут висвітлюється інтерв'ю з дослідником сталінізму Д.Лисковим.


  2. Кластер 1. Тут перебувають лише два російських джерела за 35-ий тиждень: Дни.Ру і Комсомольская правда. Темою тут є голодомор українського народу.


  3. Кластер 2, "

    прифорумна

    група
    ". Сюди відносяться українські Цензор.нет, Версии.com, Вся-Правда, російські Газета.Ru, NEWSru.com і ИА REGNUM, а також західні ЗМІ від ИноСМИ.Ru.


  4. Кластер 3. "група форумів
    ". Склад цієї групи дещо змінився. Тепер членами її є все ті ж джерела та українські proUA.com і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ.



  5. Кластер 4, "українська група". Ця група трихи погрубшала. Тепер її склад такий: українські 4POST, Час (5 Канал), DailyUA, Газета.ua, GLAVRED.INFO, Факти (ICTV), Інтерфакс-Україна, Корреспондент.net, Репортер (Новий канал) і Українська правда та західні ЗМІ з Корреспондент.net/Мир о нас і Newsru.ua.





  6. Кластер 5. Включає лише один російський ВЗГЛЯД.РУ за 35-ий тиждень. Темою цього кластеру були вибори в Польщі.





  7. Кластер 6, "російська група". В цій групі відбулись невеликі зміни: членами її тепер є російські Дни.Ру, Лента.Ру, РБК і РИА НОВОСТИ та українські російськомовні ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ, Сегодня.ua і Вiкна-новини.





  8. "блукаюча група". Склад цієї групи зазнав значних змін, зараз сюди входять лише два російські джерела Комсомольская правда і ВЗГЛЯД.РУ.





  9. "нульова група". Тут форум сайту ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ за 35-ий тиждень.





От і все поки що. Далі буде...

неділя, 11 липня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 37.

Перш за все хочу вибачитись. Після детальної перевірки текстів джерел та сформованих словників виявилось, що:



  • в українському Факти (ICTV) через похибку в параметрах очищення тексту починаючи з 30-го тижня тексти формувались не зовсім коректно. Через це як кількісно (кількість слів) так і якісно (частота появи слів) дещо спотворювались дані як про це джерело, так і про весь корпус джерел;

  • через помилку у форуванні тижневого словника в 35-му тижні TFIDF-значення одного слова виявилось дуже завищеним (0.661), що в свою чергу вплинуло на на кількість відібраних за тиждень слів, а також на подальшу кластеризацію джерел за останні п'ять тижнів.


Зараз я подаю виправлені дані.


Тиждень 37 (28.06-04.07). Перш загальні статистичні дані.



Tabl.1.gif



Draw.1a.gif



Draw.1b.gif



Draw.2.gif


Як видно, розмір обох словників не надто змінився. А от процент нових слів серед відібраних за 36-тий тиждень з мінімально зафіксованого 1.5 % змінився до нормального 10 %. Це означає, що хоча попереднього (35-го) тижня розмір відібраного словника змінився незначно (зменшився вього на одне слово), проте склад словника змінився суттєвіше. 35-го тижня відібралось більше невідомих для 36-го тижня слів.


Розміри словників минулого тижня були в межах їх середніх значень - ~85 тис. слів для загального та ~125 слів для відібраного. Проценти нових слів також нічим особливим не відрізнялись. Графік відносної кількості нових слів у загальному словнику виходить на свою асимптоту ~10 %. Відносна кількість нових слів серед відібраних порівняно невелика - ~6 %. Скоріш за все нових слів в десятці найважливіших ми не побачимо. Подивимось.



Tabl.2.33-37.gif


Так і вийшло. Десятка найвживаніших слів вже давно нам знайома. Як і минулого разу, відтінок клітини визначає кластер, до якого потрапило джерело.


Наведу ще найбільш корельовані з першою десяткою слова.



Tabl.3.37.gif


Ніяких принципово нових поєднань слів минулого тижня не спостерігалось.


Серед джерел інформації 37-го тижня також були популярні такі слова (перша колонка - це найбільш поєднані з ним слова, друга - джерела, які найбільше вживали вказане слово):







Судячи з корельованих слів, тут висвітлювалась тема боротьби з наркотиками та зверненням президента до правоохоронних органів.







Прізвище віце-прем'єра С.Тигипка найбільш було пов'язане з реформою податкової системи країни.


Зі значним відривом від інших цій темі найбільше приділяли увагу українські Цензор.нет і DailyUA.










Прізвище колишнього голови Митної служби України А.Макаренка було пов'язане з сумнозвісними 11 млрд. м.куб. газу, які Україна (нібито) винна компанії РосУкрЕнерго та розглядом цього питання у Верховній Раді.


Що цікаво, найважливішою ця справа була для російських РБК і Дни.Ру та українські Час (5 Канал), ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ і Вiкна-новини (СТБ).







Прізвище держ-секретаря США з'явилось в контексі її візиту в Україну.


Також знаменно, що найбільше цю тему висвітлювали знову російські NEWSru.com, Газета.Ru і ВЗГЛЯД.РУ, українська Сегодня.ua, яка знаходилась в кластері російських ЗМІ, та (що природньо) західні ЗМІ з ИноСМИ.Ru.








Прізвище німецького експерта Н.Ланге було пов'язане зі скандальною забороною на його в'їзд в Україну.


З суттєвим відривом найбільше цю тему висвітлювали західні ЗМІ з Newsru.ua, а також українські Вiкна-новини і Корреспондент.net.




Розглянемо тепер розподіл джерел на кластери за останні п'ять тижнів. Подам спершу хмарину розподілу.




Cloud.buble.Week_33-37.gif


Перед розглядом кластерів наведу по 10 найважливіших слів для кожного центру кластера.



Tabl.4.33-37.gif


Повторю знову, так як була знайдена та усунена помилка з хибним завищеним значенням одного слова (яке врешті-решт не потрапило в число відібраних), склад кластерів може дещо відрізнятись від попереднього тижня. Отже, як зараз джерела розподілені по кластерам:




  1. Кластер 0. Тут окремо виділились три представники російських ЗМІ: Дни.Ру, Газета.Ru і ВЗГЛЯД.РУ за 35-ий тиждень та Дни.Ру за 36-ий. Як видно з Табл.4, найвисвітлюванішою темою цього кластеру були вибори в Польщі.



  2. Кластер 1. Сюди потрапила лише російська Газета.Ru за 34-ий тиждень, яка писала про якісь лише їй відомі теми.



  3. Кластер 2, "українська група". Сюди входять: українські Час (5 Канал), Факти (ICTV), Газета.ua, 4POST, Корреспондент.net, Інтерфакс-Україна та Репортер (Новий канал). Тут теми загальноукраїнські з деяким нахилом до висвітлювання роботи парламенту.




  4. Кластер 3. Тут зібралась "солянка" в основному за 34-36 тижні з українських Цензор.нет, DailyUA, Вiкна-новини, Версии.com і Вся-Правда, російських NEWSru.com і ВЗГЛЯД.РУ та західних ЗМІ від ИноСМИ.Ru. Основною темою цих джерел була відносини українських влади та опозиції.





  5. Кластер 4, "група форумів
    ". Тут постійно мешкають всі джерела форумів, російське ИА REGNUM та російські Газета.Ru і ВЗГЛЯД.РУ, які перебувають в цій групі останні два тижні. Тут, як завжди суміш різноманітних тем відносин між країнами (Украина, Россия), народами (русский, украинский), мовами тощо.






  6. Кластер 5, "

    прифорумна

    група
    ". Сюди відносяться українські GLAVRED.INFO, Українська правда, proUA.com і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ та західні ЗМІ з Корреспондент.net/Мир о нас і Newsru.ua. Сюди ж періодично навідуються українські Цензор.нет і DailyUA. Тут в основному торкаються тем висвітлювання роботи різних гілок влади.






  7. Кластер 6, "російська група". Цю групу населяють: російські Дни.Ру, Комсомольская правда, РБК, РИА НОВОСТИ, Лента.Ру і NEWSru.com, українські російськомовні ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ, Сегодня.ua та західні ЗМІ у викладі ИноСМИ.Ru. Теми тут в основному загальноукраїнські російськомовні.





  8. "блукаюча група". Це джерела, які за останні п'ять тижнів побували в 3 і більше різних кластерах. Цього разу такої честі набули: українські DailyUA, Вiкна-новини і Вся-Правда та російські Газета.Ru і ВЗГЛЯД.РУ.





  9. "нульова група". Це все той же форум сайту ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ за 35-ий тиждень.




Поки що це - все. Далі буде...


субота, 3 липня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 36.

Поглянемо, чим був цікавий тиждень №36 (21.06-27.06).






Спочатку, як завжди, загальні статистичні дані.









Tabl.1.gif










Draw.1a.gif










Draw.1b.gif










Draw.2.gif







Як бачимо, розмір сукупного словника за тиждень зменшився нижче відмітки 80 тис. слів, проте розмір відібраного словника залишився на стабільно високому рівні в 137 слів. Процент нових слів у загальному словнику трохи зменшився до рівня трохи більше 10%, а от відносна кількість нових слів серед відсіяних впала до рекордного рівня в майже 1,5% (таких слів за останній тиждень було всього два). Нових слів від цього тижня не варто очікувати..)






Тепер подивимось, які слова були найвживанішими для джерел цього тижня.



Tabl.2.32-36.gif







Tabl.3.36.gif





Відтінки клітин кожного джерела - це приналежність до одного з кластерів. Вього їх сім, від 0 (найсвітлішого) до 6 (найтемнішого). Кластеризацію я проводив за методом К-середніх.






Як і очікувалось, нових слів серед найпопулярніших практично немає. Зате в першій десятці слід відмітити появу Ю.Тимошенко (найбільше їй приділяли увагу російське джерело РБК та українські Час (5 Канал), DailyUA, Репортер (Новий канал), 4POST і практично всі українські джерела). В основному її згадували в зв'язку зі звинуваченнями діючого прем'єр-міністра на адресу своєї попередниці в розтраті бюджетних коштів. Цієї ж теми стосуються також слова "премьер" та "правительство". Слово "россия" в основному відносилось до теми оновлення складу ЧФ РФ протягом найближчих кількох років.






Також 36-го тижня були популярними такі слова:













Обидва слова, "вибори" і "выборы" використовувались у контексті встановлення дати виборів до місцевих органів влади.

















"Польша", як і слід було очікувати, описувало проведення другого туру президентських виборів в цій країні. Що характерно, цю тему також активно обговорювали на форумах.






Переглянемо тепер розподіл джерел за останні п'ять тижнів у хмарині даних та проведемо її кластерний аналіз.












Cloud.buble.Week_32-36.GIF










Як видно, розподіл джерел став більш роззосередженим і хмарина стала більш розмитою. Виділені за допомогою алгоритму К-середніх кластери можна описати наступним чином (див. кольори комірок Таблиці 2):




  1. Кластер 0, "українська група". Сюди входять: українські Час (5 Канал), Факти (ICTV), Газета.ua, 4POST, Корреспондент.net і Интерфакс-Украина. Сюди ж можна віднести і Репортер (Новий канал), хоча його з однаковим успіхом можна віднести і до наступної групи.




  2. Кластер 1. Через постійне наближення до хмарини форумів, цю групу можна назвати "українською
    прифорумною

    групою
    ". Сюди слід віднести українські Версии.com, GLAVRED.INFO, Українська правда, proUA.com, Вся-Правда, DailyUA і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ та західні ЗМІ з Корреспондент.net/Мир о нас.





  3. Кластер 2. Тут окремо виділилась лише російська Газета.Ru за 34-ий тиждень.




  4. Кластер 3, "російська група". Надійно сюди відносяться: російські Дни.Ру (хоча за останні два тижні це джерело було віднесене до Кластеру 6), РБК, РИА НОВОСТИ, Лента.Ру, ВЗГЛЯД.РУ і NEWSru.com, українські російськомовні ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ, Сегодня.ua, Вiкна-новини (СТБ), яка в останні два тижні перебуває в українській прифорумній групі.



  5. Кластер 4. Сюди потрапили тільки російські Газета.Ru за 32-ий тиждень та РБК за 36-ий тиждень.



  6. Кластер 5, "форуми". Тут незмінно перебувають всі джерела форумів, а також російське ИА REGNUM.



  7. Кластер 6. Через відокремленість та певну наближеність цих російських джерел до форумної групи назвемо їх "російською прифорумною групою". Сюди за останні два тижні з перемінним успіхом відносились Дни.Ру, Газета.Ru, Комсомольская правда, РИА НОВОСТИ і ВЗГЛЯД.РУ.


  8. "блукаюча група", представники якої протягом останніх п'яти тижнів відвідували 3 і більше груп. До таких вільних мандрівників можна віднести: українське джерело Цензор.нет, російські Газета.Ru, Комсомольская правда, ВЗГЛЯД.РУ та західні ЗМІ у викладі ИноСМИ.Ru і Newsru.ua.


  9. "нульова", яка складається лише з одного джерела форумів сайту ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ за 35-ий тиждень.



І на останок, подам таблицю з десятьма найвживанішими слова для кожного клатера.



Tabl.4.32-36.gif


От і все цього тижня. Далі буде...