Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

вівторок, 6 квітня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 22. Епізод 2.

Вибачте за затримку. Вже пора публікувати дані про 23-тій (попередній) тиждень, а я щено буду закінчувати загальний огляд по 22-ий тиждень включно...


На це є декілька причин. Перша - зайнятість на роботі..) Але найголовніша, так як я обіцяв, що епізоди 2 будуть присвячені візуальному аналізу отриманих багатомірних даних, - це пошук програми для побудови XY-діаграм з розширеними можливостями.


Що потрібно: побудова набору точок по XY, з можливістю введення додаткових змінних для відображення розміру та кольору точок. Тобто, фактично для відображення на діаграмі 4D. Плюс можливість підпису всіх відображених точок. Плюс безпоштовність...:)


Виявилось, що такої готової програми не існує. Я не знайшов. Якщо хтось знає про таку програму - пліз, дайте знати. А так пропонуються або обмежені в можливостях, або source-компоненти для використання у своїх розробках, або платні інструменти. Що стосується підпису даних, то адекватно це вміє робити лише OpenOffice Calc, зате не вміє атоматично присвоювати колір та розмір точок. Gnumeric Spreadsheet в свою чергу вміє робити останнє (вірніше АБО міняти колір через ColoredXY, АБО розмір через Bubble), але не вміє підписувати точки. Взагалі Gnumeric є значно продвинутішим, що стосується статистичних обчислень та побудови графіків, ніж Calc. Отож, там де потрібні підписи точок, діаграми сформовані в Calc, всі інші - в Gnumeric.


Для візуалізації багатомірних даних я використав алгоритм t-SNE, що перекладається приблизно як t-розподілене стохастичне вкладення сусідніх точок. Це один із найсвіжіших алгоритмів для конвертування набору даних з більшої розмірності у меншу. Алгоритм дозволяє адекватно представити як локальні взаємозв'язки точок даних, так і глобальну їх структуру. Для відображення на двомірній карті в нашому випадку був зконвертований набір даних розміром 946 Х 383 (всіх_джерел_за_22_тижні Х кількість_відібраних_слів) в набір даних 946 Х 2.


Перша карта.




Cloud.cluster.gif


Різними кольорами та значками позначені наші 4 типи джерел інформації. Як видно, три типи джерел (українські, російські та форуми) розділяються досить добре із незначним перекриттям. Четвертий тип - закордонні джерела - "проникають" в українські та російські джерела.


Щільна кучка зверху зправа від основної хмари - це джерела без текстів за той чи іншиї тиждень.


Дві віддалені на значну відстань точки це:



  • DailyUA, 4-ий тиждень, (зверху зліва) зі словами "тимошенко", "прем'єр", "грип", "люди", "эпидемия" (див. ЗМІ та візуалізація даних або Із життя слів. Тиждень11.Епізод1.);

  • ИА REGNUM, 15-ий тиждень, (зверху зправа) зі словами "эстония", "россия", "украина", "украинский", "мир" (див. ЗМІ та візуалізація даних або Із життя слів. Тиждень 22. Епізод 1.).


Для більш детального огляду основної хмарини даних з підписами - наступна карта.




Cloud1.gif


Для аналізу, як джерела переміщувались по карті по тижнях значно зручніше користуватись наступною картою.






Cloud.color-week.gif


Тут типи джерел відображені різними значками, а кольорами закодовано номери тижня. Синій - 1-ий тиждень, червоний - 22-ий.


Які висновки можна зробити?


Як видно, українські джерела (квадратики), перебуваючи в перші тижні більш-менш в одній "купі", далі розійшлися в три сторони:



  • основна маса джерел зробивши петлю в останні тижні пішла нагору. Це такі джерела як: Корреспондент.net, GLAVRED.INFO, 4POST, Інтерфакс-Україна, ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, Українська правда, Час (5 Канал), proUA.com, Газета.ua, Факти (ICTV), Репортер (Новий канал). Час та Факти, з виключно україномовною частиною текстів новин тримаються з лівого боку "української" частини карти.

  • інша частина, будучи виключно російськомовними, перебувають фактично в "російській" частині карти і переміщуються синхронно з російськими виданнями вниз, вліво і направо. Це такі джерела як: ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ, Цензор.нет, ФОКУС, Вiкна-новини (СТБ), Сегодня.ua.

  • третя маленька частина будучи переважно російськомовними виданнями, та перебуваючи на початку всередині карти, за 22 тижні виконавши невелике переміщення вправо, залишаються посередині між українськими, російськими джерелами та форумами. Це: Вся-Правда, Версии.com, DailyUA.



Російські джерела (ромбики) в основній своїй масі пересуваються дружно спочатку коло на місці, потім вліво і різкий великий стрибок вправо. Виключенням є хіба що ИА REGNUM, яке останні кілька тижнів тримається ближче до форумів. Що знаково, жодне російське джерело ні разу не потрапляло на "українську" частину хмарини...



Західні джерела (трикутники донизу) розбились на два типи: виключно російськомовні (з ИноСМИ.Ru та з Корреспондент.net до 12-го тижня) починають і закінчують свій рух біля правого боку "російської" частини карти, та двомовні (з Корреспондент.net з 12-го тижня та Newsru.ua), які починають період біля правого верхнього боку "української" частини карти, переміщуються по її території та зупиняються біля українськиї джерел першої групи.



Форуми (трикутники доверху) протягом всього періоду тримаються окремо щільною хмариною, пересуваючись від тижня до тижня за броунівським законом..) Що природньо, майже всі форуми однаково далеко знаходяться від всіх інших типів джерел інформації. Хіба що форум ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, перетинається із своїм же українським джерелом (в чому він єдиний) та деякі інші форуми в різні періоди наближаються до українських джерел третьої групи.


Поки що все.


Наступного разу розглянемо чим саме (якими словами) всі джерела відрізняються одне від одного.


Далі буде.

Немає коментарів:

Дописати коментар