Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

вівторок, 27 квітня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 24. Епізод 2.

Отже, для візуалізації отриманих даних відтепер я братиму лише 5 останніх тижнів. Як і раніше, проекція багатомірних даних на двомірну площину здійснюється за допомогою алгоритму t-SNE.


Перший рисунок - карта відображення підписаних джерел інформації за 20-24 тижні з використанням всіх з 421-го відібраного слова.




Cloud.Week_20-24.gif


Як видно, всі джерела умовно можна розділити на 4 класи (хмарини):



  1. нижня хмарина - українські україномовні (внизу Час (5 Канал, 5.ua) та Факти (ICTV, ictv.ua)) та двомовні джерела (ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ (zn.ua/dt.ua), GLAVRED.INFO (glavred.info), Українська правда (www.pravda.com.ua), Газета.ua (gazeta.ua), 4POST (4post.com.ua), Корреспондент.net (korrespondent.net), Интерфакс-Украина (www.interfax.com.ua) і Репортер (Новий канал, www.novy.tv)), а також двомовні переклади іноземних джерел (Корреспондент.net (korrespondent.net/worldabus) і Newsru.ua (newsru.ua)). Як видно на 24-му тижні ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, GLAVRED.INFO та Українська правда відділились від основної групи окремо в напрямку ближче до форумів;

  2. верхня зліва хмарина - повністю російськомовні російські (Комсомольская правда (kp.ru), РБК (www.rbc.ru), Дни.Ру (www.dni.ru), РИА НОВОСТИ (rian.ru), Лента.Ру (lenta.ru), NEWSru.com (newsru.com), Газета.Ru (gazeta.ru) і ВЗГЛЯД.РУ (vz.ru)) та українські джерела (ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ (obozrevatel.com), ФОКУС (focus.ua), Сегодня.ua (segodnya.ua) і Вiкна-новини (СТБ, vikna.ua), а також Вся-Правда (vsyapravda.com) і Версии.com (versii.com), які тримаються дещо осторонь основної групи ближче до форумів), а також російськомовна підбірка перекладів західних ЗМІ з ИноСМИ.Ru (www.inosmi.ru);

  3. верхня зправа дружна хмарина всіх джерел форумів;

  4. трохи нижче від неї купка "нульових" джерел за тиждень.


Окремо виділяються українські Цензор.нет (censor.net.ua) і proUA.com (proua.com), в яких аналітика подається переважно російською мовою, хоча часом і солов'їною, тому вони "стрибають" то в групу 1, то в групу 2. Також слід виділити українську російсько- (переважно) і україномовну DailyUA (daily.com.ua) та російську ИА REGNUM (regnum.ru), які переміщаються кожна по своїм незалежним траекторіям і 24-го тижня перебувають на краю групи 3.


Оцінимо відмінності в словах між різними групами за допомогою бульбашкових карт TFIDF-значень для 20-ти найвживаніших по всім джерелам слів. Період той самий - 20-24 тижні.



Cloud.20-24..1.украина.gif Cloud.20-24..2.янукович.gif



Cloud.20-24..3.президент.gif Cloud.20-24..4.україна.gif



Cloud.20-24..5.украинский.gif Cloud.20-24..6.депутат.gif



Cloud.20-24..7.новий.gif Cloud.20-24..8.тимошенко.gif



Cloud.20-24..9.россия.gif Cloud.20-24..10.министр.gif



Cloud.20-24..11.партія.gif Cloud.20-24..12.фракція.gif



Cloud.20-24..13.виктор.gif Cloud.20-24..14.правительство.gif



Cloud.20-24..15.страна.gif Cloud.20-24..16.коалиция.gif



Cloud.20-24..17.премьер.gif Cloud.20-24..18.рада.gif



Cloud.20-24..19.глава.gif Cloud.20-24..20.вопрос.gif



Які висновки можна зробити по групам:




  1. Представники цієї групи найчастіше вживали слова "янукович", "президент", "україна", "украинский", "депутат", "тимошенко", "премьер", "рада", "глава". Рідко або взагалі не використовували слова "россия", "министр", "фракці(и)я", "виктор", "правительство", "страна", "коалиция". Варто відзначити, що три джерела, які відійшли від основної групи (ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, GLAVRED.INFO і Українська правда) 24-го тижня рідко використовували наведені вище найпопулярніші слова, а такі слова, як "министр", "фракці(и)я" та "коалиция" не використовували взагалі.



  2. Ця група найбільше використовувала слова "украина", "янукович", "президент", "украинский", "депутат", "нови(ы)й", "тимошенко", "партия", "фракция", "виктор", "правительство", "страна", "коалиция", "премьер", "глава", "вопрос". Менш всього використовувались "україна" та "россия". Два українські джерела, які тримаються дещо осторонь (Вся-Правда і Версии.com) вцілому значно менше від інших задіювали вказані найвживаніші слова, а такі слова як "фракция" і "рада" практично не використовували.



  3. Для цієї групи найбільш характерним є вживання слів "украина", "україна", "нови(ы)й", "россия", "министр", "правительство", "рада", "глава", "вопрос". Найменш цікавили слова "депутат", "фракці(и)я" і "коалиция".




Далі буде...


неділя, 25 квітня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 24. Епізод 1.

Отже, продовжу.


Дані по 24-ий тиждень включно.



Tabl.1.gif



Draw.1a.gif



Draw.1b.gif



Draw.2.gif


Як видно з Рис.1а розмір тижневого словника після стрімкого зростання 22-го тижня (15.03.2010-21.03.2010) поступово спадає. Відносна кількість нових відібраних слів за тиждень так само поступово зменшується.


Кількість же відібраних слів за тиждень протягом останніх 6-ти тижнів постійно зростає, що може свідчити про зростання середнього рівня вживаності слів. Тобто, ті чи інші слова використовують все частіше і частіше.



Draw.3.gif



Тепер наведу таблицю 5-ти найвживаніших слів для кожного джерела. Для економії місця тепер я наводитиму дані лише за останні 5 тижнів.



Tabl.2.20-24.gif



Українські ЗМІ (позиції 1-19).



За останні два тижні окрім традиційних слів "украина", "україна", "президент", "янукович" з'явились нові:


"коаліція (коалиция)" - найбільш використовували Час (5 Канал, 5.ua), ФОКУС (focus.ua), Факти (ICTV, ictv.ua), Сегодня.ua (segodnya.ua);


"фракція (фракция)" - вживали Корреспондент.net (korrespondent.net) і Репортер (Новий канал, www.novy.tv),


"опозиція (оппозиция)" - Цензор.нет (censor.net.ua) і DailyUA (daily.com.ua);


"теневой" - цим найбільш переймалось DailyUA;


"газ" - таке слово цікавило Цензор.нет і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ (zn.ua/dt.ua).





Російські ЗМІ (позиції 20-28).



"суд" - застосовували Дни.Ру (www.dni.ru) та Газета.Ru (gazeta.ru);


"теракт", "соболезнование" - описували NEWSru.com (newsru.com) і ВЗГЛЯД.РУ (vz.ru).





Закордонні ЗМІ (позиції 29-31).



Нові слова: "газ", "теракт", "метро".




Додатково варто відзначити, що "тимошенко" після 3-тижневої паузи знову потрапило в десятку найвживаніших за тиждень слів.)



Наступного разу в Епізоді 2 я подам візуальні відображення.


Далі буде...

пʼятниця, 9 квітня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 22. Епізод 2.5.

Це чудове слово - "відпустка"...:)

Отож, продовжу. В цьому пості наведу набір діаграм типу Bubble для 30 найвживаніших слів за всі 22 тижні, в яких діаметр бульбашки відповідає величині значення TFIDF для даного слова в даному джерелі.

Cloud..1.украина Cloud..2.президент Cloud..3.тимошенко Cloud..4.янукович Cloud..5.ющенко Cloud..6.выбор Cloud..7.україна Cloud..8.россия Cloud..9.страна Cloud..10.виктор Cloud..11.партия Cloud..12.премьер Cloud..13.кандидат Cloud..14.слово Cloud..15.министр Cloud..16.депутат Cloud..17.новий Cloud..18.глава Cloud..19.вопрос Cloud..20.юлия Cloud..21.одно Cloud..22.закон Cloud..23.заявил Cloud..24.регион Cloud..25.рада Cloud..26.люди Cloud..27.сказал Cloud..28.русский Cloud..29.дело Cloud..30.политик

Кола синього кольору - це українські джерела, червоного - російські, жовтого - західні, зеленого - форуми.

В такому вигляді зручніше оцінювати співвідношення між різними джерелами та групами джерел у використанні того чи іншого слова.

Наприклад, можна зробити висновок, що найпопулярніше слово "украина" найбільше вживали у закордонних джерелах та на форумах і восновному в перші тижні спостережень (початку передвиборної кампанії).

Для українських джерел найбільш притаманними є слова "президент", "тимошенко" (в першій половині періоду), "янукович" (в другій половині), "выбор" (в першій половині), "слово", "одно", "заявил".

На форумах найбільш вживаними є слова "украина", "россия", "страна", "вопрос", "одно", "люди", "русский" (в першій половині періоду і яке більше ніде практично не вживалось), "дело", "политик". Разом з тим, такі слова як "президент", "тимошенко", "янукович", "ющенко", "выбор", "україна", "кандидат", "депутат", "юлия" застосовуються досить рідко...

Решта висновків кожен зробить сам.

В наступному пості я подам результати за 23-24 тижні.

Далі буде...