Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

пʼятниця, 4 червня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 32.

Трохи забарився зі звітом, сорі. Отже, результати за 31 і 32 тижні (з 17.05 по 30.05).



Tabl.1.gif



Draw.1a.gif



Draw.1b.gif



Draw.2.gif


Як бачимо, розмір словників за попередні два тижні знаходиться на звичному рівні ~80-90 тис. слів для загальних тижневих словників і ~120 слів для відібраних словників. Відносна кількість нових слів також нічим новим не дивує - 3-8 %.


У відборі текстів джерел відбулись деякі зміни: тепер з GLAVRED.INFO береться не аналітика (яка є досить куцою по обсягах), а новини; також для Факти (ICTV, ictv.ua) стали доступні новини також російською мовою.


Тепер подивимось, якими словами найчастіше користувались наші джерела. Для зручності порівняння тих чи інших слів у різних джерел та різних слів у одного джерела, тепер поряд зі словом наводиться величина його TF-IDF коефіцієнта.



Tabl.2.28-32.gif


Перший висновок, який можна зробити - це відносно невеликі перші значення TF-IDF слів у форумах. Максимальне число 0.0037, тоді як в інших джерелах воно сягає майже 0.02. Це пояснюється як самим невеликим вжитком таких слів, так і відносно великим розміром відібраних документів (і, відповідно, великою загальною кількістю слів у ньому) для форумів.


За останні два тижні в першій п'ятірці слів різних джерел з'явились нові слова "медведе(є)в", "нато", "альянс", "вступление", "ссср", які найчастіше використовували російські джерела. З першої десятки зникло "тимошенко", яке перед цим було другим у списку найвживаніших слів. Зате останнього тижня це місце зайняв "янукович".


Як і обіцяв, тепер я також наводитиму слова, найбільш корельовані з першою десяткою слів. Як міру подібності використовується косинус кута. Ось цей список слів.



Tabl.3.31.gif Tabl.3.32.gif


Видно, наприклад, що 31-го тижня слово "украина" в основному було пов'язане з українсько-російською угодою, а 32-го - з українським питанням та політикою. Слово "россия" 31-го тижня охоплювало візит російського президента до України, а 32-го - питання розподілу майна колишнього СРСР. Слово "вопрос" 31-го тижня виражало поняття спільної міжнародної політики, військові та офіційні питання, 32-го - теми щодо держави, країни і національні питання. 32-го тижня слово "нато" було пов'язане зі вступом до альянсу (вірніше його відкладенням), що було озвучене Президентом і яке найбільше цитували російські ЗМІ РБК (www.rbc.ru), Газета.Ru (gazeta.ru) і NEWSru.com.


Також, 31-тижня таке слово, як "бют" було пов'язане з притягненням до відповідальності депутата Верховної Ради від фракції БЮТ А.Парубія, а слова "киев" і "москва" найчастіше використовувалось для опису українсько-російських домовленостей щодо Чорноморського Флоту РФ. 32-го тижня слово "львов" використовувалось для коментування приїзду Президента до Львова. Слово "язык", яке найчастіше використовується на форумах, асоціюється зі статусом російської мови у Криму та на загальнодержавному рівні.


Тепер подивимось, яким є взаємне розташування джерел у хмарині даних за останні п'ять тижнів.




Cloud.Week_28-32.gif


Загальне розташування і склад груп залишився тим самим, а саме:



  1. "українська група", нижня частина загальної хмарини зправа. Тут зібрані всі ті ж самі джерела: українські Час (5 Канал), Факти (ICTV), Газета.ua, 4POST, Корреспондент.net, Интерфакс-Украина, Репортер (Новий канал), GLAVRED.INFO, Українська правда і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, а також двомовні переклади іноземних джерел Newsru.ua і Корреспондент.net/Мир о нас. Правдв, до цієї ж групи останнім часом примкнув і Цензор.нет. 32-го тижня представники цієї групи виступають дружнішою купкою, ніж раніше (28-го тижня).

  2. "російська група", верхня частина загальної хмарини зправа. Тут перебувають такі джерела, як: російські Дни.Ру, РБК, РИА НОВОСТИ, Газета.Ru, Лента.Ру і NEWSru.com, українські російськомовні Вiкна-новини (СТБ), ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ і Сегодня.ua та західні ЗМІ у викладі ИноСМИ.Ru
    . Останнім часом сюди ж примкнула Комсомольская правда (яка раніше була серед блукаючих джерел). Ця група трохи більше розріджена, ніж попередня, хоча останнього тижня виглядають теж досить згуртовано.

  3. "прифорумна група
    ", вірніш, не група а два окремих, але згуртованих представники. Це українське російськомовне джерело Версии.com та російське ИА REGNUM.

  4. "блукаюча група". Представники цієї групи, як вільні митці, прив'язують себе до конкретного місця і подорожують з однієї групи в іншу. Останнім часом ця групка трохи порідшала і тепер сюди входять лише чотири джерела - українські proUA.com, Вся-Правда і DailyUA та російське джерело ВЗГЛЯД.РУ.

  5. "форуми", Середня частина загальної хмарини. Як завжди щільна дружна хмаринка, що складається зі всіх форумів.

  6. "нульова", зверху зліва. Джерела без текстів, яких за останні тижні поменшало.


Надалі я планую використовувати алгоритми кластеризації, для того щоб автоматично виділяти слова, які найбільш притаманні тій чи іншій групі. А поки що це все.


Далі буде...

Немає коментарів:

Дописати коментар