Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

пʼятниця, 25 червня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 35.

Що ж, приступимо до тижня № 35 (14.06-20.06).


Єдине зауважння: дещо змінив настройки скачування текстів новин з сайту ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ та додав з нього дані за 34-ий тиждень. Тому статистичні дані за цей тиждень будуть дещо іншими, ніж в попередньому пості.



Tabl.1.gif



Draw.1a.gif



Draw.1b.gif



Draw.2.gif


Розмір загального словника знаходиться на рівні останніх тижнів ~87 тис. слів. Розмір же відібраного словника зріс до третього по величині значення за ввесь період спостережень - 146 слів. Відносна кількість нових слів в обох словниках знаходиться також на рівні останніх тижнів ~11 %.


Подивимось, які нові слова приніс нам останній тиждень.



Tabl.2.31-35.gif



Tabl.3.35.gif


З'явилось кілька нових слів, а саме:



  • "качиньский", яке стосується виборів президента в Польщі. Найбільше цю тему обговорювали російські Дни.Ру, Газета.Ru і ВЗГЛЯД.РУ;

  • "голодомор", яке має відношення до судових позовів на Президента щодо голодомору 32-33 рр. рухівцем В.Волосюком. Що цікаво, що до цієї ж теми відноситься і слово "украинский". Найбільше це цікавило українську Вiкна-новини (СТБ) та російські Комсомольская правда, Дни.Ру і NEWSru.com;

  • "глава" - загальновживане слово для позначень керівників служб, департаментів чи країн. Найчастіше про різних "голів" згадували російські РБК, РИА НОВОСТИ, Дни.Ру і ВЗГЛЯД.РУ.


Серед різних джерел за попередній тиждень також "засвітились" такі нові слова:



  • "сталин", з яким співзвучними були слова "советский" (0.926), "грузия" (0.846), "история" (0.810). Найбільше цій темі приділив увагу український Цензор.нет і в значно меншій мірі російська газета Дни.Ру;

  • "мирни(ы)й", з яким найчастіше вживались слова "опозиція" (0.967), "час" (0.686), "блок" (0.668), "свобода" (0.647). Цю тему найбільше розкривали українські DailyUA, Час (5 Канал) та Репортер (Новий канал);

  • "канал" (яке 34-ого тижня потрапило в десятку найвживаніших), з яким найчастіше використовувались слова "пресса" (0.751), "журналист" (0.739), "оппозиция" (0.650), "политик(а)" (0.622). Найбільше цій темі присвячували увагу російськомовний переклад західних ЗМІ ИноСМИ.Ru, українські GLAVRED.INFO, Українська правда і Час;

  • "кодекс", який найбільш співзвучним був з "налоговый" (0.959), "документ" (0.788), "податковий" (0.779), "проект" (0.720). Цією темою найбільш цікавились українська Репортер, західні ЗМІ у викладі Newsru.ua, українські proUA.com, Сегодня.ua і 4POST;

  • "зелени(ы)й", якого також стосувались слова "проблема" (0.777), "политический" (0.655). Цій темі найбільшу увагу присвятила українська газета Вся-Правда.


Тепер подам картинку хмарини даних за останні п'ять тижнів. За ці тижні було скомпоновано 255 слів.




Cloud.buble.Week_31-35.GIF


За попередній тиждень в розташуванні і складі груп намітились деякі зміни. Розглянемо детальніше:



  1. "українська група", нижня частина загальної хмарини зліва. За 35-ий тиждень ця група поменшала. Стабільно сюди входять: українські Час (5 Канал), Факти (ICTV), Газета.ua, 4POST, Корреспондент.net, Интерфакс-Украина і Репортер (Новий канал). А от GLAVRED.INFO, Українська правда, ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ та двомовні переклади іноземних джерел Newsru.ua і Корреспондент.net/Мир о нас зробили крок в напрямку до форумного скупчення, тому їх, скоріш, слід тепер вважати представниками прифорумної групи.

  2. "російська група", нижня частина загальної хмарини зправа. З великим рахунком, склад групи не змінився: російські Дни.Ру, РБК, РИА НОВОСТИ, Газета.Ru, Комсомольская правда, Лента.Ру, ВЗГЛЯД.РУ і NEWSru.com, українські російськомовні ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ, Сегодня.ua, Вiкна-новини (СТБ), яка цього тижня стрибнул в українську групу, що буде далі - побачимо; та західні ЗМІ у викладі ИноСМИ.Ru, яка також зробила різкий стрибок у прифорумну область, але остаточні висновки робити ще зарано.

  3. "прифорумна група
    ". За попередній тиждень представників цієї групи побільшало. Окрім постіних українського російськомовного джерела Версии.com та російського ИА REGNUM сюди можна віднести і з української групи GLAVRED.INFO, Українська правда і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ та західні ЗМІ з Newsru.ua і Корреспондент.net/Мир о нас, а також з блукаючої групи українські Цензор.нет і Вся-Правда, які за останні два-три тижні блукали лише навкого форумної частини хмарини.

  4. "блукаюча група". Тут залишились лише два джерела - українські proUA.com і DailyUA. Та й то з такими щотижневими траекторіями, як за останні тижні їх також можна буде наступного тижня зарахувати до прифорумної групи.

  5. "форуми", верхня частина загальної хмарини. Як завжди стабільна.

  6. "нульова", яка складається лише з одного джерела форумів сайту ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ.


В загальному, як можна побачити на зображенні хмарини, останнього тижня українська та російська групи значно зблизились і знаходяться найближче одна біля одної принаймні за останні п'ять тижнів. Побачимо як справа далі піде..


Оце і все, поки що. Щодо розбиття на кластери та покластерних наборів найважливіших слів, то в такому вигляді як я їх подавав минулого разу вони не є надто інформативними. Кількість кластерів невелика і розбиття є надто загальним. Якщо ж збільшити кількість кластерів, то з'явиться велика кількість надлишкової інформації, що ускладнюватиме аналіз і результати, мабуть, будуть нічим не кращими за результати аналізу по таблиці популярності слів (Табл.2). Тут треба поекспериментувати з кількістю кластерів. Можливо наступного разу я використовуватиму лише обчислене розбиття по кластерам, а не свій суб'єктивний погляд.


Далі буде...

Немає коментарів:

Дописати коментар