Отже, для візуалізації отриманих даних відтепер я братиму лише 5 останніх тижнів. Як і раніше, проекція багатомірних даних на двомірну площину здійснюється за допомогою алгоритму t-SNE.
Перший рисунок - карта відображення підписаних джерел інформації за 20-24 тижні з використанням всіх з 421-го відібраного слова.
Як видно, всі джерела умовно можна розділити на 4 класи (хмарини):
- нижня хмарина - українські україномовні (внизу Час (5 Канал, 5.ua) та Факти (ICTV, ictv.ua)) та двомовні джерела (ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ (zn.ua/dt.ua), GLAVRED.INFO (glavred.info), Українська правда (www.pravda.com.ua), Газета.ua (gazeta.ua), 4POST (4post.com.ua), Корреспондент.net (korrespondent.net), Интерфакс-Украина (www.interfax.com.ua) і Репортер (Новий канал, www.novy.tv)), а також двомовні переклади іноземних джерел (Корреспондент.net (korrespondent.net/worldabus) і Newsru.ua (newsru.ua)). Як видно на 24-му тижні ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, GLAVRED.INFO та Українська правда відділились від основної групи окремо в напрямку ближче до форумів;
- верхня зліва хмарина - повністю російськомовні російські (Комсомольская правда (kp.ru), РБК (www.rbc.ru), Дни.Ру (www.dni.ru), РИА НОВОСТИ (rian.ru), Лента.Ру (lenta.ru), NEWSru.com (newsru.com), Газета.Ru (gazeta.ru) і ВЗГЛЯД.РУ (vz.ru)) та українські джерела (ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ (obozrevatel.com), ФОКУС (focus.ua), Сегодня.ua (segodnya.ua) і Вiкна-новини (СТБ, vikna.ua), а також Вся-Правда (vsyapravda.com) і Версии.com (versii.com), які тримаються дещо осторонь основної групи ближче до форумів), а також російськомовна підбірка перекладів західних ЗМІ з ИноСМИ.Ru (www.inosmi.ru);
- верхня зправа дружна хмарина всіх джерел форумів;
- трохи нижче від неї купка "нульових" джерел за тиждень.
Окремо виділяються українські Цензор.нет (censor.net.ua) і proUA.com (proua.com), в яких аналітика подається переважно російською мовою, хоча часом і солов'їною, тому вони "стрибають" то в групу 1, то в групу 2. Також слід виділити українську російсько- (переважно) і україномовну DailyUA (daily.com.ua) та російську ИА REGNUM (regnum.ru), які переміщаються кожна по своїм незалежним траекторіям і 24-го тижня перебувають на краю групи 3.
Оцінимо відмінності в словах між різними групами за допомогою бульбашкових карт TFIDF-значень для 20-ти найвживаніших по всім джерелам слів. Період той самий - 20-24 тижні.










Які висновки можна зробити по групам:
- Представники цієї групи найчастіше вживали слова "янукович", "президент", "україна", "украинский", "депутат", "тимошенко", "премьер", "рада", "глава". Рідко або взагалі не використовували слова "россия", "министр", "фракці(и)я", "виктор", "правительство", "страна", "коалиция". Варто відзначити, що три джерела, які відійшли від основної групи (ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, GLAVRED.INFO і Українська правда) 24-го тижня рідко використовували наведені вище найпопулярніші слова, а такі слова, як "министр", "фракці(и)я" та "коалиция" не використовували взагалі.
- Ця група найбільше використовувала слова "украина", "янукович", "президент", "украинский", "депутат", "нови(ы)й", "тимошенко", "партия", "фракция", "виктор", "правительство", "страна", "коалиция", "премьер", "глава", "вопрос". Менш всього використовувались "україна" та "россия". Два українські джерела, які тримаються дещо осторонь (Вся-Правда і Версии.com) вцілому значно менше від інших задіювали вказані найвживаніші слова, а такі слова як "фракция" і "рада" практично не використовували.
- Для цієї групи найбільш характерним є вживання слів "украина", "україна", "нови(ы)й", "россия", "министр", "правительство", "рада", "глава", "вопрос". Найменш цікавили слова "депутат", "фракці(и)я" і "коалиция".
Далі буде...

Немає коментарів:
Дописати коментар