Поглянемо, чим був цікавий тиждень №36 (21.06-27.06).
Спочатку, як завжди, загальні статистичні дані.
Як бачимо, розмір сукупного словника за тиждень зменшився нижче відмітки 80 тис. слів, проте розмір відібраного словника залишився на стабільно високому рівні в 137 слів. Процент нових слів у загальному словнику трохи зменшився до рівня трохи більше 10%, а от відносна кількість нових слів серед відсіяних впала до рекордного рівня в майже 1,5% (таких слів за останній тиждень було всього два). Нових слів від цього тижня не варто очікувати..)
Тепер подивимось, які слова були найвживанішими для джерел цього тижня.
Відтінки клітин кожного джерела - це приналежність до одного з кластерів. Вього їх сім, від 0 (найсвітлішого) до 6 (найтемнішого). Кластеризацію я проводив за методом К-середніх.
Як і очікувалось, нових слів серед найпопулярніших практично немає. Зате в першій десятці слід відмітити появу Ю.Тимошенко (найбільше їй приділяли увагу російське джерело РБК та українські Час (5 Канал), DailyUA, Репортер (Новий канал), 4POST і практично всі українські джерела). В основному її згадували в зв'язку зі звинуваченнями діючого прем'єр-міністра на адресу своєї попередниці в розтраті бюджетних коштів. Цієї ж теми стосуються також слова "премьер" та "правительство". Слово "россия" в основному відносилось до теми оновлення складу ЧФ РФ протягом найближчих кількох років.
Також 36-го тижня були популярними такі слова:
Обидва слова, "вибори" і "выборы" використовувались у контексті встановлення дати виборів до місцевих органів влади.

"Польша", як і слід було очікувати, описувало проведення другого туру президентських виборів в цій країні. Що характерно, цю тему також активно обговорювали на форумах.
Переглянемо тепер розподіл джерел за останні п'ять тижнів у хмарині даних та проведемо її кластерний аналіз.
Як видно, розподіл джерел став більш роззосередженим і хмарина стала більш розмитою. Виділені за допомогою алгоритму К-середніх кластери можна описати наступним чином (див. кольори комірок Таблиці 2):
- Кластер 0, "українська група". Сюди входять: українські Час (5 Канал), Факти (ICTV), Газета.ua, 4POST, Корреспондент.net і Интерфакс-Украина. Сюди ж можна віднести і Репортер (Новий канал), хоча його з однаковим успіхом можна віднести і до наступної групи.
- Кластер 1. Через постійне наближення до хмарини форумів, цю групу можна назвати "українською
прифорумною
групою". Сюди слід віднести українські Версии.com, GLAVRED.INFO, Українська правда, proUA.com, Вся-Правда, DailyUA і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ та західні ЗМІ з Корреспондент.net/Мир о нас. - Кластер 2. Тут окремо виділилась лише російська Газета.Ru за 34-ий тиждень.
- Кластер 3, "російська група". Надійно сюди відносяться: російські Дни.Ру (хоча за останні два тижні це джерело було віднесене до Кластеру 6), РБК, РИА НОВОСТИ, Лента.Ру, ВЗГЛЯД.РУ і NEWSru.com, українські російськомовні ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ, Сегодня.ua, Вiкна-новини (СТБ), яка в останні два тижні перебуває в українській прифорумній групі.
- Кластер 4. Сюди потрапили тільки російські Газета.Ru за 32-ий тиждень та РБК за 36-ий тиждень.
- Кластер 5, "форуми". Тут незмінно перебувають всі джерела форумів, а також російське ИА REGNUM.
- Кластер 6. Через відокремленість та певну наближеність цих російських джерел до форумної групи назвемо їх "російською прифорумною групою". Сюди за останні два тижні з перемінним успіхом відносились Дни.Ру, Газета.Ru, Комсомольская правда, РИА НОВОСТИ і ВЗГЛЯД.РУ.
- "блукаюча група", представники якої протягом останніх п'яти тижнів відвідували 3 і більше груп. До таких вільних мандрівників можна віднести: українське джерело Цензор.нет, російські Газета.Ru, Комсомольская правда, ВЗГЛЯД.РУ та західні ЗМІ у викладі ИноСМИ.Ru і Newsru.ua.
- "нульова", яка складається лише з одного джерела форумів сайту ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ за 35-ий тиждень.
І на останок, подам таблицю з десятьма найвживанішими слова для кожного клатера.
От і все цього тижня. Далі буде...
Немає коментарів:
Дописати коментар