Що ж, приступимо до тижня № 35 (14.06-20.06).
Єдине зауважння: дещо змінив настройки скачування текстів новин з сайту ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ та додав з нього дані за 34-ий тиждень. Тому статистичні дані за цей тиждень будуть дещо іншими, ніж в попередньому пості.
Розмір загального словника знаходиться на рівні останніх тижнів ~87 тис. слів. Розмір же відібраного словника зріс до третього по величині значення за ввесь період спостережень - 146 слів. Відносна кількість нових слів в обох словниках знаходиться також на рівні останніх тижнів ~11 %.
Подивимось, які нові слова приніс нам останній тиждень.
З'явилось кілька нових слів, а саме:
- "качиньский", яке стосується виборів президента в Польщі. Найбільше цю тему обговорювали російські Дни.Ру, Газета.Ru і ВЗГЛЯД.РУ;
- "голодомор", яке має відношення до судових позовів на Президента щодо голодомору 32-33 рр. рухівцем В.Волосюком. Що цікаво, що до цієї ж теми відноситься і слово "украинский". Найбільше це цікавило українську Вiкна-новини (СТБ) та російські Комсомольская правда, Дни.Ру і NEWSru.com;
- "глава" - загальновживане слово для позначень керівників служб, департаментів чи країн. Найчастіше про різних "голів" згадували російські РБК, РИА НОВОСТИ, Дни.Ру і ВЗГЛЯД.РУ.
Серед різних джерел за попередній тиждень також "засвітились" такі нові слова:
- "сталин", з яким співзвучними були слова "советский" (0.926), "грузия" (0.846), "история" (0.810). Найбільше цій темі приділив увагу український Цензор.нет і в значно меншій мірі російська газета Дни.Ру;
- "мирни(ы)й", з яким найчастіше вживались слова "опозиція" (0.967), "час" (0.686), "блок" (0.668), "свобода" (0.647). Цю тему найбільше розкривали українські DailyUA, Час (5 Канал) та Репортер (Новий канал);
- "канал" (яке 34-ого тижня потрапило в десятку найвживаніших), з яким найчастіше використовувались слова "пресса" (0.751), "журналист" (0.739), "оппозиция" (0.650), "политик(а)" (0.622). Найбільше цій темі присвячували увагу російськомовний переклад західних ЗМІ ИноСМИ.Ru, українські GLAVRED.INFO, Українська правда і Час;
- "кодекс", який найбільш співзвучним був з "налоговый" (0.959), "документ" (0.788), "податковий" (0.779), "проект" (0.720). Цією темою найбільш цікавились українська Репортер, західні ЗМІ у викладі Newsru.ua, українські proUA.com, Сегодня.ua і 4POST;
- "зелени(ы)й", якого також стосувались слова "проблема" (0.777), "политический" (0.655). Цій темі найбільшу увагу присвятила українська газета Вся-Правда.
Тепер подам картинку хмарини даних за останні п'ять тижнів. За ці тижні було скомпоновано 255 слів.
За попередній тиждень в розташуванні і складі груп намітились деякі зміни. Розглянемо детальніше:
- "українська група", нижня частина загальної хмарини зліва. За 35-ий тиждень ця група поменшала. Стабільно сюди входять: українські Час (5 Канал), Факти (ICTV), Газета.ua, 4POST, Корреспондент.net, Интерфакс-Украина і Репортер (Новий канал). А от GLAVRED.INFO, Українська правда, ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ та двомовні переклади іноземних джерел Newsru.ua і Корреспондент.net/Мир о нас зробили крок в напрямку до форумного скупчення, тому їх, скоріш, слід тепер вважати представниками прифорумної групи.
- "російська група", нижня частина загальної хмарини зправа. З великим рахунком, склад групи не змінився: російські Дни.Ру, РБК, РИА НОВОСТИ, Газета.Ru, Комсомольская правда, Лента.Ру, ВЗГЛЯД.РУ і NEWSru.com, українські російськомовні ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ, Сегодня.ua, Вiкна-новини (СТБ), яка цього тижня стрибнул в українську групу, що буде далі - побачимо; та західні ЗМІ у викладі ИноСМИ.Ru, яка також зробила різкий стрибок у прифорумну область, але остаточні висновки робити ще зарано.
- "прифорумна група
". За попередній тиждень представників цієї групи побільшало. Окрім постіних українського російськомовного джерела Версии.com та російського ИА REGNUM сюди можна віднести і з української групи GLAVRED.INFO, Українська правда і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ та західні ЗМІ з Newsru.ua і Корреспондент.net/Мир о нас, а також з блукаючої групи українські Цензор.нет і Вся-Правда, які за останні два-три тижні блукали лише навкого форумної частини хмарини. - "блукаюча група". Тут залишились лише два джерела - українські proUA.com і DailyUA. Та й то з такими щотижневими траекторіями, як за останні тижні їх також можна буде наступного тижня зарахувати до прифорумної групи.
- "форуми", верхня частина загальної хмарини. Як завжди стабільна.
- "нульова", яка складається лише з одного джерела форумів сайту ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ.
В загальному, як можна побачити на зображенні хмарини, останнього тижня українська та російська групи значно зблизились і знаходяться найближче одна біля одної принаймні за останні п'ять тижнів. Побачимо як справа далі піде..
Оце і все, поки що. Щодо розбиття на кластери та покластерних наборів найважливіших слів, то в такому вигляді як я їх подавав минулого разу вони не є надто інформативними. Кількість кластерів невелика і розбиття є надто загальним. Якщо ж збільшити кількість кластерів, то з'явиться велика кількість надлишкової інформації, що ускладнюватиме аналіз і результати, мабуть, будуть нічим не кращими за результати аналізу по таблиці популярності слів (Табл.2). Тут треба поекспериментувати з кількістю кластерів. Можливо наступного разу я використовуватиму лише обчислене розбиття по кластерам, а не свій суб'єктивний погляд.
Далі буде...
Немає коментарів:
Дописати коментар