Вибачте за тривале мовчання. Сьогодні наздоганятиму згаяне і розглядатимемо два останні тижні: 38-ий (05.07-11.07) та 39-ий (12.07-18.07).
Минулого тижня при формуванні текстів для російської Газета.Ru я виявив недоліки в параметрах очищення починаючи з 30-го тижня і до останнього. Так що тепер розміри словників за ці тижні дещо відрізнятимуться від попередньо поданих. І, звичайно, найвживаніші слова для цього джерела теж змінились.
Спершу загальна статистика.
Як видно, останні два тижні були однаково досить багатослівними. Розміри сукупних словників перевищували 90 тис. слів, а розміри відібраних - планку в 140 слів.
По новизні, проте, ці тижні суттєво відрізняються: 38-го тижня процент нових слів серед відібраних особливо не відрізнявся від попередніх тижнів - біля 6 %, а останнього тижня підскочив до рівня більше 16 %. Отже, 39-го тижня серед джерел нам слід очікувати появу багатьох нових слів. Поглянемо на п'ятірки найважливіших слів по джерелам.
Десятка найвживаніших слів за два останні тижні практично не змінилась. Хіба що з неї вибуло слово "россия", яке тут перебувало останні кілька тижнів.
Хочу пояснити, чому числа кореляції стали такими малими порявняно з попередніми тижнями. Раніше кореляція двох слів вираховувалась в сумарних тижневих текстах кожного джерела. Оскільки в такий текст входять всі статті за тиждень для кожного джерела, обчислені взаємозалежності двох слів можуть бути хибними, тобто може бути виявлена залежність слів з різних статтей, шо не є правильно. Тому тепер для обчислення кореляції між двома словами всі тексти джерел попередньо розділяються на статті (а форуми - на пости). В результаті, якщо раніше розмір ряду, по якому обчислювався відповідний коефіцієнт, становив 43 (кількість всіх джерел), то тепер він становить 30-40 тис. Тому і отримуємо такі малі числа коефіцієнта кореляції.
Продовжу. 38-го тижня частовживаних нових слів було мало. Наприклад, можна згадати:
тут мова йшла про переговори уряду з МВФ щодо отримання кредиту;
це слово пов'язане з реформою податкового законодавства, яким безпосередньо займається віце-прем'єр С.Тігіпко, зокрема також піднімалось питання про ПДВ; значно активніше від інших цю тему висвітлював український Цензор.нет;
в даному випадку обговорювалось звільнення віце-прем'єра В.Семиноженка; найпристальніше цій темі приділяв увагу український Версии.com;
А от 39-го тижня можна зустріти цілу батарею нових слів. Перш за все - кілька нових прізвищ:
ця тема стосується конфлікту між головою Адміністрації Президента С.Льовочкіним та екс-міністром з надзвичайних ситуацій Н.Шуфричем;
тут описуються новини від опозиційних до теперішньої влади Росії президентів Грузії та Білорусі; звичайно, найбільше цій темі приділяють увагу російські NEWSru.com, Газета.Ru, Комсомольская правда і РИА НОВОСТИ;
тут "засвітились" нові прізвища з останніх призначень Президента на деякі посади.
тут зачіплена чи не найважливіша тема останнього тижня - підвищення ціни на газ для населення; примітно, що поряд із ЗМІ (російським Лента.Ру і українським Вiкна-новини) цю тему активно обговорювали і на форумах, особливо на сайті GLAVRED.INFO;
та й сам "газ", якщо 38-го тижня
він вживався виключно в контексті "стокгольмської справи" про повернення 11 млрд. м.куб. газу,
то 39-го тижня
це слово було практично синонімом зростання ціни для населення, як одну з ключових вимог МВФ.
Перейдемо тепер до опису груп джерел за останні п'ять тижнів. Спершу подам картинку розподілу джерел.
Також поглянемо на слова, які є характерними для кожного з семи кластерів:
Розподіл на групи за останні два тижні практично не змінився. На основі кластеризації можна виділити такі групи:
- Кластер 0. Представляє собою лише одне джерело: російську Комсомольская правда за 36-ий тиждень. Тут висвітлюється інтерв'ю з дослідником сталінізму Д.Лисковим.
- Кластер 1. Тут перебувають лише два російських джерела за 35-ий тиждень: Дни.Ру і Комсомольская правда. Темою тут є голодомор українського народу.
- Кластер 2, "
прифорумна
група". Сюди відносяться українські Цензор.нет, Версии.com, Вся-Правда, російські Газета.Ru, NEWSru.com і ИА REGNUM, а також західні ЗМІ від ИноСМИ.Ru. - Кластер 3. "група форумів
". Склад цієї групи дещо змінився. Тепер членами її є все ті ж джерела та українські proUA.com і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ. - Кластер 4, "українська група". Ця група трихи погрубшала. Тепер її склад такий: українські 4POST, Час (5 Канал), DailyUA, Газета.ua, GLAVRED.INFO, Факти (ICTV), Інтерфакс-Україна, Корреспондент.net, Репортер (Новий канал) і Українська правда та західні ЗМІ з Корреспондент.net/Мир о нас і Newsru.ua.
- Кластер 5. Включає лише один російський ВЗГЛЯД.РУ за 35-ий тиждень. Темою цього кластеру були вибори в Польщі.
- Кластер 6, "російська група". В цій групі відбулись невеликі зміни: членами її тепер є російські Дни.Ру, Лента.Ру, РБК і РИА НОВОСТИ та українські російськомовні ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ, Сегодня.ua і Вiкна-новини.
- "блукаюча група". Склад цієї групи зазнав значних змін, зараз сюди входять лише два російські джерела Комсомольская правда і ВЗГЛЯД.РУ.
- "нульова група". Тут форум сайту ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ за 35-ий тиждень.
Немає коментарів:
Дописати коментар