Трохи забарився зі звітом, сорі. Отже, результати за 31 і 32 тижні (з 17.05 по 30.05).
Як бачимо, розмір словників за попередні два тижні знаходиться на звичному рівні ~80-90 тис. слів для загальних тижневих словників і ~120 слів для відібраних словників. Відносна кількість нових слів також нічим новим не дивує - 3-8 %.
У відборі текстів джерел відбулись деякі зміни: тепер з GLAVRED.INFO береться не аналітика (яка є досить куцою по обсягах), а новини; також для Факти (ICTV, ictv.ua) стали доступні новини також російською мовою.
Тепер подивимось, якими словами найчастіше користувались наші джерела. Для зручності порівняння тих чи інших слів у різних джерел та різних слів у одного джерела, тепер поряд зі словом наводиться величина його TF-IDF коефіцієнта.
Перший висновок, який можна зробити - це відносно невеликі перші значення TF-IDF слів у форумах. Максимальне число 0.0037, тоді як в інших джерелах воно сягає майже 0.02. Це пояснюється як самим невеликим вжитком таких слів, так і відносно великим розміром відібраних документів (і, відповідно, великою загальною кількістю слів у ньому) для форумів.
За останні два тижні в першій п'ятірці слів різних джерел з'явились нові слова "медведе(є)в", "нато", "альянс", "вступление", "ссср", які найчастіше використовували російські джерела. З першої десятки зникло "тимошенко", яке перед цим було другим у списку найвживаніших слів. Зате останнього тижня це місце зайняв "янукович".
Як і обіцяв, тепер я також наводитиму слова, найбільш корельовані з першою десяткою слів. Як міру подібності використовується косинус кута. Ось цей список слів.
Видно, наприклад, що 31-го тижня слово "украина" в основному було пов'язане з українсько-російською угодою, а 32-го - з українським питанням та політикою. Слово "россия" 31-го тижня охоплювало візит російського президента до України, а 32-го - питання розподілу майна колишнього СРСР. Слово "вопрос" 31-го тижня виражало поняття спільної міжнародної політики, військові та офіційні питання, 32-го - теми щодо держави, країни і національні питання. 32-го тижня слово "нато" було пов'язане зі вступом до альянсу (вірніше його відкладенням), що було озвучене Президентом і яке найбільше цитували російські ЗМІ РБК (www.rbc.ru), Газета.Ru (gazeta.ru) і NEWSru.com.
Також, 31-тижня таке слово, як "бют" було пов'язане з притягненням до відповідальності депутата Верховної Ради від фракції БЮТ А.Парубія, а слова "киев" і "москва" найчастіше використовувалось для опису українсько-російських домовленостей щодо Чорноморського Флоту РФ. 32-го тижня слово "львов" використовувалось для коментування приїзду Президента до Львова. Слово "язык", яке найчастіше використовується на форумах, асоціюється зі статусом російської мови у Криму та на загальнодержавному рівні.
Тепер подивимось, яким є взаємне розташування джерел у хмарині даних за останні п'ять тижнів.
Загальне розташування і склад груп залишився тим самим, а саме:
- "українська група", нижня частина загальної хмарини зправа. Тут зібрані всі ті ж самі джерела: українські Час (5 Канал), Факти (ICTV), Газета.ua, 4POST, Корреспондент.net, Интерфакс-Украина, Репортер (Новий канал), GLAVRED.INFO, Українська правда і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, а також двомовні переклади іноземних джерел Newsru.ua і Корреспондент.net/Мир о нас. Правдв, до цієї ж групи останнім часом примкнув і Цензор.нет. 32-го тижня представники цієї групи виступають дружнішою купкою, ніж раніше (28-го тижня).
- "російська група", верхня частина загальної хмарини зправа. Тут перебувають такі джерела, як: російські Дни.Ру, РБК, РИА НОВОСТИ, Газета.Ru, Лента.Ру і NEWSru.com, українські російськомовні Вiкна-новини (СТБ), ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ і Сегодня.ua та західні ЗМІ у викладі ИноСМИ.Ru
. Останнім часом сюди ж примкнула Комсомольская правда (яка раніше була серед блукаючих джерел). Ця група трохи більше розріджена, ніж попередня, хоча останнього тижня виглядають теж досить згуртовано. - "прифорумна група
", вірніш, не група а два окремих, але згуртованих представники. Це українське російськомовне джерело Версии.com та російське ИА REGNUM. - "блукаюча група". Представники цієї групи, як вільні митці, прив'язують себе до конкретного місця і подорожують з однієї групи в іншу. Останнім часом ця групка трохи порідшала і тепер сюди входять лише чотири джерела - українські proUA.com, Вся-Правда і DailyUA та російське джерело ВЗГЛЯД.РУ.
- "форуми", Середня частина загальної хмарини. Як завжди щільна дружна хмаринка, що складається зі всіх форумів.
- "нульова", зверху зліва. Джерела без текстів, яких за останні тижні поменшало.
Надалі я планую використовувати алгоритми кластеризації, для того щоб автоматично виділяти слова, які найбільш притаманні тій чи іншій групі. А поки що це все.
Далі буде...
Немає коментарів:
Дописати коментар