Поглянемо, що принесли нам 33-ій та 34-ий тижні (31.05-13.06).
Як видно, за ці тижні розмір словника є на досить високому рівні. Також, досить великими є і розмір словника відібраних слів, який за останні чотири тижні постійно зростає і становить зараз під 130 слів. І процент нових слів серед відібраних за два останні тижні також на "рівні" - більше 12%. Можна сподіватись, що за ці тижні з'явилось кілька нових слів. Подивимось, які слова були найпопулярнішими.
А також найбільш корельовані з першою десяткою слова.
За 33-ій тиждень в першій десятці найвживаніших ніяких нових слів не з'явилось. Серед джерел крім найвживаніших з'являлись слова "прослушка", "сбу" (українські джерела Цензор.нет та ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ), а також "суддя", "суд" (українські джерела proUA.com, Сегодня.ua та Версии.com), які стосувались реформи судової системи. Слова "мова" і "язык" (ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ і форуми) які були пов'язані між собою з коефіцієнтом 0.764 і були синхронними до слова "стал" з кореляціями в 0.579 і 0.747 відповідно охоплювали тему розвитку регіональних мов.
Для слова "война", яке часто вживалось на форумах 33-го тижня найбільш тотожними були "жизнь" (0.805), "лет" (0.612), "дело" (0.588), "одно" (0.581) і "говорит" (0.542).
"Война" невідємна від "жизни"..:)
34-го тижня серед десяти найпопулярніших з'явились слова "слово" і "канал". Як видно з Табл.3 перше з них використовувалось в контексті ситуації зі свободою слова в країні, а друге - про перерозподіл частот для телевізійних каналів "5 канал" (він не відображений, оскільки всі числа відсіюються) та "ТВІ". Перше з цих слів найчастіше використовували українське джерело 4POST і на форумах сайту ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ, а друге разом з тотожними словами з великою інтенсивністю задіював Репортер (Новий канал), а також Сегодня.ua та іноземні джерела у викладі Newsru.ua.
Новим словом цього тижня було "реформа" (ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ і Корреспондент.net/Мир о нас) найбільш пов'язане зі словами "державний" (0.664) і "держава" (0.653), тобто найчастіше використовувалось в україномовних текстах.
Слово "турция" (російські джерела NEWSru.com і РИА НОВОСТИ) найбільше ототожнювалось із "рф" (0.821), "москва" (0.793), "стамбул" (0.789), "путин" (0.736), "россия" (0.676), що має відношення до турецько-російських домовленостей по газу.
Подивимось тепер, як виглядає хмарина даних всіх джерел за останні п'ять тижнів. Тут хочу додати, що на днях знайшов в інтернеті непогане розширення OpenOffice, називається OxygenOffice, в якому реалізовано велика кількість вдосконалень. Зокрема є і бульбашкові діаграми з можливістю підписів даних. Тепер всі хмарини я буду подавати в бульбашковому вигляді, де діаметр бульбашки пропорційний сумарному значенню TFIDF (активності) кожного джерела.
Так значно гарніше..:)
Розташування і склад груп залишився практично на тому самому рівні:
- "українська група", нижня частина загальної хмарини зліва. Сюди входять: українські Час (5 Канал), Факти (ICTV), Газета.ua, 4POST, Корреспондент.net, Интерфакс-Украина, Репортер (Новий канал), GLAVRED.INFO, Українська правда і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, а також двомовні переклади іноземних джерел Newsru.ua і Корреспондент.net/Мир о нас. 33-го тижня ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ разом з Цензор.нет зробили різкий стрибок в хмарину форумів (зверху), а 24-го вже розійшлися по місцях.
- "російська група", нижня частина загальної хмарини зправа. Тут перебувають такі джерела, як: російські Дни.Ру, РБК, РИА НОВОСТИ, Газета.Ru, Комсомольская правда, Лента.Ру, ВЗГЛЯД.РУ і NEWSru.com, українські російськомовні Вiкна-новини (СТБ), ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ і Сегодня.ua та західні ЗМІ у викладі ИноСМИ.Ru .
- "прифорумна група
". Їй належать вього два представники: українське російськомовне джерело Версии.com та російське ИА REGNUM. - "блукаюча група". Без постійного місця прописки - це українські proUA.com, Цензор.нет, Вся-Правда і DailyUA.
- "форуми", верхня частина загальної хмарини. Як завжди згуртована.
- "нульова", зверху зліва. Джерела без текстів, яких за останні тижні поменшало.
Як видно, найбільший рівень значень TFIDF спостерігається серед джерел російської групи, а найменший - серед представників форумів. Це пояснюється тим, що розміри текстів першої відрізняються відносно невеликим розміром і тут частіше застосовуються слова, які інші джерела не використовують. На відміну від форумів, де розміри текстів значно більші а їх різноманіття є значно меншим.
Проведемо тепер кластеризацію хмарини і визначимо по десять найвживаніших слів для кожного кластера.
Кластеризація проводилась за алгоритмом К-середніх за допомогою програмного продукту для data mining RapidMiner. Кількість кластерів я вибрав 5 - для досягнення достатньої пластичності при розділенні на групи. Ось що вийшло.
Кластер 0 - джерела російської групи в основному за 30-ий, 32-ий та 33-ій тижні.
Кластер 1 - джерела російської групи переважно за 31-ий та 34 тижні.
Кластер 2 - джерела української групи за виключенням Української правди і ЗЕРКАЛА НЕДЕЛИ/ДЗЕРКАЛА ТИЖНЯ.
Кластер 3 - найменший, два представники - DailyUA за 32-ий тиждень та Газета.Ru за 34-ий.
Кластер 4 - найчисельніший, тут всі джерела форумної, прифорумної, блукаючої груп, а також Українська правда і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ.
Подам результати відбору найвживаніших слів для кожного кластера у вигляді таблиці.
Далі буде...
Немає коментарів:
Дописати коментар