Тиждень № 41 (26.07-01.08). Поглянемо, яким він був з точки зору слів.)
Спочатку загальна статистика.
Минулого тижня джерелами інформації було використано трохи менше слів ніж тиждень перед цим - під 90 тис., проте відібрано було, як попереднього тижня, найбільшу кількість слів за весь період - 155 слів. Відсоток відібраних слів також високий: найвищий за остані 12 тижнів - рівно 20 %. Подивимось, які нові слова з'явились.
Я видно, нових слів в десятці не з'явилось, проте з'явилось кілька нових, пов'язаних із останніми:
|
| |
тут у відібрані тексти випадково потрапила інформація про кадрові зміни в російській міліції; природно, що найбільше це питання вислітлювали російські РИА НОВОСТИ та РБК. | в цьому місці висвітлювалась тема приїзду Паріарха РПЦ Кирила в Україну; найбільше цій темі зі значним відривом приділяли увагу російська Комсомольская правда і форуми на УРА-Інформ. | тут висвітленою темою є надання Україні кредиту від МВФ; цікаво, що найважливішою цю тему для себе визначила російська ВЗГЛЯД.РУ. |
Серед інших нових помічених слів були такі:
|
|
|
тут піднімалась тема прийняття закону про використання російської мови як офіційної в судочинстві; сюттєво більше від інших цією темою цікавилась російська Дни.Ру, а також форуми (що й зрозуміло) різних джерел. | тут мова йшла про пожежі в Росії та допомогу в їх гасінні від інших країн, зокремаі України. |
Подивимось на візуальний розподіл джерел за останні п'ять тижнів.

Як бачимо, розподіл хмарини практично не змінився. Тільки українські та російські джерела (з однойменних кластерних груп) дещо зблизились, порівняно з попереднім (40-м) тижнем. Прифорумна група яка була, така і залишилась.
На сьогодні все. Зараз я інтенсивно працюю над можливістю впровадження до текстів т.зв. сентиментного аналізу, тобто виявлення емоційних та оціночних складових в тексті та обчислення їх полярності (позитивні/негативні). Задумка така, щоб за всі попередні та наступні тижні оцінювати загальну емоційну полярність всіх джерел за тиждень, джерел із вибраних груп чи окремого джерела, а також оцінювати сентименти, спрямовані на певний конкретний предмет аналізу: "Україна", "Росія", "Президент", "прем'єр", "суд", "вибори" тощо. Детальніше про деякі проміжні результати вже в наступному пості.
Далі буде...
Немає коментарів:
Дописати коментар