Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

понеділок, 9 серпня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 41.

Тиждень № 41 (26.07-01.08). Поглянемо, яким він був з точки зору слів.)


Спочатку загальна статистика.



Tabl.1.gif



Draw.1a.gif



Draw.1b.gif



Draw.2.gif


Минулого тижня джерелами інформації було використано трохи менше слів ніж тиждень перед цим - під 90 тис., проте відібрано було, як попереднього тижня, найбільшу кількість слів за весь період - 155 слів. Відсоток відібраних слів також високий: найвищий за остані 12 тижнів - рівно 20 %. Подивимось, які нові слова з'явились.



Tabl.2.37-41.gif



Tabl.3.41.gif


Я видно, нових слів в десятці не з'явилось, проте з'явилось кілька нових, пов'язаних із останніми:



























тут у відібрані тексти випадково потрапила інформація про кадрові зміни в російській міліції;


природно, що найбільше це питання вислітлювали російські РИА НОВОСТИ та РБК.



в цьому місці висвітлювалась тема приїзду Паріарха РПЦ Кирила в Україну;


найбільше цій темі зі значним відривом приділяли увагу російська Комсомольская правда і форуми на УРА-Інформ.



тут висвітленою темою є надання Україні кредиту від МВФ;


цікаво, що найважливішою цю тему для себе визначила російська ВЗГЛЯД.РУ.



Серед інших нових помічених слів були такі:




























тут піднімалась тема прийняття закону про використання російської мови як офіційної в судочинстві;


сюттєво більше від інших цією темою цікавилась російська Дни.Ру, а також форуми (що й зрозуміло) різних джерел.



тут мова йшла про пожежі в Росії та допомогу в їх гасінні від інших країн, зокремаі України.




Подивимось на візуальний розподіл джерел за останні п'ять тижнів.



Cloud.buble.Week_37-41.gif


Як бачимо, розподіл хмарини практично не змінився. Тільки українські та російські джерела (з однойменних кластерних груп) дещо зблизились, порівняно з попереднім (40-м) тижнем. Прифорумна група яка була, така і залишилась.


На сьогодні все. Зараз я інтенсивно працюю над можливістю впровадження до текстів т.зв. сентиментного аналізу, тобто виявлення емоційних та оціночних складових в тексті та обчислення їх полярності (позитивні/негативні). Задумка така, щоб за всі попередні та наступні тижні оцінювати загальну емоційну полярність всіх джерел за тиждень, джерел із вибраних груп чи окремого джерела, а також оцінювати сентименти, спрямовані на певний конкретний предмет аналізу: "Україна", "Росія", "Президент", "прем'єр", "суд", "вибори" тощо. Детальніше про деякі проміжні результати вже в наступному пості.


Далі буде...

Немає коментарів:

Дописати коментар