Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

пʼятниця, 30 березня 2012 р.

Тиждень 2012.11-12.

З деяким запізненням, але подивимось на головні слова попередніх двох тижнів. Граф слів буде об'єднаним за обидва тижні. Ось він.

Як бачимо, основними концепціями за ці тижні були слова: "время", "вопрос", "говорити", "больше", "Украина", "Україна", "глава", "команда", "предложение".

Найбільші тематичні кола:

  • "вопрос" (+0.110) - "говорить" (+0.029) - "больше" (+0.090) - "может" (+0.046) - "решение" (+0.007) - "Олександр" (-0.007) - "люди" (-0.017) - "год" (+0.071) - "Сергій" (+0.022);
  • "время" (+0.004) - "команда" (+0.269) - "глава" (+0.003) - "предложение" (+0.178) - "организация" (-0.020) - "фонд" (+0.185);
  • "Тимошенко" (+0.110) - "Юлия" (-0.137) - "дело" (-0.012) - "уголовный" (+0.004) - "власть" (+0.067).

Тепер створивши мовну модель тижня за допомогою n-грам, відтворимо послідовності деяких найвживаніших слів.

 

Відносно слова "Украина" три відтворених найвживаніших послідовності стосуються призначення (довгоочікуване) президентом П.Порошенка міністром економічного розвитку і торгівлі, турбота прем'єра про підвищення рентабельності вітчизняних НПЗ (на фоні нестримного і необгрунтованого зростання цін на заправках країни) і прагення української влади парафувати угоду з ЄС.
Найголовнішими темами про "Янукович" були забезпечення виплат для компенсації вкладів Ощадбанку СРСР (що сприйнялось як підготовка до парламенських виборів восени), намір зробити російську мову другою державною, що також було сприйнято, як свідчення наближення виборів депутатів і знову ж таки призначення Порошенка міністром.
Із "Тимошенко" все однозначно. Тут публікувались повідомлення про погіршення стану здоров'я (Ю.Тимошенко та Ю.Луценка також), необхідності лікування на стаціонарі та заяви західних політиків про ознаки політичних репресій в Україні.
Тема "Евро" (-2012) також була (і є) непростою. Тут і неокупність витрачених на підготовку 35 млрд. (!!) коштів, і негативний вплив не цю подію політичних переслідувань опозиції в країні тощо. Взагалі слово "Евро" за минулі два тижні мало сентиментне значення -0.178, тобто суттєво негативне...
На сьогодні це все. Далі буде.

 

неділя, 18 березня 2012 р.

Тиждень 2012.10. Бі-грами.

Спочатку подивимось на основні слова попереднього тижня, а потім на найвживаніші пари слів (бі-грами). Отже, найважливішими словами 10-го тижня року були:

Найголовнішими словами цього тижня були практично ті ж, що й попереднього: "новий", "партія", "Янукович", "Россия", "суд", "выборы", "право", "дело", "Тимошенко", "страна", "Путин". Головний граф слів виглядав наступним чином.

 

Найбільші концепції тут: "больше" (+0.133), "Украина" (-0.103), "может" (+0.036), "Україна" (+0.034), "говорить" (-0.156), "время" (+0.194), "страна" (-0.044), "час" (+0.061), "стал" (+0.053), "Россия" (-0.031).

Найвираженішими тематичними колами були три:

  • "министр" (+0.001) - "премьер" (+0.075) - "бывший" (-0.073) - "экс" (-0.045) - "Юлия" (-0.079) - "Тимошенко" (+0.033) - "колония" (-0.194);
  • "дело" (+0.099) - "Киев" (+0.081) - "суд" (+0.062) - "решение" (+0.013) - "Луценко" (+0.190) - "справа" (+0.073) - "рішення" (+0.084);
  • "Россия" (-0.031) - "российский" (-0.066) - "Путин" (+0.050) - "выборы" (-0.248) - "победа" (-0.146) - "оппозиция" (+0.041) - "митинг" (+0.032) - "Москва" (-0.134).

Цікаво, що остання тема про перемогу В.Путіна на виборах має здебільшо негативне забарвлення.

Тепер подивимось, які бі-грами були найвживанішими:

Тут також багато таких слів, які вже були: "Виктор Янукович", "Юлия Тимошенко", "Владимир Путин", "партия регионов", "президентские выборы" тощо. Поглянемо на граф бі-грам. Величина сентиментного навантаження обчислювалась як середнє із двох слів.

Як можна помітити, найщільніші тематичні кола тут пов'язані із прогнозом погоди чи якоюсь другорядною інформацією. Це, скоріш за все, є наслідком неякісного пошуку статей новин. Серед інших помітних пожна виділити такі тематичні послідовності:

  • "Качановская исправительная" (+0.079) - "исправительная колония" (-0.176) - "суд прав" (-0.087) - "Вальбург Хабсбург" (+0.082);
  • "партия регионов" (-0.222) - "Сильная Украина" (+0.027) - "речь идет" (+0.006) - "угода асоціації" (+0.074);
  • "Юрий Луценко" (-0.023) - "генеральный прокурор" (-0.045) - "министр внутренних" (-0.134) - "администрация президента" (+0.062).

Тут є над чим далі працювати. Треба покращити відбір текстів новин, а також можна спробувати об'єднати пари слів із однаковими словами і подивитись, який вийде граф.

А поки що це все. Далі буде.

середа, 7 березня 2012 р.

Тиждень 2012.09.

Розглянемо основні теми попереднього тижня (27 лютого - 4 березня).

Всього було опрацьовано 5200 повідомлень із новин. Найвживанішими словами були:

Серед 30-ти перших слів є три прізвища: Янукович, Луценко і Тимошенко (що і не дивно). Поглянемо на загальний граф тижня.

Серед найбільших концепцій цього тижня можна назвати: "больше", "говорить", "дело", "должны", "может", "власть", "политический", "регион", "страна".

Найтіснішими тематичними циркуляціями тут були:

  • "регион" (-0.007) - "организация" (-0.004) - "партия" (-0.069) - "проводить" (-0.055);
  • "уголовный" (-0.196) - "Луценко" (-0.012) - "приговор" (-0.054) - "экс" (-0.172) - "Юрий" (-0.240) - "судебный" (+0.020);
  • "посада" (-0.028) - "державний" (+0.076) - "закон" (-0.001) - "служба" (+0.076) - "новий" (-0.011);
  • "Владимир" (-0.299) - "Путин" (-0.241) - "Россия" (+0.006) - "российский" (-0.286) - "газета" (+0.004).

Як бачимо, переважна більшість слів в основних темах мали негативне емоційне забарвлення.

Наостанок, витяги деяких цікавих частин графа.

На сьогодні це все. В мене є одна задумка спробувати замість окремих слів відбирати найвживаніші пари слів і з них формувати загальний граф. Взагалі-то це давно відомий прийом в технології обробки текстової інформації - використання бі-грам. Що з цього вийде - наступного разу.

Далі буде.

пʼятниця, 2 березня 2012 р.

Тиждень 2012.08.

Спочатку про нововведення. Тепер всі слова із власних назв (ті що були такими розпізнані алгоритмом) пишуться із великої букви. Я вирішив так зробити після того, як в попередніх графах я помітив, що слово "сир" означало власне сир, молочний продукт, і Сирію, країну. Щоб все таки відокремити ці кардинально різні теми і було введене виділення слів власних назв.

Що ж тепер подивимось, які тематичні течії переважали попереднього тижня.

Основними концепціями в цей тиждень були "вопрос", "страна", "Украина", "первый", "Україна", "люди". 

Як можна помітити, найголовнішими були такі теми:

  • "людська": "вопрос" (+0.454), "люди" (+0.062), "говорити" (+0.040), "думати" (+0.492), "сделать" (+0.043), "делать" (+0.138), "человек" (+0.381), "времена" (+0.045), "жизнь" (+0.485), "хорошо" (+0.373);
  • "політична російськомовна": "страна" (+0.301), "Украина" (+0.462), "первый" (+0.480), "власть" (+0.475), "выбор" (+0.044), "партия" (+0.055), "Россия" (-0.058), "год" (-0.027), "время" (+0.459), "кандидат" (+0.031), "Москва" (+0.062), "состав" (-0.078), "украинский" (+0.101), "российский" (+0.404), "газ" (-0.023), "газовый" (+0.019), "Европа" (+0.075);
  • "політична україномовна": "Україна" (+0.137), "питання" (+0.169), "політичний" (+0.118), "влада" (+0.292), "перший" (-0.011), "року" (+0.027), "країна" (+0.162), "український" (-0.065), "російський" (+0.039), "суд" (+0.015), "Європа" (+0.092);
  • "депутатська": "закон" (+0.018), "депутат" (+0.126), "народний" (+0.165), "парламент" (+0.209), "Верховна" (+0.036), "Рада" (+0.012), "фракція" (+0.073), "законопроект" (+0.040), "Литвин" (+0.405);
  • "Тимошенко": "Тимошенко" (+0.046), "врач" (-0.130), "состояние" (+0.177), "служба" (-0.077), "заява" (+0.023), "Луценко" (+0.042).

Поглянемо на деякі слова ближче.

Цікаво, що "Путин" (+0.059) міцно пов'язане із "тур" (+0.049), "второй" (+0.54), "мнение" (-0.096), "эксперт" (+0.022).

А "Ющенко" (-0.085) найбільш поєднане з "партія" (+0.055), "власний" (-0.106), "список" (0.0), "мав" (+0.051).

Єдина тема, де практично всі слова мають негативний зміст: "церква" (-0.326), "православна" (-0.206), "УПЦ" (-0.171), "МП" (-0.190), "церковний" (-0.299), "Священний" (-0.230), "Синод" (-0.209), "митрополит" (+0.029), "Володимир" (+0.081).

Це все щодо цього тижня. Далі буде.