Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

середа, 26 січня 2011 р.

63 тижні української політики. Кількість слів.

Отже, ми охоплюємо період із початку 43-го тижня 2009 року (19 жовтня - офіційного початку президентської передвиборної кампанії) по кінець 53-го тижня 2010 року (31 грудня). Набори текстів брались із джерел, перелік яких поданий тут.

Розпочнемо із загальної статистики. На першому графіку подано кількість унікальних слів, вжитих за тиждень (розмір словника).

Як видно, від початку передвиборних перегонів і до першого туру виборів (3-ій тиждень 2010 року) розмір тижневого словника переважно зростав. В тиждень проведення першого туру та на наступний тиждень кількість унікальних слів cтановила понад 84 тис. слів. В тиждень проведення другого туру виборів (6-ий тиждень 2010 року) розмір словника зменшився до 75 тис. слів. Абсолютним рекордсменом виступає 12-ий тиждень 2010 року, тоді було зафіксовано трохи більше 103 тис. слів. Про те, що це були за слова - трохи згодом. А зараз оцінимо загальну кількість вжитих за тиждень слів. Якщо виразити її у співвідношенні до розміру тижневого словника, то отримаємо наступний графік:

Середня кількість повторів кожного слова ("середня температура по лікарні") становить близько 25. Проте в період з 25-го по 31-ий тиждень кількість повторів сягала до 35, а 26-го тижня вона перевищувала 43. Тобто в цей період подання інформації повторювалось, що може свідчити про її важливість.

Розглянемо далі відносну кількість слів кожного тижня, які є новими для попередніх тижнів.

Як видно з графіка процент нових слів за тиждень сходиться до асимптотичного значення 9-10%. Вийнятками були тижні: 2-ий (попередній перед тижнем першого туру виборів), 12-14, 32-ий та 33-ій. Дані за 31-ий тиждень були втрачені, тому я їх просто продублював з 30-го.

Наприклад, 2-го тижня нові слова стосувались ошуканих вкладників банків та неповернення кредитів. В 12-14 тижні новими були в основному прізвища нових членів уряду та держструктур. 32-го тижня найбільш вживаними та новими теми про пожежі в Росії та Україні, а також затримання Пукача по справі Гонгадзе. 33-го тижня головними темами були фактичне усунення від влади мера Києва, та підвищення ціни на газ для населення.

Поки що це все. Наступного разу я подам сентиментні оцінки по тижням як наборів текстів, так і окремих слів.

 

 

понеділок, 17 січня 2011 р.

Емоційна полярність слів в українській політиці

Привіт.

Таке тривале мовчання викликане захопленням таким розділом text mining, як аналіз сентиментної спрямованості (якщо так можна перекласти sentiment polarity analysis) слів та текстів. Мені захотілось спробувати на накопичених наборах текстів провести аналіз полярності найпопулярніших слів по всіх текстах набору за кожен тиждень. Знадобилось досить багато часу, щоб знайти сучасні викладки з цієї тематики. Ще більше часу пішло на усвідомлення (:)) матеріалу та створення необхідних програмних інструментів. Звичайно, найсвіжіші та найцікавіші напрацювання в цьому напрямі - це роботи закордонних авторів, і серед них найбільше з обробкоб тектів англійською мовою. "Звичайно" - тому що доступних сучасних робіт не тільки із sentiment analysis, а й із text і data mining вітчизняних та російських дослідників - днем з вогнем. І це, я так думаю, в багатьох, не тільки ІТ, галузях...

Для визначення сентиментної полярності використовують різні техніки, але найчастіше це певний набір опорних слів твердо позитивного і негативного значення, відносно яких, за мірою їх наближення до опорних, і визначають спрямованість поточного слова. Додатково використовують різноманітні евристики для уточнення сентиментного насичення слова, але це вимагає глибоких лінгвістичних знань, яких в мене нема. Крім того для покращення результату використовують класифікатор, навчений на наборі текстів з наперед відомою сентиментною оцінкою (наприклад, на наборі рецензій кінофільмів). Поки що цим я вирішив не "грузитись" і почати з простого. Найбільше мені сподобався підхід розповсюдження графів із роботи L. Velikovich, S. Blair-Goldensohn K. Hannan R. McDonald "The viability of web-derived polarity lexicons". В ній крім визначення наближеності кожного відібраного слова до кожного із опорної вибірки також використовується оптимізація таких зв'язків на графі через взаємні зв'язки відібраних слів між собою. Ця техніка разом із великим відібраним із Web лексиконом слів дозволило покращити точність визначення на 7-9% (до 68-70%) відносно сучасних дефакто стандартних (state-of-the-art) алгоритмів з використанням лексикону із WordNet. Звісно, це все мова про англійську мову.:) В мене ж при використанні набору із 1739 російських текстів оглядів кінофільмів з сайту 

sqd.ru точність визначення сентиментної полярності текстів вийшла на рівні 58-60%.. Тобто, рости є куди...)

Поки що це все. Наступного разу наведу конкретні результати спрямованості різних (популярних) слів за останні 63 тижні життя української політики.

Пока.