Привіт.
Таке тривале мовчання викликане захопленням таким розділом text mining, як аналіз сентиментної спрямованості (якщо так можна перекласти sentiment polarity analysis) слів та текстів. Мені захотілось спробувати на накопичених наборах текстів провести аналіз полярності найпопулярніших слів по всіх текстах набору за кожен тиждень. Знадобилось досить багато часу, щоб знайти сучасні викладки з цієї тематики. Ще більше часу пішло на усвідомлення (:)) матеріалу та створення необхідних програмних інструментів. Звичайно, найсвіжіші та найцікавіші напрацювання в цьому напрямі - це роботи закордонних авторів, і серед них найбільше з обробкоб тектів англійською мовою. "Звичайно" - тому що доступних сучасних робіт не тільки із sentiment analysis, а й із text і data mining вітчизняних та російських дослідників - днем з вогнем. І це, я так думаю, в багатьох, не тільки ІТ, галузях...
Для визначення сентиментної полярності використовують різні техніки, але найчастіше це певний набір опорних слів твердо позитивного і негативного значення, відносно яких, за мірою їх наближення до опорних, і визначають спрямованість поточного слова. Додатково використовують різноманітні евристики для уточнення сентиментного насичення слова, але це вимагає глибоких лінгвістичних знань, яких в мене нема. Крім того для покращення результату використовують класифікатор, навчений на наборі текстів з наперед відомою сентиментною оцінкою (наприклад, на наборі рецензій кінофільмів). Поки що цим я вирішив не "грузитись" і почати з простого. Найбільше мені сподобався підхід розповсюдження графів із роботи L. Velikovich, S. Blair-Goldensohn K. Hannan R. McDonald "The viability of web-derived polarity lexicons". В ній крім визначення наближеності кожного відібраного слова до кожного із опорної вибірки також використовується оптимізація таких зв'язків на графі через взаємні зв'язки відібраних слів між собою. Ця техніка разом із великим відібраним із Web лексиконом слів дозволило покращити точність визначення на 7-9% (до 68-70%) відносно сучасних дефакто стандартних (state-of-the-art) алгоритмів з використанням лексикону із WordNet. Звісно, це все мова про англійську мову.:) В мене ж при використанні набору із 1739 російських текстів оглядів кінофільмів з сайту
sqd.ru точність визначення сентиментної полярності текстів вийшла на рівні 58-60%.. Тобто, рости є куди...)
Поки що це все. Наступного разу наведу конкретні результати спрямованості різних (популярних) слів за останні 63 тижні життя української політики.
Пока.
Немає коментарів:
Дописати коментар