Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

середа, 21 грудня 2011 р.

Починаємо знову.

Після тривалого мовчання, я знову розпочинаю графовий аналіз українських політичних новин. Надалі може не тільки політичних новин, і може не тільки українських...)

За цей час був повністю переписаний робочий код. Тепер всі новини отримуються за результатами пошуку у Google. До уваги беруться слова латиницею та кирилицею, а також числа, які разом із слідуючим за ним словом об'єднуються в один терм. Для приведення слів до одного кореня використовується стемер Портера (англ., рос. і укр.). Алгоритм обчислення сентиментної складової залишився незмінним. Поки що алгоритм відбору корисної інформації з HTML-коду працює не дуже добре. Але я його ще вдосконалюватиму.

Для початку я подам помісячні звіти починаючи із липня і по грудень, а надалі повернуся до щотижневих оглядів.

Починаємо завтра.

Немає коментарів:

Дописати коментар