Після тривалого мовчання, я знову розпочинаю графовий аналіз українських політичних новин. Надалі може не тільки політичних новин, і може не тільки українських...)
За цей час був повністю переписаний робочий код. Тепер всі новини отримуються за результатами пошуку у Google. До уваги беруться слова латиницею та кирилицею, а також числа, які разом із слідуючим за ним словом об'єднуються в один терм. Для приведення слів до одного кореня використовується стемер Портера (англ., рос. і укр.). Алгоритм обчислення сентиментної складової залишився незмінним. Поки що алгоритм відбору корисної інформації з HTML-коду працює не дуже добре. Але я його ще вдосконалюватиму.
Для початку я подам помісячні звіти починаючи із липня і по грудень, а надалі повернуся до щотижневих оглядів.
Починаємо завтра.
Немає коментарів:
Дописати коментар