Подивимось, шо нам приніс минулий тиждень (7-13 лютого).
Спочатку хочу уточнити деякі технічні деталі. Дотепер інструментарій зі збору публікацій працював таким чином, що одиницею тексту в тижневому наборі була збірка всіх статей певного джерела інформації за тиждень. Тобто, розмір корпусу текстів кожного тижня був однаковий і рівний 43 (кількість всіх джерел). Це, все таки, надто спотворювало обчислення значення TFIDF кожного слова для обох його складових: і при обчисленні TF (оскільки розмір тексту виявлявся великим, що призводило до зменшення значення його відносної частоти), і для IDF (загальна кількість текстів була заниженою, що викликало також заниження його значення). Отже, в результаті ми маємо суттєве спотворення при визначенні важливості кожного слова. Крім того, при обчисленні сентиментної направленості кожного тексту відбувалась надмірна узагальненість і неоднозначність, оскільки кожен текст складався із кількох десятків-сотень (а то й тисяч - у випадку форумів) емоційно різнонаправлених публікацій. Виходило, що обчислювалась якась незрозуліла усереднена величина, яка багато в чому залежала від розміру тексту та кількості вжитих в ньому слів із суб'єктивним забарвленням.
Зважаючи на все це, було вирішено збір та подальшу обробку текстів привести до одного стандарту "одна публікація - один текст". Для форумів це: "один пост - один текст". Тепер розмір корпусу становив 25-30 тис. текстів. Але тексти (особливо на форумах) можуть складатися із дуже незначної кількості слів (починаючи від одного), що в свою чергу призводитиме до необгрунтовано великого значення його відносної частоти TF. Тому, для відсіювання всіх незначних публікацій, було встановлене обмеження мінімальної кількості слів у тексті - 100. Після цього розмір корпусу зменшився до 5-6 тис. текстів.
Тепер почнемо із загальної статистики за тиждень.
Розмір словника цього тижня був на рівні попередніх тижнів - 80К слів. А кількість повторів кожного слова зменшилась в 2 рази, оскільки було введене обмеження на мінімальну кількість слів у тексті.
30 слів із найбільшим TFIDF.
Загальний рівень сентиментної спрямованості по всім текстам становив +0.17.
Тепер подивимось на граф 100 перших слів з найбільшим значенням СЗС.
Як і раніше, розмір шрифту відповідає значенню TFIDF слова, а колір - емоційній направленості.
Цього тижня граф вийшов репрезентативний хоча і різношорстний. Як і попередні тижні, найбільш значимі (за TFIDF) слова мають сентиментне забарвлення близьке до нейтрального (жовтий колір - +0.2...+0.3). Найважливішими, як і раніше, словами були "украина", "президент", "янукович", "страна" і "будет". Тут, правда, є ще слово "написав", яке має найбільший розмір, але воно здебільшого має відношення лише до публікацій у форумах, тому ми його до уваги не братимемо, хоча воно також має зв'язок і із зазначеними вище словами. "Украина" і "страна" з'єднані з переважною більшістю "великих" слів, оскільки вони є загальними для вжитку словами і як правило їх використовують разом із іншими, частими у вживанні словами. "Президент" з'єднаний із попередніми словами, а також має тісний зв'язок із "свобода" (яке має, звісно, забарвлення +0.9), "слово" (+0.35), "реформа" (+0.95), "демократі(и)я" (+0.46) та в мершій мірі із "пенсі(и)я" (+0.35), "добре(о)" (+0.99) і "правильний(о)" (+0.92). "Янукович" також має тісний зв'язок із "реформа", яке в свою тчергу з'єднане із "протест" (-0.91)... У "янукович" також існує зв'язок із "прекрасни(ы)й" (+0.96) і "донецк" (+0.36). Тобто наявні зв'язки зі всіма словами, які представляють декларації нашого президента.
Серед менш популярних але не менш цікавих тем минулого тижня можна виділити такі ланцюжки:
- "страна" (+0.26) - "развитие" (+0.97) - "торговля" (+0.54) - "нарушение" (-0.96); (мабуть, пов'язаний із зростанням продовольчих цін та повідомленнями Кабміну про порушення збоку роздрібних мереж);
- "страна" (+0.26) - "независимый(ость)" (+0.96) - "преступление" (-0.98) - "голод" (-1) - "страшный(о)" (-0.98) - "геноцид" (-0.92); (ця тема постійно маринується на практично всіх форумах);
- "жизнь" (+0.40) - "сожаление" (-0.99) - "куй" (-1) - "дерьмо" (-1); (а це вже шось із вкрай депресивного)).
Також є група слів, які ніяк (принаймні при даному рівні наближення) не пов'язані із іншими зі 100 найважливіших. Вони тією чи іншою мірою відображають якісь моменти з новин за тиждень, шо минув. Але переважна більшість із них походять із форумів або є уривками із рекламних стрічок, які потрапили в тексти корпусу.
Розглянемо детальніше графи деяких із цікавих, на мій погляд, слів.
Тут мова йшла про пенсійну реформу та все, що з нею пов'язано, а також відношення до цього ("геноцид")...
Тут виділені слова, які йдуть поряд із "грн" - "млрд", "млн", "тыс" та "платил(и)", "сверх", "бирка" і "блять".))
Графи про тарифи та ціни, без коментарів.
Тут відображені взаємозв'язки Янукович-Тимошенко-Ющенко. Вони все ще згадуються один в контексті одного, крім того "тимошенко" ще поєднується із "власть", а через нього - "политический", "уголовный" і "дело".
Минулого тижня мер Києва Л.Черновецький знову з'явився в новинах у зв'язку із його виходом на роботу (:). Напряму зв'язаний із "янукович", "президент" і "министр", крім того є маленький зв'язок із словом негативним "страх"...
Ну і під кінець, приз найпозитивнішого політика минулого тижня отримує Н.Шуфрич (+1). Крім можливого призначення його на посаду губернатора, він має невеличкий зв'язок із "юмор".:)
Цього разу це все. По представленим графам кожен може самостійно виявити ті чи інші залежності.
Далі буде.
Немає коментарів:
Дописати коментар