Новини тепер завантажуються напряму із новиннєвих сайтів. Були вибрані наступні джерела:
- Сегодня.ua (рос.).
- УНІАН (рос./укр.).
- ЛІГА.Новини (рос./укр.).
- Finance.ua (рос./укр.).
- forUm (рос./укр.).
- Українська правда (рос./укр.).
- Корреспондент.net (рос./укр.).
- Фокус.ua (рос.).
Всі ці сайти дозволяють зкачувати новини за вказаною датою. Якщо можливо, беруться новини обома мовами.
За ці два тижні (з 16 по 29 січня) було завантажено більше 8000 текстів новин на політичну тематику. Загальний граф має такий вигляд.
Відібрані слова зі зв'язками більше 0.5. Колір слова відповідає його семантичному забарвленню, а розмір слова - проміжна централізація. Це нове поняття взяте із аналізу графів, яке означає, як часто слово зустрічається при переміщенні по графу між двома випадковими словами. В цьому досліджені зокрема зазначається, що ця величина може слугувати для визначення головних концепцій тексту (або текстів в нашому випадку). Завдяки цій методиці ми можемо побачити, що основними концепціями за ці зва тижні були:
температура, розслідування, європейський, процесуальний, февраль, синоптик, президент.
Концепції поєднують основні теми, які визначені найбільшими скупченями графа.
1. Тема пов'язана із кримінальними ділами, причому українською мовою. Основні слова (за величиною TF-IDF) тут: "суд" (-0.225), "кримінальний" (-0.121), "документ" (+0.161), "кодекс" (+0.073), "прокурор" (+0.009), "останній" (+0.145), "рішення" (-0.074), "справа" (-0.180).
2. Невелика тема діяльності прем'єр-міністра: "голова" (-0.244), "азаров" (-0.022), "преса" (+0.068), "протокол" (+0.064), "градус" (-0.019), "державний" (-0.09), "концепція" (-0.102).
3. Суміш різних невеликих тем українською і російською мовами з переважно позитивним забарвленням. Найвживаніші слова тут: "система" (+0.267), "премьер" (+0.071), "синоптик" (+0.185), "батькивщина" (+0.158), "цена" (+0.089), "загальний" (-0.200), "бывший" (-0.030), "компанія" (-0.055), "февраль" (-0.022).
4. "Президентська" тема. Головні слова в цій частині: "президент" (+0.052), "возможный" (+0.247), "социальный" (+0.281), "верховна" (+0.292), "рада" (+0.382), "нафта" (-0.349), "вартість" (-0.339), "стратегический" (+0.065), "альтернативний" (+0.192).
5. В цій частині зібрано багато імен та дієслів. Наприклад: "говорить" (+0.118), "знает" (+0.012), "простий" (+0.055), "понимать" (+0.009), "думать" (+0.248), "хотел" (+0.390), "леонід" (-0.153), "леонид" (+0.526), "сергій" (+0.080), "георгій" (-0.152), "дмитро" (+0.244).
6. Ще одна невеличка "погодна" тема, пов'язана із заморозками і переважно негативного емоційного забарвлення. "Температура" (-0.105), "днем" (+0.033), "ночью" (+0.057), "север" (-0.094), "ветер" (-0.021), "восточный" (-0.085), "облачно" (+0.083), "гололед" (-0.007), "снег" (-0.014), "прояснение" (+0.115).
На стогодні це все. Далі буде.
Немає коментарів:
Дописати коментар