Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

середа, 22 лютого 2012 р.

Тиждень 2012.07.

Продовжимо наш огляд тижневих новиннєвих зрізів на політичну тематику. 7-ий тиждень (з 13 по 19 лютого).

Найвживанішими слова цього тижня були:

Всі вони представляють ті чи інші теми тижня. Пізніше, ми розглянемо їх детальніше. А зараз подивимось на основний граф тижня.

Як і минулого разу, були відібрані 300 слів із найбільшими TFIDF-значеннями, розмір слова відповідає його величині міжсловесної централізації (концепції), колір слів визначає його сентиментне забарвлення, а кольори зв'язків - скупчення слів в тематичні кластери. Як можна помітити, переважна кількість слів цього тижня має біля-нейтральне емоційне забарвлення.

Як і попереднього тижня, найбільшою за кількістю слів та щільністю є суспільно-економічна тематика, подана російською мовою. Сюди входить найбільша кількість яскраво виражених слів-концепцій. Це такі слова як: "вопрос" (-0.043), "думать" (+0.055), "страна" (+0.023), "первый" (+0.013), "говорить" (-0.020), "год" (-0.022), "сделать" (+0.086), "последний" (-0.238), "цель" (-0.043), "часть" (+0.010).

Другою за розміром є політична російськомовна тема. Тут основними концепціями є: "украина" (+0.010), "время" (-0.020), "дело" (-0.137), "президент" (-0.215), "украинский" (0.0), "российский" (-0.253), "государственный" (+0.086), "сообщить" (+0.008), "луценко" (+0.004), "прокурор" (-0.023).

Поглянемо детальніше на пару слів, які мають оточення з переважно негативним забарвленням. Наприклад, "луценко":

"луценко", "приступлюк" (-0.029), "суд" (+0.005), "прокурор", "дело", "обвинение" (-0.012), "приговор" (-0.038), "лишение" (+0.168), "имущество" (-0.171).

А ще "газ":

"газ" (-0.171), "россия" (-0.027), "российский", "цена" (-0.220), "газпром" (-0.167), "переговоры" (-0.014), "поставка" (-0.109), "европа" (+0.014).

 

Подальшим продовженням політичної теми є наступна - Тимошенко:

Основна послідовність тут: "тимошенко" (-0.004), "власенко" (-0.296), "врач" (+0.054), "иностранный" (+0.023), "обследование" (+0.097), "медицинский" (+0.024), "комиссия" (+0.010), "лечение" (-0.300).

Наступною і третьою за розміром є узагальнена україномовна тематика. Головними словами-концепціями в цій частині є такі як: "україна" (+0.072), "влада" (+0.041), "країна" (+0.071), "український" (+0.026), "російський" (-0.005), "міністр" (+0.071), "політик" (+0.030), "перший" (+0.033), "час" (+0.038), "рішення" (+0.015), "справа" (-0.037), "комісія" (+0.042), "лікар" (+0.058), "медичний" (+0.091), "обстеження" (+0.035).

І остання невелика тема, яка була окремо виділена попереднього тижня:

"забзалюк" (+0.147), "рыбаков" (+0.039), "депутатский" (-0.033), "депутат" (-0.109), "народный" (-0.258), "литвин" (-0.033), "группа" (+0.051), "расследование" (-0.001), "подкуп" (+0.013), "будут" (+0.155).

Оце і все, поки-що. Далі буде.

понеділок, 20 лютого 2012 р.

Тиждень 2012.06.

Перейдемо відразу до основного графу новин тижня (з 6-го по 12-те лютого).

В цьому тижневому зрізі представлено 250 слів із найбільшим значенням TF-IDF. Так ми відберемо слова основних новиннєвих тем. Зв'язки між словами поділені кольорами на класи цієї ж тематичної циркуляції слів. А розмір самих слів відповідає величині міжсловесної централізації. Таким чином ми зможемо побачити основні концепції, які є центральними для тих чи інших тем.

Отже, ми можемо виділити п'ять основних тем. Першу найбільшу, виділену червоними зв'язками між словами, можна описати як "соціально-економічну російськомовну" тематику. Основними концепціами тут є: "вопрос" (+0.008), "первый" (-0.055), "страна" (+0.015), "нужно" (+0.134), "думать" (-0.089), "год" (+0.179), "российский" (+0.020), "украинский" (+0.036), "выборы" (+0.019).

Друга тема має синій колір з'єднань слів і значною мірою пов'язана із попередньою. Її охарактеризуємо як "про-владну російськомовну". Тут перебувають такі слова, як "украина" (+0.044), "власть" (+0.052), "дело" (-0.005), "действие" (+0.020), "министр" (-0.060), "суд" (-0.136), "проект" (-0.200), "президент" (-0.020), "человек" (+0.016), "тимошенко" (-0.052).

Наступні дві теми є україномовним відзеркаленням попередніх двох. Перечислимо їх основнотворчі слова: "україна" (-0.001), "перший" (-0.047), "справа" (-0.001), "року" (+0.004), "міністр" (-0.001), "член" (-0.200), "питання" (-0.033), "проблема" (-0.040), "політичний" (+0.004), "країна" (-0.082), "політик" (+0.003), "вибори" (-0.082), "росія" (+0.013).

Остання тема особлива, яка з'явилась цього тижня. Найважливішими словами тут були: "забзалюк" (+0.180), "депутат" (-0.218), "сила" (-0.102), "народный" (+0.133), "фракция" (+0.167), "рада" (+0.145), "группа" (+0.009), "доллар" (-0.011).

Якщо поглянути ближче на слова, які з'являлись поряд із словом "забзалюк", отримаємо ще:

"переход" (+0.056), "рыбаков" (+0.112), "депутатский" (-0.229), "разговор" (+0.140), "расследование" (+0.049), "провокация" (+0.022). Хто слідкував за новинами, знає про що це.

На сьогодні це все. Про останній 7-ий тиждень розповім завтра-післязавтра. Далі буде.

неділя, 12 лютого 2012 р.

Тиждень 5.

Розглянемо політичний зріз останнього тижня (з 30 січня по 5 лютого). За цей період із новиннєвих джерел було отримано більше 5000 текстів. Перейдемо до основного графа.

Цього разу я трохи змінив спосіб відбору слів для кінцевої карти. Спочатку була порахована міжсловесна централізація кожного слова (betweeness centrality) в графі. За цією величиною в даному випадку відбираються слова, які містять концепції, виражені в графі. Було відібрано 200 найбільших слів-концепцій. Колір слова, як і раніше, позначає сентиментну складову. А колір вершин (і їх зв'язків) визначає модульність (об'єднаність) груп слів між собою, тобто, тематичні групи графа.

Як бачимо, найбільш щільною є група темно-жовтого кольору, в якій основними концепціями є "думать" (+0.046), "скажи" (-0.085), "дмитро" (+0.251), "віктор" (-0.236), "ситуація" (+0.174).

Другою за розміром є червона частина графу. Тут знаходяться здебільшо українські слова. Найбільш значимі серед них: "люди" (+0.119), "право" (+0.008), "давати" (+0.034), "хоче" (+0.201), "зробити" (-0.108), "янукович" (-0.067), "пиратский" (-0.127), "конституційний" (+0.035).

Наступна група теж є україномовною і здебільшо негативною. Основні з них: "україна" (-0.040), "перший" (-0.125), "влада" (-0.155), "питання" (+0.013), "політичний" (-0.020), "тимошенко" (-0.007).

Основна російськомовна частина в свою чергу позначена синіми зв'язками між вершинами. Головні концепції тут: "украина" (-0.022), "страна" (-0.038), "власть" (+0.021), "первый" (+0.018), "вопрос" (+0.233), "понимать" (-0.022), "человек" (-0.061), "должный" (-0.031).

Також можна відмітити невеличку відокремлену тематичну групу із словами "газ" (+0.168), "газпром" (+0.209), "поставка" (-0.023), "объем" (+0.008), "европа" (+0.037), "российский" (+0.247).

Є ще кілька невеликих розрізнених частин (наприклад, верхня частина із "температурою" і "морозом"), які кожен може дослідити самостійно.

На цей тиждень це все. Далі буде.

неділя, 5 лютого 2012 р.

Тижні 3 і 4.

Новини тепер завантажуються напряму із новиннєвих сайтів. Були вибрані наступні джерела:

  1. Сегодня.ua (рос.).
  2. УНІАН (рос./укр.).
  3. ЛІГА.Новини (рос./укр.).
  4. Finance.ua (рос./укр.).
  5. forUm (рос./укр.).
  6. Українська правда (рос./укр.).
  7. Корреспондент.net (рос./укр.).
  8. Фокус.ua (рос.).

Всі ці сайти дозволяють зкачувати новини за вказаною датою. Якщо можливо, беруться новини обома мовами. 

За ці два тижні (з 16 по 29 січня) було завантажено більше 8000 текстів новин на політичну тематику. Загальний граф має такий вигляд.

Відібрані слова зі зв'язками більше 0.5. Колір слова відповідає його семантичному забарвленню, а розмір слова - проміжна централізація. Це нове поняття взяте із аналізу графів, яке означає, як часто слово зустрічається при переміщенні по графу між двома випадковими словами. В цьому досліджені зокрема зазначається, що ця величина може слугувати для визначення головних концепцій тексту (або текстів в нашому випадку). Завдяки цій методиці ми можемо побачити, що основними концепціями за ці зва тижні були:

температура, розслідування, європейський, процесуальний, февраль, синоптик, президент.

Концепції поєднують основні теми, які визначені найбільшими скупченями графа.

1. Тема пов'язана із кримінальними ділами, причому українською мовою. Основні слова (за величиною TF-IDF) тут: "суд" (-0.225), "кримінальний" (-0.121), "документ" (+0.161), "кодекс" (+0.073), "прокурор" (+0.009), "останній" (+0.145), "рішення" (-0.074), "справа" (-0.180).

2. Невелика тема діяльності прем'єр-міністра: "голова" (-0.244), "азаров" (-0.022), "преса" (+0.068), "протокол" (+0.064), "градус" (-0.019), "державний" (-0.09), "концепція" (-0.102).

3. Суміш різних невеликих тем українською і російською мовами з переважно позитивним забарвленням. Найвживаніші слова тут: "система" (+0.267), "премьер" (+0.071), "синоптик" (+0.185), "батькивщина" (+0.158), "цена" (+0.089), "загальний" (-0.200), "бывший" (-0.030), "компанія" (-0.055), "февраль" (-0.022). 

4. "Президентська" тема. Головні слова в цій частині: "президент" (+0.052), "возможный" (+0.247), "социальный" (+0.281), "верховна" (+0.292), "рада" (+0.382), "нафта" (-0.349), "вартість" (-0.339), "стратегический" (+0.065), "альтернативний" (+0.192).

5. В цій частині зібрано багато імен та дієслів. Наприклад: "говорить" (+0.118), "знает" (+0.012), "простий" (+0.055), "понимать" (+0.009), "думать" (+0.248), "хотел" (+0.390), "леонід" (-0.153), "леонид" (+0.526), "сергій" (+0.080), "георгій" (-0.152), "дмитро" (+0.244).

6. Ще одна невеличка "погодна" тема, пов'язана із заморозками і переважно негативного емоційного забарвлення. "Температура" (-0.105), "днем" (+0.033), "ночью" (+0.057), "север" (-0.094), "ветер" (-0.021), "восточный" (-0.085), "облачно" (+0.083), "гололед" (-0.007), "снег" (-0.014), "прояснение" (+0.115).

На стогодні це все. Далі буде.