Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

вівторок, 31 січня 2012 р.

Труднощі пошуку.

Сьогодні не буде огляду чергового тижня, а будуть деякі міркування.

Після активного використання пошуку в Google та спроби здійснення такого ж автоматизованого пошуку в Yandex виявилось, що ці пошукові системи не вітають такий спосіб оформлення пошукових запитів і через деякий час починають їх блокувати. Це робить неможливим закачування великої кількості текстів за ту чи іншу дату (що є необхідним для мене в даному випадку). Тому для своїх цілей доведеться повертатись до попередньої практики відбору кількох великих новиннєвих сайтів із можливістю перегляду новин по даті, написання для них захоплювачів текстів і елементарного пошуку по текстам за вказаним запитом.

Крім того в планах є також отримання текстів постів із однієї або кількох соц. мереж (наприклад, вже зараз це просто зробити для Живого Журналу), по яким найкраще оцінювати відношення людей (через сентиментний аналіз) до тих чи інших подій або осіб.

Плани великі, а що з того вийде - побачимо.)

Далі буде.

понеділок, 23 січня 2012 р.

2012 рік. Тиждень №2.

Поглянемо, які теми були найважливішими для українського медіапростору другого тижня року (09-15 січня). За цей тиждень із новиннєвих сайтів вдалося отримати лише 125 текстів. Можливо, все ще дається взнаки період різдвяних свят.

Перейдемо відразу до основного графа.

Цього разу граф трохи більше скупчений, ніж в перший тиждень. Тобто, цього тижня теми новин частіше повторювались в ЗМІ і є більш вираженими. Тут можна помітити такі підграфи.

"Политик(а)-Первый-Украина".

З назви зрозуміло, що ця частина описує загально-політичні новини. Найбільш популярними тут були слова "политик(а)" (-0.231), "первый" (-0.242) і "украина" (+0.058), а також "время" (+0.133), "страна" (+0.27), "год" (+0.163), "часть" (-0.439) тощо. Вгорі зліва виділяється частина, яку можна охарактеризувати словами: "экономика" (+0.144), "евро" (-0.409), "финансовый" (-0.369), "торговля" (-0.043), "правительство" (+0.163) і "2012 год" (-0.114).

"Газ-Цена-Грн".

Сегмент графа, який пов'язаний із газом став значно більшим ніж попереднього тижня, фіксуючу збільшення інтересу ЗМІ до цієї теми. Основні слова тут "газ" (+0.163), "цена" (+0.005), "одна" (+0.057), "поставка" (-0.503), "снижение" (-0.009), "грн" (+0.68), "соглашение" (+0.225), "договор" (-0.108), "донецк" (+0.588), "получить" (+0.163), "регион" (-0.231).

"Образование-Государственный".

Цю частину графа можна охарактеризувати, як освітньо-професійну. Тут вживаються такі слова: "образование" (+0.528), "высший" (+0.316), "качество" (+0.163), "министр" (+0.144), "государственный" (-0.083), "служат" (+0.36), "профессиональный" (+0.429), "оплата" (+0.061), "труд" (+0.069), "специалист" (+0.212).

"Законопроект-Президент".

В цьому сегменті зібрана україномовна частина новин. Як і раніше, через здебільшо офіційні повідомлення, вона виглядає найпозитивнішою. Найвживанішими словами тут є: "законопроект" (+0.543), "документ" (+0.175), "президент" (+0.473), "україна" (+0.375), "внесення" (+0.163), "бюджетний" (-0.222), "система" (+0.06).

Ось це основні напрямки новин, якими був багатий другий тиждень року. Хоча, наприклад, можна виділити ще такий невеликий, але цікавий ланцюжок слів:

"харьковский" (-0.423), "добкин" (+0.089), "аваков" (+0.004), "салтовский" (+0.102), "хлебозавод" (+0.109), "восторг" (-0.669). Тут мова йде про ініціювання місцевою харківською владою (М.Добкін) кримінальної справи проти екс-губернатора Харківщини (А.Аваков) і розпродаж останнім своїх часток бізнесу в Салтівському хлібокомбінаті та супермаркеті "Восторг".

Наразі це все. Далі буде.

четвер, 12 січня 2012 р.

Перший тиждень нового року.

В перші дні 2012 року через пошук вдалося отримати лише 86 текстів, пов'язаних із політикою. Далися взнаки вихідні дні, у які ЗМІ працювали вяло або не працювали взагалі. З цих текстів було виділено 375 слів, основний граф яких подано нижче.

Як бачимо, граф зосереджений навколо центральної частини, яку ми назвемо "Власть-Возможный".

Слова в цій частині густо переплетені між собою. Найбільш популярними тут є: "власть" (+0.071), "действие" (-0.024), "возможный" (+0.031), "большой" (+0.085), "первый" (-0.012), "выборы" (+0.676), "страна" (-0.722), "украина" (+0.763).

Всі відгалуження від основної частини є досить куцими.

В цьому окремо стоячому сегменті йдеться про "запас" (+0.025), "урожай" (-0.004), "пшеница" (-0.029), "кукурудза" (+0.08), "ячмень" (+0.002), "млн" (+0.071) і "тон" (-0.008).

В цій частині графа найвживанішими словами тут є "работа" (-0.764), "компания" (-0.765), "бизнес" (+0.032), "информация" (+0.001), "деятельность" (+0.002).

В цьому невеличкому скупченні поєднані такі слова, як "европа" (-0.631), "европейский" (+0.011), "государство" (-0.001), "подготовка" (+0.008), "коммерческий" (+0.116), "национальный" (-0.045).

Отже, як висновок зазначимо, що першого тижня цього нового (і політичного також) року в ЗМІ восновному висвітлювались теми про владу, вибори, нові можливості, врожай, роботу, бізнес і Європу. Побачимо, чим багатими будуть наступні тижні.

Далі буде.

субота, 7 січня 2012 р.

Теми останнього тижня року, що минув.

Сьогодні розглянемо основні словарні течії в Україні за попередній, останній тиждень минулого року.

За запитом "новости политика украина" за цей період у Google було знайдено 214 текстів новин. Після опрацювання було виділено 693 найвживаніших слова, серед яких з найбільшою сентиментною оцінкою є слова:

Найпозитивнішими були слова, пов'язані із політикою (як не дивно), столицею та новорічними привітаннями. А найнеприємнішими були слова про Нестора (Шуфрича), футбол і газ.

Перейдемо до загального графа слів. Цього разу відображатимуться лише зв'язки із коефіцієнтом більшим за 0.6, щоб уникнути надмірного захаращення загальної картини.

Всього в графі задіяно 421 слово (вершина) і 979 зв'язків (ребер). Можна виділити 4 основні скупчення слів. Назвемо їх "Украина", "Україна", "Одесса", і "Китай". А тепер по-порядку.

"Украина" охоплює загальні теми суспільно-політичного життя країни. Слова тут мають нейтральне забарвлення. Серед них найвживанішими є "украина" (+0.008), "год" (+0.052), "новы(и)й" (+0.049), "страна" (+0.063), "первый" (+0.033), "последний" (+0.048), "вопрос" (+0.05).

"Україна", як і попередня частина графу поєднує слова суспільно-політичного життя країни але українською мовою. Тут, як бачимо, багато слів із позитивним забарвленням. Це можна пояснити тим, що тексти українською мовою найчастіше використовуються в основному в офіційних повідомленнях влади, а новини з альтернативним тлумаченням подаються здебільшо російською мовою. Основні слова тут - "україна" (-0.07), "перший" (+0.005), "має" (+0.13), "влада" (+0.601), "головний" (+0.579), "процес" (+0.581). Примітно, що "янукович" (+0.102) перебуває в цьому україномовному сегменті і пов'язаний лише із "тимошенко" (+0.052).

Цей сегмент присвячений виключно одеським передноворічним новинам, хоча й забарвлений дещо негативним тоном. В "Одесі" основними є слова "одесса" (-0.011), "одесский" (+0.011), "городской" (-0.008), "совет" (-0.026), "сессия" (-0.006), "состоять" (-0.08), "27 декабря" (+0.06).

"Китай", відповідно, присвячений співпраці України та КНР і має близьке до нейтрального сентиментне забарвлення. Найпопулярніші тут слова: "китай" (+0.033), "китайский" (+0.029), "инвестиция" (+0.03), "капитал" (+0.044), "внутренний" (+0.043), "становить" (-0.013), "реальный" (-0.017).

Оце і всі найбільші тренди новин останнього тижня 2011 року. У графі можна знайти, звісно, значно більше менших скупчень. Бажаючі можуть зробити це самостійно.

Вітаю всіх із Різдвом Христовим!

Далі буде.