Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

пʼятниця, 25 червня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 35.

Що ж, приступимо до тижня № 35 (14.06-20.06).


Єдине зауважння: дещо змінив настройки скачування текстів новин з сайту ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ та додав з нього дані за 34-ий тиждень. Тому статистичні дані за цей тиждень будуть дещо іншими, ніж в попередньому пості.



Tabl.1.gif



Draw.1a.gif



Draw.1b.gif



Draw.2.gif


Розмір загального словника знаходиться на рівні останніх тижнів ~87 тис. слів. Розмір же відібраного словника зріс до третього по величині значення за ввесь період спостережень - 146 слів. Відносна кількість нових слів в обох словниках знаходиться також на рівні останніх тижнів ~11 %.


Подивимось, які нові слова приніс нам останній тиждень.



Tabl.2.31-35.gif



Tabl.3.35.gif


З'явилось кілька нових слів, а саме:



  • "качиньский", яке стосується виборів президента в Польщі. Найбільше цю тему обговорювали російські Дни.Ру, Газета.Ru і ВЗГЛЯД.РУ;

  • "голодомор", яке має відношення до судових позовів на Президента щодо голодомору 32-33 рр. рухівцем В.Волосюком. Що цікаво, що до цієї ж теми відноситься і слово "украинский". Найбільше це цікавило українську Вiкна-новини (СТБ) та російські Комсомольская правда, Дни.Ру і NEWSru.com;

  • "глава" - загальновживане слово для позначень керівників служб, департаментів чи країн. Найчастіше про різних "голів" згадували російські РБК, РИА НОВОСТИ, Дни.Ру і ВЗГЛЯД.РУ.


Серед різних джерел за попередній тиждень також "засвітились" такі нові слова:



  • "сталин", з яким співзвучними були слова "советский" (0.926), "грузия" (0.846), "история" (0.810). Найбільше цій темі приділив увагу український Цензор.нет і в значно меншій мірі російська газета Дни.Ру;

  • "мирни(ы)й", з яким найчастіше вживались слова "опозиція" (0.967), "час" (0.686), "блок" (0.668), "свобода" (0.647). Цю тему найбільше розкривали українські DailyUA, Час (5 Канал) та Репортер (Новий канал);

  • "канал" (яке 34-ого тижня потрапило в десятку найвживаніших), з яким найчастіше використовувались слова "пресса" (0.751), "журналист" (0.739), "оппозиция" (0.650), "политик(а)" (0.622). Найбільше цій темі присвячували увагу російськомовний переклад західних ЗМІ ИноСМИ.Ru, українські GLAVRED.INFO, Українська правда і Час;

  • "кодекс", який найбільш співзвучним був з "налоговый" (0.959), "документ" (0.788), "податковий" (0.779), "проект" (0.720). Цією темою найбільш цікавились українська Репортер, західні ЗМІ у викладі Newsru.ua, українські proUA.com, Сегодня.ua і 4POST;

  • "зелени(ы)й", якого також стосувались слова "проблема" (0.777), "политический" (0.655). Цій темі найбільшу увагу присвятила українська газета Вся-Правда.


Тепер подам картинку хмарини даних за останні п'ять тижнів. За ці тижні було скомпоновано 255 слів.




Cloud.buble.Week_31-35.GIF


За попередній тиждень в розташуванні і складі груп намітились деякі зміни. Розглянемо детальніше:



  1. "українська група", нижня частина загальної хмарини зліва. За 35-ий тиждень ця група поменшала. Стабільно сюди входять: українські Час (5 Канал), Факти (ICTV), Газета.ua, 4POST, Корреспондент.net, Интерфакс-Украина і Репортер (Новий канал). А от GLAVRED.INFO, Українська правда, ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ та двомовні переклади іноземних джерел Newsru.ua і Корреспондент.net/Мир о нас зробили крок в напрямку до форумного скупчення, тому їх, скоріш, слід тепер вважати представниками прифорумної групи.

  2. "російська група", нижня частина загальної хмарини зправа. З великим рахунком, склад групи не змінився: російські Дни.Ру, РБК, РИА НОВОСТИ, Газета.Ru, Комсомольская правда, Лента.Ру, ВЗГЛЯД.РУ і NEWSru.com, українські російськомовні ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ, Сегодня.ua, Вiкна-новини (СТБ), яка цього тижня стрибнул в українську групу, що буде далі - побачимо; та західні ЗМІ у викладі ИноСМИ.Ru, яка також зробила різкий стрибок у прифорумну область, але остаточні висновки робити ще зарано.

  3. "прифорумна група
    ". За попередній тиждень представників цієї групи побільшало. Окрім постіних українського російськомовного джерела Версии.com та російського ИА REGNUM сюди можна віднести і з української групи GLAVRED.INFO, Українська правда і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ та західні ЗМІ з Newsru.ua і Корреспондент.net/Мир о нас, а також з блукаючої групи українські Цензор.нет і Вся-Правда, які за останні два-три тижні блукали лише навкого форумної частини хмарини.

  4. "блукаюча група". Тут залишились лише два джерела - українські proUA.com і DailyUA. Та й то з такими щотижневими траекторіями, як за останні тижні їх також можна буде наступного тижня зарахувати до прифорумної групи.

  5. "форуми", верхня частина загальної хмарини. Як завжди стабільна.

  6. "нульова", яка складається лише з одного джерела форумів сайту ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ.


В загальному, як можна побачити на зображенні хмарини, останнього тижня українська та російська групи значно зблизились і знаходяться найближче одна біля одної принаймні за останні п'ять тижнів. Побачимо як справа далі піде..


Оце і все, поки що. Щодо розбиття на кластери та покластерних наборів найважливіших слів, то в такому вигляді як я їх подавав минулого разу вони не є надто інформативними. Кількість кластерів невелика і розбиття є надто загальним. Якщо ж збільшити кількість кластерів, то з'явиться велика кількість надлишкової інформації, що ускладнюватиме аналіз і результати, мабуть, будуть нічим не кращими за результати аналізу по таблиці популярності слів (Табл.2). Тут треба поекспериментувати з кількістю кластерів. Можливо наступного разу я використовуватиму лише обчислене розбиття по кластерам, а не свій суб'єктивний погляд.


Далі буде...

понеділок, 21 червня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 34.

Поглянемо, що принесли нам 33-ій та 34-ий тижні (31.05-13.06).



Tabl.1.gif



Draw.1a.gif



Draw.1b.gif



Draw.2.gif


Як видно, за ці тижні розмір словника є на досить високому рівні. Також, досить великими є і розмір словника відібраних слів, який за останні чотири тижні постійно зростає і становить зараз під 130 слів. І процент нових слів серед відібраних за два останні тижні також на "рівні" - більше 12%. Можна сподіватись, що за ці тижні з'явилось кілька нових слів. Подивимось, які слова були найпопулярнішими.



Tabl.2.30-34.gif


А також найбільш корельовані з першою десяткою слова.



Tabl.3.33.gif Tabl.3.34.gif


За 33-ій тиждень в першій десятці найвживаніших ніяких нових слів не з'явилось. Серед джерел крім найвживаніших з'являлись слова "прослушка", "сбу" (українські джерела Цензор.нет та ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ), а також "суддя", "суд" (українські джерела proUA.com, Сегодня.ua та Версии.com), які стосувались реформи судової системи. Слова "мова" і "язык" (ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ і форуми) які були пов'язані між собою з коефіцієнтом 0.764 і були синхронними до слова "стал" з кореляціями в 0.579 і 0.747 відповідно охоплювали тему розвитку регіональних мов.


Для слова "война", яке часто вживалось на форумах 33-го тижня найбільш тотожними були "жизнь" (0.805), "лет" (0.612), "дело" (0.588), "одно" (0.581) і "говорит" (0.542).


"Война" невідємна від "жизни"..:)


34-го тижня серед десяти найпопулярніших з'явились слова "слово" і "канал". Як видно з Табл.3 перше з них використовувалось в контексті ситуації зі свободою слова в країні, а друге - про перерозподіл частот для телевізійних каналів "5 канал" (він не відображений, оскільки всі числа відсіюються) та "ТВІ". Перше з цих слів найчастіше використовували українське джерело 4POST і на форумах сайту ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ, а друге разом з тотожними словами з великою інтенсивністю задіював Репортер (Новий канал), а також Сегодня.ua та іноземні джерела у викладі Newsru.ua.


Новим словом цього тижня було "реформа" (ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ і Корреспондент.net/Мир о нас) найбільш пов'язане зі словами "державний" (0.664) і "держава" (0.653), тобто найчастіше використовувалось в україномовних текстах.


Слово "турция" (російські джерела NEWSru.com і РИА НОВОСТИ) найбільше ототожнювалось із "рф" (0.821), "москва" (0.793), "стамбул" (0.789), "путин" (0.736), "россия" (0.676), що має відношення до турецько-російських домовленостей по газу.


Подивимось тепер, як виглядає хмарина даних всіх джерел за останні п'ять тижнів. Тут хочу додати, що на днях знайшов в інтернеті непогане розширення OpenOffice, називається OxygenOffice, в якому реалізовано велика кількість вдосконалень. Зокрема є і бульбашкові діаграми з можливістю підписів даних. Тепер всі хмарини я буду подавати в бульбашковому вигляді, де діаметр бульбашки пропорційний сумарному значенню TFIDF (активності) кожного джерела.




Cloud.buble.Week_30-34.GIF


Так значно гарніше..:)


Розташування і склад груп залишився практично на тому самому рівні:



  1. "українська група", нижня частина загальної хмарини зліва. Сюди входять: українські Час (5 Канал), Факти (ICTV), Газета.ua, 4POST, Корреспондент.net, Интерфакс-Украина, Репортер (Новий канал), GLAVRED.INFO, Українська правда і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, а також двомовні переклади іноземних джерел Newsru.ua і Корреспондент.net/Мир о нас. 33-го тижня ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ разом з Цензор.нет зробили різкий стрибок в хмарину форумів (зверху), а 24-го вже розійшлися по місцях.

  2. "російська група", нижня частина загальної хмарини зправа. Тут перебувають такі джерела, як: російські Дни.Ру, РБК, РИА НОВОСТИ, Газета.Ru, Комсомольская правда, Лента.Ру, ВЗГЛЯД.РУ і NEWSru.com, українські російськомовні Вiкна-новини (СТБ), ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ і Сегодня.ua та західні ЗМІ у викладі ИноСМИ.Ru .

  3. "прифорумна група
    ". Їй належать вього два представники: українське російськомовне джерело Версии.com та російське ИА REGNUM.

  4. "блукаюча група". Без постійного місця прописки - це українські proUA.com, Цензор.нет, Вся-Правда і DailyUA.

  5. "форуми", верхня частина загальної хмарини. Як завжди згуртована.

  6. "нульова", зверху зліва. Джерела без текстів, яких за останні тижні поменшало.


Як видно, найбільший рівень значень TFIDF спостерігається серед джерел російської групи, а найменший - серед представників форумів. Це пояснюється тим, що розміри текстів першої відрізняються відносно невеликим розміром і тут частіше застосовуються слова, які інші джерела не використовують. На відміну від форумів, де розміри текстів значно більші а їх різноманіття є значно меншим.


Проведемо тепер кластеризацію хмарини і визначимо по десять найвживаніших слів для кожного кластера.


Кластеризація проводилась за алгоритмом К-середніх за допомогою програмного продукту для data mining RapidMiner. Кількість кластерів я вибрав 5 - для досягнення достатньої пластичності при розділенні на групи. Ось що вийшло.



Кластер 0 - джерела російської групи в основному за 30-ий, 32-ий та 33-ій тижні.



Кластер 1 - джерела російської групи переважно за 31-ий та 34 тижні.



Кластер 2 - джерела української групи за виключенням Української правди і ЗЕРКАЛА НЕДЕЛИ/ДЗЕРКАЛА ТИЖНЯ.



Кластер 3 - найменший, два представники - DailyUA за 32-ий тиждень та Газета.Ru за 34-ий.



Кластер 4 - найчисельніший, тут всі джерела форумної, прифорумної, блукаючої груп, а також Українська правда і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ.


Подам результати відбору найвживаніших слів для кожного кластера у вигляді таблиці.



Tabl.4.30-34.gif


Далі буде...

пʼятниця, 4 червня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 32.

Трохи забарився зі звітом, сорі. Отже, результати за 31 і 32 тижні (з 17.05 по 30.05).



Tabl.1.gif



Draw.1a.gif



Draw.1b.gif



Draw.2.gif


Як бачимо, розмір словників за попередні два тижні знаходиться на звичному рівні ~80-90 тис. слів для загальних тижневих словників і ~120 слів для відібраних словників. Відносна кількість нових слів також нічим новим не дивує - 3-8 %.


У відборі текстів джерел відбулись деякі зміни: тепер з GLAVRED.INFO береться не аналітика (яка є досить куцою по обсягах), а новини; також для Факти (ICTV, ictv.ua) стали доступні новини також російською мовою.


Тепер подивимось, якими словами найчастіше користувались наші джерела. Для зручності порівняння тих чи інших слів у різних джерел та різних слів у одного джерела, тепер поряд зі словом наводиться величина його TF-IDF коефіцієнта.



Tabl.2.28-32.gif


Перший висновок, який можна зробити - це відносно невеликі перші значення TF-IDF слів у форумах. Максимальне число 0.0037, тоді як в інших джерелах воно сягає майже 0.02. Це пояснюється як самим невеликим вжитком таких слів, так і відносно великим розміром відібраних документів (і, відповідно, великою загальною кількістю слів у ньому) для форумів.


За останні два тижні в першій п'ятірці слів різних джерел з'явились нові слова "медведе(є)в", "нато", "альянс", "вступление", "ссср", які найчастіше використовували російські джерела. З першої десятки зникло "тимошенко", яке перед цим було другим у списку найвживаніших слів. Зате останнього тижня це місце зайняв "янукович".


Як і обіцяв, тепер я також наводитиму слова, найбільш корельовані з першою десяткою слів. Як міру подібності використовується косинус кута. Ось цей список слів.



Tabl.3.31.gif Tabl.3.32.gif


Видно, наприклад, що 31-го тижня слово "украина" в основному було пов'язане з українсько-російською угодою, а 32-го - з українським питанням та політикою. Слово "россия" 31-го тижня охоплювало візит російського президента до України, а 32-го - питання розподілу майна колишнього СРСР. Слово "вопрос" 31-го тижня виражало поняття спільної міжнародної політики, військові та офіційні питання, 32-го - теми щодо держави, країни і національні питання. 32-го тижня слово "нато" було пов'язане зі вступом до альянсу (вірніше його відкладенням), що було озвучене Президентом і яке найбільше цитували російські ЗМІ РБК (www.rbc.ru), Газета.Ru (gazeta.ru) і NEWSru.com.


Також, 31-тижня таке слово, як "бют" було пов'язане з притягненням до відповідальності депутата Верховної Ради від фракції БЮТ А.Парубія, а слова "киев" і "москва" найчастіше використовувалось для опису українсько-російських домовленостей щодо Чорноморського Флоту РФ. 32-го тижня слово "львов" використовувалось для коментування приїзду Президента до Львова. Слово "язык", яке найчастіше використовується на форумах, асоціюється зі статусом російської мови у Криму та на загальнодержавному рівні.


Тепер подивимось, яким є взаємне розташування джерел у хмарині даних за останні п'ять тижнів.




Cloud.Week_28-32.gif


Загальне розташування і склад груп залишився тим самим, а саме:



  1. "українська група", нижня частина загальної хмарини зправа. Тут зібрані всі ті ж самі джерела: українські Час (5 Канал), Факти (ICTV), Газета.ua, 4POST, Корреспондент.net, Интерфакс-Украина, Репортер (Новий канал), GLAVRED.INFO, Українська правда і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, а також двомовні переклади іноземних джерел Newsru.ua і Корреспондент.net/Мир о нас. Правдв, до цієї ж групи останнім часом примкнув і Цензор.нет. 32-го тижня представники цієї групи виступають дружнішою купкою, ніж раніше (28-го тижня).

  2. "російська група", верхня частина загальної хмарини зправа. Тут перебувають такі джерела, як: російські Дни.Ру, РБК, РИА НОВОСТИ, Газета.Ru, Лента.Ру і NEWSru.com, українські російськомовні Вiкна-новини (СТБ), ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ і Сегодня.ua та західні ЗМІ у викладі ИноСМИ.Ru
    . Останнім часом сюди ж примкнула Комсомольская правда (яка раніше була серед блукаючих джерел). Ця група трохи більше розріджена, ніж попередня, хоча останнього тижня виглядають теж досить згуртовано.

  3. "прифорумна група
    ", вірніш, не група а два окремих, але згуртованих представники. Це українське російськомовне джерело Версии.com та російське ИА REGNUM.

  4. "блукаюча група". Представники цієї групи, як вільні митці, прив'язують себе до конкретного місця і подорожують з однієї групи в іншу. Останнім часом ця групка трохи порідшала і тепер сюди входять лише чотири джерела - українські proUA.com, Вся-Правда і DailyUA та російське джерело ВЗГЛЯД.РУ.

  5. "форуми", Середня частина загальної хмарини. Як завжди щільна дружна хмаринка, що складається зі всіх форумів.

  6. "нульова", зверху зліва. Джерела без текстів, яких за останні тижні поменшало.


Надалі я планую використовувати алгоритми кластеризації, для того щоб автоматично виділяти слова, які найбільш притаманні тій чи іншій групі. А поки що це все.


Далі буде...