Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

пʼятниця, 21 травня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 30.

Продовжую статистичні дослідження. Подивимось, що приніс нам післясвятковий 30-ий тиждень (10.05-16.05).



Tabl.1.gif



Draw.1a.gif



Draw.1b.gif



Draw.2.gif


Розмір загального та відібраного словників дещо зменшився, хоча і не значно. Процент же нових відібраних впав більш як у двічі до рівня 10%. Тобто, цього тижня, на відміну від попереднього, нових слів активно вживали значно менше.


Подивимось, які слова були найпопулярнішими.



Tabl.2.26-30.gif


Як бачимо, цього тижня Ю.Тимошенко стала найбільш згадуваним політиком у ЗМІ, залишивши далеко позаду чинного президента.


Поряд з "тимошенко" також часто згадувались слова "дело", "опозиция" і "депутат". Ці слова найбільш використовували практично всі українські джерела, а також практично всі російські (окрім Комсомольская правда та ИА REGNUM), подекуди доповнюючи вказані слова ще словом "уголовный". Західні ЗМІ у викладі Newsru.ua також активно вживали ці слова.


"страна", "народ", "человек", "люди", "война" - ці слова найхарактерніші, як і раніше, для всіх форумів.


Поглянемо тепер як виглядає взаємне розташування джерел на карті за останні 5 тижнів. За ці тижні було використано 253 з відібраних слів.




Cloud.Week_26-30.gif


В загальному поділ на групи залишився на такому ж рівні, як і минулого разу:



  1. "українська", нижня частина загальної хмарини зліва. Хмарина потрохи знову ущільнюється. Сюди входять всі ті ж самі джерела: українські Час (5 Канал), Факти (ICTV), Газета.ua, 4POST, Корреспондент.net, Интерфакс-Украина, Репортер (Новий канал), GLAVRED.INFO, Українська правда і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, а також двомовні переклади іноземних джерел Newsru.ua і Корреспондент.net/Мир о нас.

  2. "російська", нижня частина загальної хмарини зправа. Тут ті ж самі джерела, що й були: російські Дни.Ру, РБК, РИА НОВОСТИ, Газета.Ru, Лента.Ру і NEWSru.com, українські російськомовні Вiкна-новини (СТБ), ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ і Сегодня.ua та західні ЗМІ у викладі ИноСМИ.Ru .

  3. "біляфорумна", невеличка частинка всередині загальної хмарини. Це нестійка хмарина, куди входять українські російськомовні Версии.com, Вся-Правда (по 27-ий тиждень включно), сюди ж періодично "навідуються" Цензор.нет, proUA.com і DailyUA.

  4. "блукаюча". Представники цієї групи не мають певного "місця проживання" і від тижня до тижня переміщуються туди-сюди. Це такі джерела як українські Цензор.нет, proUA.com і DailyUA та російські ВЗГЛЯД.РУ і Комсомольская правда.

  5. "форуми", верхня частина загальної хмарини. Як завжди щільна дружна хмаринка всіх форумів та російська ИА REGNUM.

  6. "нульова", зверху зліва. Джерела без текстів, яких за останній тиждень побільшало.


Слід зазначити, що перші чотири групи від тижня до тижня практично не йдуть по старих слідах, постіно оновлюють своє положення, з тією чи іншою інтенсивністю використовуючи нові слова. Інша справа - форуми. Тут помітно виражене тупцювання на місці. Кожного тижня, за невеликим вийнятком (29-ий тиждень), використовуються ті ж самі слова з тією ж самою частотою.


Взагалі, почитавши деякі закордонні блоги, з'явилась ідея поряд з найвживанішими за тиждень словами для кожного наводити слово, з яким воно найбільше корелюється. Треба буде спробувати. Але це вже наступного разу.


Далі буде...

неділя, 16 травня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 29.

29-ого тижня - 03.05-09.05 - було всього три робочих дні. Побачимо, як це позначилося на активності наших джерел інформації.



Tabl.1.gif



Draw.1a.gif



Draw.1b.gif



Draw.2.gif


Як бачимо, розмір сукупного словника зовсім не зменшився і знаходиться на пристойному рівні більше 92 тис. слів. Розмір же відібраного словника в 154 слів взагалі є найбільшим за весь час. Це свідчить про значну різницю TFIDF-значень між відібраними та невідібраними словами. Процент нових слів серед відібраних трохи більше 21% також досить високий.


Тепер подивимось, які слова були найпопулярнішими серед джерел цього тижня.



Tabl.2.25-29.gif


Новими словами серед найвживаніших були "война", "сталин", "ветеран", "история" і "фильм" (мабуть, це стосується останнього фільму Н.Михалкова). Найчастіше їх використовували українські джерела Цензор.нет, DailyUA, Корреспондент.net, Репортер (Новий канал), російські Комсомольская правда і ИА REGNUM, західні у викладі NEWSru.ua та на форумах джерел Цензор.нет, ForUm, Корреспондент.net, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ, ПОДРОБНОСТИ, Українська правда, proUA.com і Сегодня.ua.


Питаннями "газ", "нафтогаз" і "газпром" найбільше переймались російська РБК і західні ЗМІ від Корреспондент.net /Мир о нас.


Теми про "тимошенко" і "опозиці(и)я" найчастіше з'являлись в українських джерелах 4POST, Газета.ua, Сегодня.ua і Версии.com.


Тепер поглянемо як виглядає розташування джерел за останні 5 тижнів на карті TFIDF-значень. Візуалізація проводиться за 245-ма відібраними словами.




Cloud.Week_25-29.gif


В загальному можна виділити такі групи:



  1. "українська", нижня частина загальної хмарини зліва. Тепер хмарина ще більше розріджена і виділяти якісь підгрупи вже не має сенсу. Сюди входять всі ті ж самі джерела: українські Час (5 Канал), Факти (ICTV), Газета.ua, 4POST, Корреспондент.net, Интерфакс-Украина, Репортер (Новий канал), GLAVRED.INFO, Українська правда і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, а також двомовні переклади іноземних джерел Newsru.ua і Корреспондент.net/Мир о нас.

  2. "російська", нижня частина загальної хмарини зправа. Тут ті ж самі джерела, що й були: російські Дни.Ру, РБК, РИА НОВОСТИ, Газета.Ru, Лента.Ру і NEWSru.com, українські російськомовні Вiкна-новини (СТБ), ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ і Сегодня.ua та західні ЗМІ у викладі ИноСМИ.Ru
    .

  3. "біляфорумна", невеличка частинка всередині загальної хмарини. Це нестійка хмарина, куди входять українські російськомовні Версии.com, Вся-Правда (по 27-ий тиждень включно), сюди ж періодично "навідуються" Цензор.нет, proUA.com і DailyUA.

  4. "блукаюча". Представники цієї групи не мають певного "місця проживання" і від тижня до тижня переміщуються туди-сюди. Це такі джерела як українські Цензор.нет, proUA.com і DailyUA та російські ВЗГЛЯД.РУ і Комсомольская правда.

  5. "форуми", верхня частина загальної хмарини. Як завжди щільна дружна хмаринка всіх форумів та російська ИА REGNUM.

  6. "нульова", зверху зліва. Джерела без текстів, яких за останній тиждень побільшало.


Використання бульбашкових карт, через їх невелику ефективність для цього випадку, більше не буде. Поки що все.


Далі буде...

ЗМІ та візуалізація даних або Із життя слів. Тиждень 28. Епізод 2.5.

Тепер розглянемо набір карт з величинами популярності перших 20-ти слів.

Cloud.24-28..1.украин Cloud.24-28..2.президент

Cloud.24-28..3.янукович Cloud.24-28..4.україн

Cloud.24-28..5.росс Cloud.24-28..6.украинск

Cloud.24-28..7.тимошенк Cloud.24-28..8.депутат

Cloud.24-28..9.стран Cloud.24-28..10.вопрос

Cloud.24-28..11.суд Cloud.24-28..12.рад

Cloud.24-28..13.виктор Cloud.24-28..14.газ

Cloud.24-28..15.власт Cloud.24-28..16.российск

Cloud.24-28..17.слов Cloud.24-28..18.нов

Cloud.24-28..19.верховн Cloud.24-28..20.парт

Використання слів групами виглядає так:

  1. "українська". Найбільш використовувались "президент" (перша і третя підгрупи), "янукович", "україна" (обидва - третя підгрупа), "тимошенко", "депутат", "вопрос", "рада" (всі - перша підгрупа), "газ" (третя підгрупа), "слово" (перша підгрупа), "нови(ы)й" (перша і друга підгрупи), "верховна(я)", "парті(и)я" (перша і третя підгрупи).

  2. "російська". Найпопулярнішими були "украина", "президент", "янукович", "россия", "украинский" (всі - перша і третя підгрупи), "тимошенко", "депутат" (всі - перша підгрупа), "страна", "вопрос" (всі підгрупи), "суд" (перша підгрупа), "рада", "виктор", "газ", "российский", "слово", "новый", "верховная" (всі - перша і третя підгрупи), "партия" (всі підгрупи).

  3. "форуми". Найвживанішими словами були практично всі з 20-ти слів, хіба що в меншій мірі "президент", "депутат", "слово", "верховна(я)".

Поки що все.

Далі буде...

неділя, 9 травня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 28. Епізод 2.

Тепер розглянемо відображення хмарини джерел. Карта сформована так само за 5 останніх тижнів (24-28), протягом яких відібрано 229 найвживаніших слів.




Cloud.Week_24-28.gif


Як бачимо, тепер джерело Корреспондент.net/Мир о нас, після вдосконалення параметрів очищення текстів цього джерела (див. попередній пост), надійно оселилося всередині хмарини.:)


Взагальному, видно, що групи, які виділялись в попередніх епізодах, почали самі ділитись на підгрупи і тепер загальна хмарина виглядає більш розрідженою.


Тепер можна виділити такі групи:


1. "українська". Нижня частина хмарини зліва. Сюди входять українські україномовні та двомовні джерела. В цій групі можна виділити три підгрупи:



  • в нижній частині україномовні Час (5 Канал) і Факти (ICTV) та двомовні Газета.ua, 4POST, Корреспондент.net, Интерфакс-Украина і Репортер (Новий канал), а також двомовні переклади іноземних джерел Newsru.ua по 26-ий тиждень включно;

  • трохи вище двомовні GLAVRED.INFO, Українська правда і ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, а також двомовні переклади іноземних джерел Корреспондент.net/Мир о нас по 26-ий тиждень включно;

  • в лівій частині джерела перших двох підгруп за 27-28 тижні.


2. "російська". Нижня частина хмарини зправа. Сюди входять переважна більшість російських джерел та українські російськомовні джерела. Також можна розділити на три підгрупи:



  • в нижній частині російські Дни.Ру, РБК, РИА НОВОСТИ, Газета.Ru, Лента.Ру, ВЗГЛЯД.РУ і NEWSru.com та українські російськомовні Вiкна-новини (СТБ), ФОКУС, ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ і Сегодня.ua по 26-ий тиждень включно;

  • у верхній частині українські російськомовні Вся-Правда, Версии.com і західні ЗМІ з ИноСМИ.Ru;

  • з правого боку джерела першої підгрупи за 27-28 тижні.


3. "форуми". Традиційно щільна група практично всіх форумів, а також (як не дивно) російська ИА REGNUM.


4. "блукаюча". Тут окремо виділяються українські переважно російськомовні джерела, які "коливаються" між різними попередніми групами. Це: Цензор.нет, proUA.com і DailyUA.


5. "нульова". Зправа від групи форумів знаходиться три джерела, які не мали текстів необхідної тематики за той чи інший період.


Наступного разу роглянемо відмінності у використанні слів кожною з груп.


Далі буде...

субота, 8 травня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 28. Епізод 1.

Отже, продовжимо.


Останнього разу, розглядаючи карту джерел я помітив, що Корреспондент.net (korrespondent.net) /Мир о нас тримається осторонь української хмарини. Перевіривши зміст текстів, виявилось, що тексти були не зовсім добре очищені та лише українською мовою. Довелося виправляти і перекомпоновувати словники, починаючи з 25-го тижня. Тому дані за ці тижні трішки відрізнятимуться від тих, які були в попередніх постах.


Дані по 28-ий тиждень (26.04-02.05) включно.



Tabl.1.gif



Draw.1a.gif



Draw.1b.gif



Draw.2.gif


Розміри словників (всіх і відібраних слів) за останній тиждень знаходяться на рівні останніх тижнів. Кількість всіх нових слів також знаходиться на асимптотичному рівні 12%, а от кількість відібраних нових слів різко впала до рівня 3,5%.


Подивимось на найпопулярніші 5 слів для кожного джерела.



Tabl.2.gif


Поряд із загальновживаними словами такі тематично близькі цього тижня слова як "флот", "чф", "угода" і "соглашение" найчастіше використовують українські джерела Час (5 Канал), ФОКУС, Репортер (Новий канал), ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ, Сегодня.ua, Вся-Правда, ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, російські Дни.Ру, Комсомольская правда, Лента.Ру, РБК, РИА НОВОСТИ та іноземні ЗМІ у викладі Корреспондент.net. Проте, для жодного з форумів ці слова не входять в першу п'ятірку.


Питання про "газ" було цікавим для українських DailyUA, Вся-Правда, ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ, західних у викладі NEWSru.ua та на форумі сайту ПОДРОБНОСТИ.


Наступного разу, як завжди розглянемо відображення джерел на карті.


Далі буде...

пʼятниця, 7 травня 2010 р.

ЗМІ та візуалізація даних або Із життя слів. Тиждень 27. Епізод 2.

Отже, візуалізація джерел за 23-27 тижні. за цей період було відібрано 245 слів.


Перша карта - відображення хмарини з підписами джерел.




Cloud.Week_23-27


Вигляд та взаємне розташування джерел порівняно з попереднім періодом (20-24 тижні) змінились. Тепер відмінності розтішування не такі явні. Проте, можна відмітити такі групи:



  1. нижня зліва хмарина - українські україномовні (внизу Час (5 Канал, 5.ua) та Факти (ICTV, ictv.ua)) та двомовні джерела (Газета.ua (gazeta.ua), 4POST (4post.com.ua), Корреспондент.net (korrespondent.net), Интерфакс-Украина (www.interfax.com.ua) і Репортер (Новий канал, www.novy.tv)), а також двомовні переклади іноземних джерел (Корреспондент.net (korrespondent.net/worldabus) і Newsru.ua (newsru.ua)). 27-го тижня до цієї хмарини потрапили українські двомовні GLAVRED.INFO (glavred.info) і Українська правда (www.pravda.com.ua);

  2. окремо в напрямку до хмарини форумів виділяються вже згадані GLAVRED.INFO (glavred.info) і Українська правда (www.pravda.com.ua), а також такі ж двомовні ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ (zn.ua/dt.ua) та proUA.com (proua.com);

  3. з правого боку вказаних груп розташована широка розріджена хмарина практично всіх російських джерел та українські російськомовні джерела (ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ (obozrevatel.com), ФОКУС (focus.ua), Сегодня.ua (segodnya.ua), Цензор.нет (censor.net.ua) і Вiкна-новини (СТБ, vikna.ua), а також західні ЗМІ з ИноСМИ.Ru (www.inosmi.ru). 27-го тижня ці джерела виділились в окрему хмаринку. Дещо окремо в цій частині ближче до форумів тримаються українські DailyUA (daily.com.ua), Вся-Правда (vsyapravda.com) і Версии.com (versii.com) та російська ИА REGNUM (regnum.ru).

  4. верхня, як завжди щільна, хмарина форумів.

  5. біля неї зліва три "нульових" джерела.


Російська Комсомольская правда (kp.ru) тримається окремо і незалежно від інших.


Тепер розглянемо атлас бульбашкових карт TFIDF-значень для 20-ти найвживаніших слів (карти відсортовані в порядку зменшення вживаності слів).




Cloud.23-27..1.украин


Cloud.23-27..2.президент




Cloud.23-27..3.янукович

Cloud.23-27..4.україн






Cloud.23-27..5.росс


Cloud.23-27..7.тимошенк

Cloud.23-27..8.депутат

Cloud.23-27..6.украинск




Cloud.23-27..9.стран

Cloud.23-27..10.виктор




Cloud.23-27..11.суд

Cloud.23-27..12.вопрос




Cloud.23-27..13.власт

Cloud.23-27..14.газ




Cloud.23-27..15.нов

Cloud.23-27..16.парт




Cloud.23-27..17.слов

Cloud.23-27..18.министр




Cloud.23-27..19.глав

Cloud.23-27..20.рад



  1. для джерел першої групи характерні слова "украина", "президент", "янукович", "россия", "украинский", "тимошенко", "депутат", "страна", "вопрос", "партия", "слово" та менш характерними "україна"(?), "виктор", "суд", "власть", "газ", "новый", "министр";

  2. джерела цієї групи найбільше використовують слова "президент", "україна", "россия", "украинский", "тимошенко", "суд". Взагалі для цієї групи характерне менше використання наведених слів;

  3. в джерел третьої групи найпопулярніші "украина", "президент", "янукович", "україна" (26-го та 27-го тижнів), "россия", "страна", "виктор", "вопрос", "власть", "новый", "партия", "слово", "рада" та менш популярні "суд", "газ", "министр";

  4. на форумах найчастіше використовують слова "украина", "україна", "россия", "украинский", "виктор", "вопрос", "газ", "новый", "партия", "министр", "рада", а найменше "тимошенко", "страна", "суд", "власть", "слово", "глава".


Поки що все. Далі буде...