ЗМІ та візуалізація даних або Із життя слів. Тиждень11.Епізод1.
Сорі за тривале мовчання. Напрацьовував інструментарій для автоматизованого скачування текстів з джерел. Багато що довелось переписати. Тепер оновлення будуть регулярними не рідше раз в тиждень (сподіваюсь)).
Отже, початкові умови ті самі: на предмет текстів про українську політику відслідковуються 43 джерела, детальніше - в попередньому пості. Після відсіювання стоп-слів отримані слова формуються в тижневі словники. З них для аналізу вживаності відбираються слова, в яких коефіцієнт TFIDF перевищує деякий поріг (в нашому випадку - це 9-кратне значення величини середньо-квадратичного відхилення суми TFIDF по всім джерелам для кожного слова). Всі тижні нумеруються по-порядку починаючи з 1, який при падає на перший тиждень президенської передвиборчої кампанії, тобто 19-25 жовтня 2009 року.
Отже, поїхали
Як видно, кількість слів за тиждень майже постійно зростає (Рис.1а). Якщо протягом 1-го тижня кількість застосованих слів була 61000, то під час 22-го їх вже 108000. По кількості відібраних слів вцілому картина дещо стабільніша, але так само присутній пропорційний до загальної тижневої кількості слів додатний приріст (Рис.1б). Особливо добре це видно за останні два тижні.
Що стосується кількості глобально нових слів (для загального словника за всі тижні), то бачимо, що їх процент для всіх слів за тиждень (Рис.2) більш-менш стабільний і становить приблизно 17-18%. Для відібраних слів цей показник не є таким постійним і значно більше коливається від тижня до тижня. Це свідчить про те, що нові слова використовуються з різною інтенсивністю для кожного окремого тижня. Особливо добре це видно на 12-му (за тиждень до першого туру виборів) та 13-му (тиждень виборів) тижнях, коли процент нових слів з відібраних сягав значень 26%, що відповідає рівню нових слів для перших тижнів спостережень, коли відбувалось інтенсивне формування загального словника відібраних слів. Це означає, що за тиждень до першого туру та під час його проведення в ЗМІ вводилось та інтенсивно використовувалось значна кількість нових слів. Також видно схожу активність під час двох останніх тижнів.
Це що стосується кількості слів. Далі розглянемо їх значення.
Через значний розмір в Табл.2 наведено лише слова для останніх 11 тижнів.
Проміжні висновки кожен може зробити для себе сам. Загальний висновок такий: вживані в ЗМІ (як українських, так і закордонних) слова відповідать тим чи іншим поточним подіям в країні, а на форумах, як і раніше, найбільше обговорюють "украинский", "русский", "народ", "язык", "мова", "страна". І нема цьому кінця... Як і раніше, суттєво переважаюча більшість українських форумів є російськомовними. Українську мову найчастіше можна зустріти на форумах "ОБОЗРЕВАТЕЛЬ/ОГЛЯДАЧ (obozrevatel.com/oglyadach.com)", "Українська правда (www.pravda.com.ua)" та "ЗЕРКАЛО НЕДЕЛИ/ДЗЕРКАЛО ТИЖНЯ (zn.ua/dt.ua)".
Надалі щотижневі звіти по джерелам інформації будуть більш розгорнутими.
Представлення результатів в такому вигляді є досить грубим та не надто зручним для оцінки відмінностей та схожостей різних джерел. Для таких цілей значно зручнішими та нагляднішими є методи візуалізації багатомірних даних. В епізоді 2 найближчим часом я представлю мої дані використовуючи один з таких методів.
Далі буде...
Немає коментарів:
Дописати коментар