Спроба проаналізувати, які слова використовують українські та закордонні мас-медіа, коли пишуть про вітчизняну політику

вівторок, 14 червня 2011 р.

Шо далі?

Моє тривале мовчання пов'язане в першу чергу із відпусткою та деяким випаданням із контексту :), а по-друге із бажанням обдумати як всю мою теперішню діяльність можна покращити та масштабізувати чи що. Яким чином можна автоматизувати виявлення важливих (а не тільки частих, хоча можливо, частозгадуваний=важливий, в певній мірі..) подій і фактів в наборах відібраних текстів.. Наступні необхідні кроки, мабуть, - це виявлення частин мови та власних імен (англійською Part Of Speech та Named Entity Recognition). Тоді можна буде відфільтровувати та виявляти взаємозв'язки між акторами (хто робить) через дієслова (що робить) чи прислівники (де?, як?). Зараз, в принципі, це також можна зробити, вручну перелопативши велику кількість залежностей між словами відібравши необхідні. Але це великий обсяг роботи. Необхідна автоматизація (це чарівне слово)!) Крім того, скоріш за все, потрібен ще перехід на рівень тексту. Поясню. Зараз я працюю переважно на рівні речення. Це дозволяє мені визначити умовні відстані між словами в реченні та, через близькість до наперед відомих позитивних чи негативних слів, визначити їх сентиментне забарвлення. Також через визначення такої відстані в реченні між часто вживаними словами, побудувати їхні графи. Проте, напевно, виявлення таких зв'язків у реченні не відображає всієї суті аналізованого тексту. Не завжди (чи як правило) факти, імена чи події, які мають значний семантичний зв'язок (не) з'являються в одному і тому ж реченні і поєднані в один смисловий ланцюжок через інші члени речення. Це поки що лише ідеї, які потребують практичної перевірки...
А поки що як найпростіший крок, можна буде для двох вибраних слів визначати їх коефіцієнт лінійної кореляції через підрахунок кількості появи кожного слова в заданому наборі текстів. Тобто, якщо одне слово частіше з'являється в певних текстах і інше слово також, то ми можемо судити про їх деяку поєднаність. А обчислений коеф. кореляції використовувати у графах як силу зв'язку між двома словами. Спробую, тоді напишу про результати.
Ще що необхідно - так це збільшення масштабів отримання текстів. Причому як із новиннєвих сайтів, так і блогів. І тут дорога лише на пошуковик (читай Google). Цим я зараз і зайнятий інтенсивно. Пишу інструментарій для роботи із інтерфейсом послуги Google Search. А ше думаю, думаю...)) Взагалі в теорії це має бути щось типу надбудови над пошуковою системою (пошуковик над пошуковиком), яка при заданих категоріях пошуку і часового проміжку (якщо це необхідно) видає кольоровий граф взаємозв'язків між словами із відображенням сили зв'язків та сентиментної спрямованості його вершин (слів). А далі вже на основі отриманого графу проводиться аналіз самих слів та їх зв'язків. В принципі, це цілком можливо виконати.
Поки що це все. Якщо в когось є якісь питання-побажання-поради, буду радий поспілкуватись.