Название работы: Исследование и разработка лингво-статистических методов и алгоритмов автоматического формирования многоязычного ассоциативно-иерархического портрета предметной области для дополнения онтологий, определения значимых документов и перспективных направлений.

Руководитель: к.т.н. Золотарев О.В.

Аннотация

Проект направлен на решение фундаментальной научной проблемы семантического моделирования, в рамках которой разрабатывается методика автоматизированного выявления связей перевода (переводных соответствий), а также иерархических, синонимических и ассоциативных связей из интернет-текстов и построение Многоязычных лингво-статистических Ассоциативно Иерархических Портретов различных Предметных Областей (МАИППО), в частности, по автономным необитаемым подводным аппаратам (АНПА).

Учет разноязычных и разнородных ресурсов позволяет получить более полную картину происходящего в предметной области, выявить источники происхождения идей, скорость и направления их распространения, определить значимые документы и перспективные направления.

Решение проблемы строится на основе комплексного подхода, сочетающего методы статистики, корпусной лингвистики и дистрибутивной семантики, и реализуется в технологии, которая предполагает разработку лингво-статистических механизмов формирования многоязычного ассоциативного портрета предметной области (МАИППО), представляющего собой словарь значимых терминов предметной области, элементы которого организованы в синонимические ряды (синсеты), включающие переводные соответствия, а также ассоциативные и иерархические связи.

МАИППО создается автоматически на базе статистического анализа больших объемов текстов из Интернет. Иерархические связи, входящие в МАИППО, образуют полииерархию и классификатор, облегчающие поиск и навигацию в многоязычной предметной области АНПА (ПО АНПА).

Предлагаемая методика также включает в себя интеграцию различных МАИППО с многоязычными лингвистическими ресурсами (WordNet, Wikipedia, BabelNet и др.) для получения крупнейшей многоязычной онтологии с актуальными знаниями и улучшенным покрытием терминологии в рассматриваемых предметных областях. Объединенная (интегральная) онтология содержит иерархию синонимических рядов (синсетов) из многоязычных терминов, включая русские, и служит основой для построения единого многоязычного векторного пространства, позволяющего оценивать семантическую близость разноязычных текстов, синсетов и терминов, аналогично методикам NASARI и MAFFIN. Переводные соответствия между разноязычными синсетами МАИППО строятся с использованием технологии Word2Vec. Интегральная онтология позволяет рассчитывать интегральную разноязычную статистику и тренды использования терминов и идей, что позволяет прогнозировать распространение идей между языками и определять перспективные направления. Мера семантической близости разноязычных документов позволяет выявлять неявные ссылки между документами и определять значимые документы, что необходимо для сбора качественной информации из открытого Интернета и построения больших актуальных многоязычных корпусов предметной области. Таким образом повышение размера и качества интегральной онтологии позволит строить более качественную меру подобия и предметные корпуса текстов, извлечение знаний из которых в свою очередь еще более повысит размер и качество интегральной онтологии.

На основе иерархии категорий обрабатываются тексты научных статей ряда предметных областей (включая АНПА) и выявляются тренды использования новых концептов и идей, интегрирующие знания различных языков, для определения перспективных направлений.

Подобная методика позволяет решать широкий класс задач как в области когнитивной семантики, так и в области информационно-поисковых методов, так как МАИППО может в большинстве случаев, связанных с контекстным поиском, заменить или дополнить многоязычный тезаурус/онтологию предметной области, составление которого вручную представляет собой весьма трудоемкую задачу.

Методология была частично апробирована в разработанной авторами проекта энциклопедии ключевых понятий KEYWEN и осуществляющей направленное извлечение многоязычной энциклопедической информации из Интернет. Проект также опирается на созданную и развиваемую заявителями проекта оригинальную инструментальную среду ДЕКЛ, нашедшую широкое применение при построении логико-аналитических систем (ДИЕС, Криминал, Резюме, Антитеррор) и семантико-ориентированных систем извлечения знаний (Semantix, и др.).