Название работы: Исследование и разработка методов и алгоритмов оценки межъязыкового семантического подобия текстов для анализа их идеологического влияния.

Руководитель: к.б.н. Хакимова А.Х.

Аннотация

Проект направлен на решение фундаментальной научной проблемы семантического моделирования, в рамках которой разрабатывается методика оценки семантического подобия текстов на различных языках. Исследование основано на гипотезе о том, что близость векторных представлений терминов в семантическом пространстве можно интерпретировать как семантическое сходство в межъязыковой среде.

Индекс семантического текстового сходства (ИСТС) будет строиться с учетом наличия терминов и идей с близким семантическим представлением. Каждому тексту будет сопоставлен вектор в едином многоязыковом семантическом векторном пространстве, мера семантического подобия текстов будет определяться мерой близости соответствующих векторов. Для построения векторов будут использованы технологии Word2Vec, NASARI, использующие многоязыковые лингвистические ресурсы, такие, как WordNet, Wikipedia, BabelNet и др. Для автоматического выявления сходных фраз и семантических эквивалентов используются разработанный и развиваемый коллективом авторов лингвистический процессор, методы тематического анализа (LDA, LSA, ARTM), метод построения ассоциативного портрета предметной области (АППО), основанный на методах статистики и дистрибутивной семантики. Разрабатывается методика построения динамически пополняемой многоязычной коллекции документов из опубликованных в сети текстовых документов с помощью методов дистрибутивной семантики (АППО). Мы предлагаем количественный показатель, который измеряет степень семантического подобия разноязыковых текстов (Индекс Семантического Текстового Сходства) на основании выявленных межъязыковых семантических неявных связей.

Расчет ИСТС производится с помощью введенного авторами показателя – меры подобия двух произвольных текстов, настройка параметров которой основана на корреляции с наличием формальной ссылки между ними. Мера семантического подобия выражает наличие двух общих терминов, фраз. Оптимальные параметры алгоритма выявления неявных связей подбираются на тематической коллекции путем максимизации корреляции явных и неявных связей.

Авторами предложена и частично апробирована гипотеза о близости оптимальных параметров алгоритма расчета неявных ссылок в различных текстовых корпусах. На основании результатов обработки многоязыковой коллекции текстов в определенной предметной области будут найдены оптимальные параметры для алгоритма расчета ИСТС, затем этот алгоритм будет применен для текстов разной тематики с экспертным уточнением оптимальных параметров.

С помощью предлагаемого индекса ИСТС будет возможным уточнение информационного поиска значимых текстов и первоисточников; автоматическое извлечение документов из интернет-среды исключит трудоемкость ручной оценки значимости текстов. Межъязыковое определение семантического текстового подобия является важным шагом для обнаружения и оценки межъязыкового плагиата, исследования в данном направлении редки. Дополнительно проект затрагивает следующие задачи: автоматизированная оценка и улучшение систем машинного перевода; кросс-культурный анализ коммуникативных стратегий; развитие интеллектуальных Интернет-технологий; повышение эффективности семантического поиска за счет точного моделирования сходства смысла предложений; выявление унифицированных терминов и словосочетаний для нескольких языков; ранжирование межъязыковых пар слов по их смысловому сходству или связанности; автоматизированное формирование многоязычных тезаурусов и интерактивных предметно-ориентированных энциклопедий.

Методология была частично апробирована участниками проекта при создании и анализе коллекции научных статей по компьютерной графике и представлена на конференции CyberWorlds 2017 (Великобритания). Методология также была частично апробирована участниками проекта в энциклопедии ключевых понятий KEYWEN, осуществляющей направленное извлечение энциклопедической информации из Интернет. Проект опирается на созданную и развиваемую заявителями инструментальную среду ДЕКЛ, применяемую при построении логико-аналитических систем (ДИЕС, Криминал, Резюме, Антитеррор) и семантико-ориентированных систем извлечения знаний (Semantix и др.).