15-07-06586 «Исследование и разработка лингво-статистических методов и алгоритмов автоматического формирования ассоциативно-иерархического портрета предметной области на основе онтологий». Руководитель проекта Рыков В.В.
Проект направлен на решение фундаментальной научной проблемы семантического моделирования, в рамках которой разрабатывается методика автоматизированного выявления иерархических, синонимических и ассоциативных связей из интернет-текстов и построение лингво-статистических портретов различных предметных областей, в частности, по автономным необитаемым подводным аппаратам (АНПА). Исследование основано на гипотезе о том что более общие термины имеют больше ассоциативных связей, а также о привлечении ассоциативных связей для определения значения, полный смысл которого выявляется с помощью контекстных окружений, что дает возможность автоматизации процесса разграничения значений и извлечения знаний из текстов. Решение проблемы строится на основе комплексного подхода, сочетающего методы статистики, корпусной лингвистики и дистрибутивной семантики, и реализуется в технологии, которая предполагает разработку лингво-статистических механизмов формирования ассоциативного портрета предметной области (АППО), представляющего собой словарь значимых терминов предметной области, элементы которого связаны ассоциативными и иерархическими связями. АППО создается автоматически на базе статистического анализа больших объемов текстов из Интернет. Иерархические связи, входящие в АППО, образуют полииерархию и классификатор, облегчающие поиск и навигацию в предметной области АНПА (ПО АНПА). Подобная методика позволяет решать широкий класс задач, как в области когнитивной семантики, так и информационно-поисковых, так как АППО может в большинстве случаев, связанных с контекстным поиском, заменить или дополнить тезаурус/онтологию предметной области, составление которого вручную представляет собой весьма трудоемкую задачу. Дополнительно проект затрагивает следующие задачи: мониторинга новых объектов, фактов и идей в ПО АНПА, автоматическая классификация новых объектов по классификатору АППО, в частности, вид/тип аппарата АНПА, его характеристики, компания призводитель, ее руководство, сотрудники, конкуренты, партнеры и т.д., как часто упоминается объект в различные периоды времени, тональность сообщений, источник информации, установление границ предметной области; развитие интеллектуальных Интернет-технологий; автоматизированное формирование интерактивных предметно-ориентированных энциклопедий; визуализация результатов интерактивного сетевого поиска (визуальные карты предметной области). Методология была частично апробирована в разработанной авторами проекта энциклопедии ключевых понятий KEYWEN и осуществляющей направленное извлечение энциклопедической информации из Интернет. Проект также опирается на созданную и развиваемую заявителями проекта оригинальную инструментальную среду ДЕКЛ, нашедшую широкое применение при построении логико-аналитических систем (ДИЕС, Криминал, Резюме, Антитеррор) и семантико-ориентированных систем извлечения знаний (Semantix и др.). Участники проекта: Рыков В.В. (руководитель), Шарнин М.М., Хакимова А.Х., Мещерин С.А., Огнев А.П., Орлова Н.А., Цыганов В.В., Хламов М.А., Родина И.В., Демидов А.О.

16-07-00756 «Исследование и разработка семантических методов построения «Индекса контекстного научного цитирования». Руководитель проекта Шарнин М.М.
Проект направлен на решение фундаментальной научной проблемы семантического моделирования, в рамках которой разрабатывается методика оценки качества научных статей на основе вероятностной модели влияния (impact) научной статьи на ссылки и идеи в последующих статьях, а также на основе модели представления идеи в виде множества похожих по смыслу фраз. В настоящее время необходимость дополнения стандартных наукометрических и библиометрических показателей вычислительным семантическим анализом оцениваемых публикаций является практически общепризнанной. Учитывая остроту проблемы оценивания научной продукции актуальность предложенного исследования не вызывает сомнения. Многие существующие методы оценки влияния и качества научных статей основаны на использовании Индекса Научного Цитирования (ИНЦ), который рассчитывается по количеству прямых библиографических ссылок на статью и поэтому не работает для новых статей с нулевым цитированием. Предлагаемая методика использует новый показатель качества научной статьи — Индекс Контекстного Научного Цитирования (ИКНЦ), который рассчитывается автоматически по неявным контекстным ссылкам на статью и связан со статистической вероятностью ожидаемого появления прямых библиографических ссылок. ИКНЦ обладает прогнозными свойствами и высокой чувствительностью, позволяющей делить новые статьи на группы и ранжировать их по качеству. Неявные ссылки в статье – это упоминания чужих идей и их авторов. Неявные ссылки выявляются с помощью лингвистических методов и метода релевантных фраз, который находит похожие по смыслу фразы в других статьях и в документах из Интернета. Похожесть смысла определяется с помощью грамматических трансформаций, программ перевода и замен синонимов, а также с помощью ассоциативных связей и методики построения ассоциативного портрета предметной области, разработанной авторским коллективом. Вероятностная модель зависимости количества прямых цитирований от количества неявных ссылок и их параметров строится на основе лингвистического процессора, выявляющего неявные ссылки, который настраивается с помощью метода машинного обучения так, чтобы корреляция между индексами ИНЦ и ИКНЦ была максимальной. Исследование основано на гипотезе о том, что статьи с новыми идеями, на которые много неявных ссылок, имеют повышенную вероятность прямого цитирования, а также что учет неявных ссылок из открытых документов в Интернете повышает корреляцию индексов ИКНЦ и ИНЦ. Решение проблемы строится на основе комплексного подхода, сочетающего методы статистики, корпусной лингвистики и дистрибутивной семантики, и реализуется в технологии, которая предполагает разработку лингво-статистических механизмов формирования ИКНЦ. Подобная методика позволяет решать широкий класс задач, как в области когнитивной семантики, так и информационно-поисковых, например, поиск идей, оценка качества научных статей, составление рейтинга сайтов. Дополнительно проект затрагивает следующие задачи: мониторинг новых идей и оценка их перспективности по частоте упоминания в различные периоды времени; анализ преемственности научных идей; создание архитектуры идей в предметной области; развитие интеллектуальных Интернет-технологий; автоматизированное формирование интерактивных предметно-ориентированных энциклопедий. Методология была частично апробирована руководителем проекта в энциклопедии ключевых понятий KEYWEN, осуществляющей направленное извлечение энциклопедической информации из Интернет. Проект опирается на созданную и развиваемую заявителями инструментальную среду ДЕКЛ, применяемую при построении логико-аналитических систем (ДИЕС, Криминал, Резюме, Антитеррор) и семантико-ориентированных систем извлечения знаний (Semantix и др.). Участники проекта: Шарнин М.М. (руководитель), Галина И.В., Демидов А.О., Золотарев О.В., Кузнецов К.И., Мацкевич А.Г., Протасов В.И., Родина И.В., Соколов Е.Г., Хакимова А.Х.

16-29-09527 «Исследования и разработка методов тематического моделирования для мониторинга, прогноза и визуализации террористической активности в информационном поле Интернет с использованием виртуального окружения». Руководитель проекта Шарнин М.М.
Проект направлен на решение фундаментальной научной проблемы семантического моделирования, прогноза и визуализации процессов формирования социальных образований в сети, обнаружения экстремистских сообществ, анализа их топологической структуры, включающей, в свою очередь, веб-сайты, блоги и аккаунты в социальных сетях (далее — Сайты). В ходе выполнения проекта будет разработана методика построения динамически пополняемой базы лексических ресурсов на основе опубликованных в сети текстовых документов (с привлечением методов корпусной лингвистики и дистрибутивной семантики). База лексических ресурсов используется в качестве источника выявления экстремистских Сайтов и обнаружения семантических связей (неявных ссылок) между ними. Впервые в мировой практике на основании выявленных сетевых связей будет построен Индекс Идеологического Влияния Сайта (ИИВ), основанный на вероятностной модели влияния (impact) идей/фраз некоторого Сайта на идеи и фразы других Сайтов схожей тематики. ИИВ обладает прогнозными свойствами и высокой чувствительностью, позволяющей делить новые Сайты на группы и ранжировать их по степени экстремизма и влияния. Учитывая остроту проблемы роста экстремизма и взрывного развития сети, актуальность предложенного исследования не вызывает сомнений. Исследование выстраивается вокруг гипотезы, согласно которой рост идеологического влияния группы в Интернете способствует росту численности этой группы. При этом идеологическое влияние измеряется количеством новых идей группы, получивших распространение, а рост численности положительно коррелирует с общим количеством Сайтов этой группы. В основе предлагаемого подхода лежит представление о том, что идеи могут быть адекватно выражены множеством сходных по смыслу фраз или множеством терминов (близким аналогом предлагаемого подхода выражения идей/тем является метод Скрытого распределения Дирихле — LDA). На основании этого подхода, а также на базе наблюдений за трансформациями идей во времени оказывается возможным идентификация вклада каждого Сайта по отношению к выявленным темам (идеям), что, в свою очередь, позволяет обнаружить скрытые связи между Сайтами/авторами. Неявные ссылки между сайтами (упоминания похожих идей и их авторов) могут быть выявлены с помощью лингвистических и статистических методов путём поиска похожих по смыслу фраз и тем на других Сайтах. Смысловое сходство фраз определяется с помощью грамматических трансформаций, программ перевода, замен синонимов на термины, полученные с помощью тематического анализа (например, методами LDA и PLSA), а также с помощью ассоциативных связей, выявленных по авторской методике построения ассоциативного портрета предметной области (АППО). Методика АППО позволяет строить необходимый для анализа корпус текстов большого объёма и динамически пополнять словари террористической лексики. Вероятностная модель зависимости количества будущих неявных ссылок от количества имеющихся ссылок и их параметров строится на основе разрабатываемого в ходе исследования лингвистического процессора, выявляющего неявные ссылки. Лингвистический процессор настраивается с помощью метода машинного обучения так, чтобы корреляция между ИИВ и будущим ростом численности экстремистской группы была максимальной, а также, чтобы тренды упоминания похожих идей в Интернете обладали лучшими прогнозными свойствами. Решение данной исследовательской проблемы основано на реализации комплексного подхода, сочетающего методы тематического моделирования, корпусной лингвистики, дистрибутивной семантики и визуального анализа. Подход реализуется в технологии, которая требует разработки лингво-статистических механизмов формирования ИИВ и визуального анализа его топологической структуры. Подобная методика позволяет решать широкий класс задач, как в области когнитивной семантики, так и в сфере информационного поиска. К таким задачам, например, относятся: мониторинг новых идей, оценка их влияния и эволюции во временной динамике; анализ преемственности идей. Участники проекта: Шарнин М.М. (руководитель), Галина И.В., Гуров А.С., Золотарев О.В., Кузнецов К.И., Маравин А.А., Мацкевич А.Г., Протасов В.И., Родина И.В., Хакимова А.Х., Цыганов В.В.