Название работы: «Исследование и разработка методов и алгоритмов семантометрической оценки влияния научных статей в многоязыковой и многодисциплинарной среде путем построения «Индекса интегрального научного влияния»

Руководитель: к.т.н. Шарнин М.М.

Аннотация

Проект направлен на решение фундаментальной научной проблемы семантического моделирования, в рамках которой разрабатывается методика оценки качества научных статей на основе вероятностной модели влияния (impact) научной статьи на цитирование и идеи в последующих статьях, а также на основе модели представления идеи в виде множества ключевых терминов и сходных по смыслу фраз в многоязыковом семантическом поле.

Проблема оценки качества научной продукции в настоящее время приобретает все большую остроту и новые подходы к ее решению являются востребованными при оценке общего вектора развития мировой науки, прогноза и планирования фундаментальных и прикладных исследований, оценки вклада отдельных исследователей и научных школ в развитие отечественной и мировой науки.

Многие существующие методы оценки влияния и качества научных статей основаны на использовании подсчета цитирования, который показателен лишь по прошествии значительного периода времени после публикации. Кроме того, коммерциализация науки привела к возможности злоупотреблений метрическими показателями, не связанных с качеством работы.

Использование текущих показателей эффективности исследовательских публикаций (Bibliometrics, Altmetrics, Webometrics и т. д.) основано на оценке влияния (качества) исследовательского документа лишь на основе внешних данных (данные об авторах и месте публикации). Мало исследований, которые включают все содержимое документов. Предлагаемое в проекте дополнение наукометрических и библиометрических показателей вычислительным семантическим анализом полнотекстовых публикаций является передовым.

Предлагаемая методика использует новый показатель качества научной статьи — Индекс Интегрального Научного Влияния (ИИНВ), который рассчитывается автоматически по неявным контекстным ссылкам на документ и связан со статистической вероятностью ожидаемого появления прямых библиографических ссылок.

С целью измерения межъязыкового семантического подобия мы создаем собственный многоязычный ресурс, аналогичный BabelNet, — архитектор знаний Кейвен, структурирующий информацию на основе мегалемм и нейросетей, который позволяет находить более точные источники идей независимо от языка, выявлять более раннюю стадию появления идеи, а также обнаруживать ее подтверждение в разноязыковых источниках. Межъязыковые ссылки имеют больший вес (значимость), чем ссылки внутри одного языка, кроме того, междисциплинарные ссылки имеют больший вес, чем ссылки внутри одной дисциплины.

Обрабатывая многоязычную информацию в разных научных областях, мы получаем интегральную (многоязычную, междисциплинарную) статистику, которая позволяет более точно прогнозировать динамику явного и неявного цитирования идей, фраз и документов. Смысловое подобие текстов определяется с помощью грамматических трансформаций, программ перевода и замен синонимов, авторской методики построения ассоциативного портрета предметной области, метода Word2Vec и нейросетей для выявления подобия терминов и фраз.

Вероятностная модель зависимости количества прямых цитирований от количества неявных ссылок и их параметров строится на основе лингвистического процессора, выявляющего неявные ссылки, настраиваемого с помощью метода машинного обучения. Решение проблемы строится на основе комплексного подхода, сочетающего методы статистики, нейросетей, корпусной лингвистики и дистрибутивной семантики, и реализуется в технологии, которая предполагает разработку лингво-статистических механизмов формирования ИИНВ.

Подобная методика позволяет решать широкий класс задач, как в области когнитивной семантики, так и информационно-поисковых, например, поиск идей, оценка качества научных статей, составление рейтинга сайтов. Дополнительно проект затрагивает следующие задачи: мониторинг новых идей и оценка их перспективности; анализ преемственности научных идей; обнаружение межъязыкового текстового заимствования; развитие интеллектуальных Интернет-технологий; обнаружение и выделение качественной информации из многоязыкового Интернет-пространства.

Методология была частично апробирована в архитекторе знаний KEYWEN, — программном комплексе, осуществляющем направленное извлечение значимой информации из Интернет- среды. Проект опирается: на авторскую разработку — инструментальную среду ДЕКЛ, представляющую найденные иерархические и ассоциативные связи в виде онтологии для сопоставления иерархических структур и связей на разных языках; на разработки выявления межъязыкового семантического подобия на основе мегалемм; на созданный авторским коллективом лингвистический процессор BREF, автоматически выделяющий библиографические ссылки из отдельных научных публикаций.