Самарские айтишники разработали систему понимания и генерации текста

25.01.2023

Самарская IT-компания "Открытый код" разработала библиотеку подпрограмм для понимания и генерации текста на основе технологий машинного обучения (SDK). Сейчас она дает подсказки, создает шаблоны при составлении документов, генерирует и анализирует их. На реализацию проекта ушло около пяти лет.

Фото: предоставлено компанией "Открытый код"

Работу SDK определяют сложные программно-аппаратные комплексы, в основе которых лежат отечественные платформы. В частности, система управления цифровым контентом "ECM-Интеллект". В нее входят функции: накопление информации, анализ "больших данных", получение сведений из некорректных запросов, акцентная визуализация (отметки и пояснения для привлечения внимания), динамически настраиваемые экраны и поддержка принятия решений.

"ЕСМ" ведет журнал и обрабатывает входящие и исходящие документы (рецензирование, подписание, направление), ищет их по реквизитам, настраивает уведомления.

По выкладкам "Открытого кода" "ЕСМ" повышает точность планирования работы на 25%, на 40% сокращает время анализа, а скорость обработки документов — на 300%.

Интеллектуальная технология не ограничена количеством пользователей, серверных станций и временем работы. Сейчас основу SDK используют в муниципальном архиве Самары, единой цифровой платформе областного правительства, системах документооборота ФБУ "Нижегородский ЦСМ" и ОАО "Мосводоканал".

"Открытый код" потому так и называется, что мы изначально реализовали все наши решения на отечественном софте. Это наша принципиальная позиция, которая сейчас особенно показала свою актуальность. Другие наши фишки — это широкое использование искусственного интеллекта, работа со сложными неструктурированными данными, как текстовыми, так и графическими, дополненная и виртуальная реальность и высокая степень защиты информации", — раскрывает о принципах работы руководитель "Открытого кода" Олег Сурнин.

Библиотеки подпрограмм понимания и генерации текстов делятся на три уровня реализации: инфраструктурный (обработка сведений, база знаний), семантический (поиск параметров, сопоставление информации, семантико-статистический анализ), а также поддержка принятия решений (подсказки, шаблоны и генерация документов).

SDK отличается высокой скоростью обработки данных. По сведениям разработчиков, это связано с применением списка алгоритмов машинного обучения и возможностью извлечения информации из корпоративной документации.

"Сложные системы невозможно собрать на коленке за месяц или два. Это многофакторный процесс и работа, как правило, большого коллектива. В компании "Открытый код" в среднем работает около 250 человек. И поверьте, среди них нет ни одного лишнего", — говорит Олег Сурнин.

Он добавил, что количество и стоимость поставки библиотек подпрограмм понимания и генерации текстов зависит от заданных целей и условий заказчика.

"Каждая IT-компания развивает свои компетенции. И каждый из названных мной компонентов входит в инструментарий передовых вендоров рынка. Другой вопрос — как они их применяют? Как увязывают логические и производственные цепочки? Насколько хватает фантазии и смелости по внедрению? В этом же все дело. Так, в проекте с корпорацией "Вертолеты России" мы объединили технологии текстопонимания, семантического анализа и онтологий динамического планирования", — приводит пример внедрения SDK Олег Сурнин.

При этом SDK создает собственные словари синонимов на основе нейронных сетей, исправляет частые ошибки распознавания (например, "и" вместо "й").

Еще один элемент библиотеки подпрограмм — семантический поиск. В нем сочетается поисковой механизм, распознавание текста, отображение и оценка релевантности результатов и извлечение знаний. "Это явление многофакторное, обрабатывающее сложные логически обоснованные запросы, которые невозможно решить за счет традиционных видов поиска информации", — отметили в презентации проекта представители "Открытого кода".

По мнению Олега Сурнина, западные санкции только "актуализировали" разработку подобных технологий. Он уверяет, отечественные решения способны обойти по качеству зарубежные аналоги.

"Насчет сравнения наших решений с западными хочу сказать следующее: я не ставлю перед нашей компанией задачи по импортозамещению. Считаю, что мы владеем всеми навыками, технологиями и научными подходами, чтобы превзойти стандартные западные системы. Наше ключевое отличие от иностранцев, которые в свое время заполонили российский рынок "коробочными решениями", — в индивидуальной настройке систем. Не допиливание готовой системы под проблемы заказчика, а изначальная, буквально камертонная, настройка под заявленные задачи", — выделяет конкурентное преимущество управляющий "Открытого кода".

По данным Российского фонда развития информационных технологий, который поддержал проект, "Открытый код" вложил в разработку SDK 39,6 млн руб., еще 19,8 млн руб. составила сумма гранта. Там добавили, что выручка от внедрения разработанных компонентов системы составляет 55,4 млн рублей. Сейчас проект завершен и готовится к включению в Единый реестр российских программ для ЭВМ и баз данных.

Подготовлено по материалам портала Волга Ньюс

25.01.2023

Версия для печати