25 августа 2021
Пресс-релиз

Уступают только человеку: языковые модели от SberDevices стали лучшими в мире по пониманию текстов на русском языке

25 августа 2021. SberDevices успешно обучили языковую модель ruBERT, развили её до ruRoBERT. Обучение проходило три недели на суперкомпьютере "Кристофари".

Разработанная SberDevices текстовая модель ruRoberta-large finetune стала лучшей по пониманию текста в соответствии с оценкой главного русскоязычного бенчмарка для оценки больших текстовых моделей Russian SuperGLUE, уступая по точности только человеку. Также в шестёрку лидеров вошло ещё четыре модели от SberDevices: ruT5-large-finetuneruBert-large finetuneruT5-base-finetuneruBert-base finetune.

Успешно обучив языковую модель ruBERT, в Сбере стали развивать её более продвинутую версию — ruRoBERTa. Архитектурно это тот же BERT, обученный на большом корпусе текста, только на задачу восстановления маскированных токенов, на большом батч-сайзе и с токенизатором BBPE от нейросети ruGPT-3. Обучение модели на суперкомпьютере «Кристофари» заняло три недели, итоговый датасет (250 Гб текста) был похож на тот, что использовался для ruGPT-3, однако из него был удалён английский и часть «грязного» Common Crawl.

Лидерборд Russian SuperGLUE (General Language Understanding Evaluation) — первый рейтинг нейросетей для русского языка. Место в рейтинге зависит от того, насколько качественно нейросеть выполняет задания на логику, здравый смысл, целеполагание и понимание смысла текста. Это открытый проект, которым пользуются все исследователи данных, работающие с русскоязычными нейросетями.

Оценка общего понимания языка начинается в рейтинге с набора тестов, отражающих различные языковые явления — диагностического датасета. Он отражает лингвистические феномены языка и показывает, насколько модель ruRoberta-large finetune понимает те или иные его особенности. Высокий скор (LiDiRus) говорит о том, что модель не просто запомнила задания или угадывает результат, а выучивает особенности и осваивает разнообразие феноменов русского языка.

Каждая модель также оценивается посредством различных заданий, среди которых DaNetQA — набор вопросов на здравый смысл и знание, с ответом «да» или «нет», RCB (Russian Commitment Bank) — классификация наличия причинно-следственных связей между текстом и гипотезой из него, PARus (Plausible Alternatives for Russian) — целеполагание, выбор из альтернативных вариантов на основе здравого смысла и другие.

Лучшие специалисты Сбера несколько лет занимаются совершенствованием нейросетей для русского языка. Для их объективной оценки существует лидерборд Russian SuperGLUE, который чётко показывает прогресс в данной работе. Наша конечная цель — создание надёжных интеллектуальных систем для решения разноплановых задач на русском языке, которые могут стать предшественниками сильного искусственного интеллекта отечественной сборки

Давид Рафаловский
Исполнительный вице-президент Сбербанка, CTO Сбера, руководитель блока «Технологии»
Другие пресс-релизы
press
23 мая 2023
Пресс-релиз

18 мая состоялось официальное объявление итогов и награждение лауреатов Премии Data Award 2023, учрежденной издательством «Открытые системы» и порталом об ИТ-менеджменте «Директор информационной службы». В номинации “За реализацию антикризисного проекта” победителем был признан проект SberDevices “Построение импортонезависимой аналитической платформы”.

press
20 апреля 2023
Пресс-релиз

На рынок вышла расширенная линейка умных телевизоров Sber на базе операционной системы Салют ТВ, разработанная для Сбера командой SberDevices.

press
15 марта 2023
Пресс-релиз

С помощью нового B2B-сервиса «Салют Телеком» телеком-операторы могут предлагать своим пользователям умные устройства Sber с виртуальным ассистентом Салют в качестве абонентского оборудования.