November 11, 2021
Пресс-релиз

Нейросеть ruDALL-E теперь может генерировать картинки по описанию на иностранных языках

11 ноября 2021. В мобильном приложении Салют или на устройствах Sber можно создать картинку по голосовому запросу, а демосайт, где также можно попробовать модель, уже получил перевод и на английский язык.

Сайт открытой нейронной сети ruDALL-E, генерирующей изображения на основе текстового описания, теперь может работать с текстами не только на русском, но и на других языках. В мобильном приложении Салют и на устройствах Sber создать картинку можно даже по голосовому запросу, перевод на английский получил и демосайт, на котором можно попробовать модель. Об этом сообщил СТО Сбербанк Груп, исполнительный вице-президент Давид Рафаловский во время международной конференции AI Journey 2021.

За неделю с момента релиза ruDALL-E пользователи по всему миру уже сгенерировали более трёх миллионов изображений при помощи ruDALL-E, используя для формирования русскоязычных запросов различные системы машинного перевода, а теперь смогут делать запросы на английском и других языках. При вводе текста модель самостоятельно определяет язык ввода и генерирует соответствующее изображение.

Прототипом для создания ruDALL-E стала нейросеть DALL-E для английского языка, которая была впервые представлена OpenAI в 2021 году. При этом исследователи из американской компании не стали выкладывать модель в открытый доступ, ограничившись общим описанием архитектуры и впечатляющим набором примеров работы модели, отобранных вручную. На основе публикации OpenAI команды SberDevices и Sber AI при содействии SberCloud создали аналогичное решение и запустили обучение нейросети на платформе ML Space на базе суперкомпьютера Christofari, получив аналогичный результат для русского языка, а позднее и мультиязычный вариант.

Модель существует в двух вариантах: ruDALL-E XL, содержащая 1,3 миллиарда параметров, и ruDALL-E XXL с 12 миллиардами параметров. Возможностями меньшей можно воспользоваться бесплатно, загрузив её с сервиса Github и Hugging Face. Обе модели также можно найти вML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.

Большая модель может послужить для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, в то время как уменьшенный вариант в приложении Салют и на демосайте призван скорее развлечь пользователей и показать им возможности нейросети. Чтобы создать изображение на устройствах Sber или в приложении Салют достаточно сказать: «Открой Дали» или «Запусти художника».

После запуска ruDALL-E мы увидели большой интерес к модели со стороны аудитории. Поэтому мы решили создать мультиязычный вариант сервиса, который упростит пользователю путь к созданию изображения. Сейчас моделью может воспользоваться практически любой желающий по всему миру. Поставить задачу нейросети можно и голосом, вызвав его в приложении Салют, и на устройствах Sber

Давид Рафаловский
СТО Сбербанк Груп, исполнительный вице-президент

SberDevices — компания экосистемы Сбера, центр экспертизы по решениям на основе искусственного интеллекта в таких областях, как речевые технологии, технологии понимания естественного языка, лицевая и голосовая биометрия. Компания также фокусируется на создании умных устройств для конечных потребителей и корпоративных клиентов. SberDevices учреждена в мае 2019 года в качестве Департамента блока «Технологии» Сбербанка.

Sber AI — R&D-подразделение Сбера, отвечающее за развитие технологий искусственного интеллекта и их внедрение в различные сферы жизни и бизнеса.

Другие пресс-релизы
press
December 6, 2021
Пресс-релиз

В рамках премьеры фильма «Engineering Joy: как создаются умные устройства с виртуальными ассистентами от Сбера» команда SberDevices представила умную медиаколонку SberBox Time.

press
December 6, 2021
Пресс-релиз

Благодаря решению на основе искусственного интеллекта во время видеоконференции посторонние шумы автоматически удаляются.