ruDALL-E — нейросеть «Сбера», генерирующая изображения по описанию
Поддерживаются запросы на русском языке.
«Сбер» представил нейросеть ruDALL-E, которая создаёт изображения по описанию. К слову, это первая нейросеть, которая работает с запросами на русском языке, и это самый масштабный вычислительный проект в России и СНГ.
ruDALL-E обучается одновременно на картинках и текстах. Создавать можно неограниченное количество изображений, но нужно ждать: сейчас запрос обрабатывается порядка 30 минут из-за наплыва желающих.
Всего задействуется три нейросети: первая анализирует запрос и генерирует заданное число изображений, вторая выбирает самые удачные картинки, а третья увеличивает их размер без потери качества.
Все модели доступны на GitHub и скоро появятся на платформе ML Space.
Нейросеть на английском была представлена в начале года. Её разработали в OpenAI. Команды SberDevices, Sber AI и SberCloud воспроизвели код и запустили обучение модели на платформе ML Space. На это потребовалось 23 тысячи GPU-часов с использованием 120 млн пар текст-изображение.