Copy of GIGA R&D Day

Конференция RnD команд SberDevices по развитию GigaChat, NLP, Vision и Audio

5 апреля

12:00

Москва+Онлайн

(МСК, GMT+3)

18+

Программа

Афтерпати для офлайн-участников

20:00

Закрытие

19:45

Сергей Марков

Руководитель исследовательской программы GigaChat и R&D

Не можешь сказать — спой! Синтез пения по нажатию одной кнопки

Data Scientist команды Генеративной музыки

19:20

Максим Смоляков

Расскажем про синтез вокала и генерацию пения с аккомпанементом по тексту.

скачать презентацию

Управление речевыми характеристиками в модели синтеза речи и инструктивные данные

Senior ML Engineer

19:00

Артемий Таразанов

Артемий расскажет о способе представления речевых характеристик, который позволяет управлять темпом, тоном, энергией, экспрессией и артикуляцией речи в модели синтеза речи на основе архитектур FastSpeech. Обсудим создание инструктивного датасета для синтеза речи с помощью LLM.

скачать презентацию

LLM-подходы в синтезе речи

Team Lead RnD.TTS

18:30

Борис Жестков

Можно ли решать задачи генерации речи с помощью LLM? Какие возможности и ограничения у таких архитектур? Рассмотрим применение LLM к различным задачам в речевом домене. Обсудим архитектуры, токенизацию аудио, пайплайны сбора и валидации данных.

скачать презентацию

Тихо! Сейчас будет та самая сцена: как автоматически находить цепляющие моменты в видео

CV Engineer

17:50

Марина Бессмертная

Марина познакомит с полностью автоматизированным пайплайном для распознавания видеоконтента. Эта система, работая с запросами на естественном языке, быстро находит и извлекает нужные фрагменты из видео, выделяя самые увлекательные моменты. Присоединяйтесь, чтобы узнать, как это изменит взаимодействие с видеоконтентом.

скачать презентацию

Генеративный 3D, быстрый синтез и реконструкция 3D-объектов

ML Engineer

17:30

Михаил Мазуров

Исследование диффузионных моделей приоткрыло нам возможность переносить текстовые концепции на холст цифрового полотна. Казалось бы, что еще нужно для счастья? Перенести все это в 3D! Выясним, как создать практически любой объект в 3D-пространстве с помощью нейронных сетей, как заставить Кандинского смотреть за угол и ждет ли нас будущее, как в «Первому игроку приготовиться».

скачать презентацию

Как научить модель понимать жестовую речь

Lead CV Engineer

Начнем с понятия жестового языка, его ключевых особенностей и проблем, возникающих при переводе. Вы узнаете технологиях компьютерного зрения, о различиях между задачами распознавания жестов и перевода жестовой речи, а также о специфике данных для решения этих задач.

17:10

Александр Нагаев

скачать презентацию

Панельная дискуссия: GPT-5, как догнать и перегнать западных конкурентов в российских реалиях

Руководитель исследовательской программы GigaChat
и R&D

16:00

Сергей Марков

Обед

15:20

SAGE v1.1.0: мультиязычная правка орфографии и пунктуации

Senior NLP Engineer

Поговорим про трансформерные модели для коррекции правописания на русском и английском языках, которые выигрывают у открытых спеллчекеров (Yandex.Speller, JamSpell, Hunspell) и проприетарных моделей (GPT-3.5, GPT-4). А также про обновления в нашей библиотеке SAGE: расширенную разметку в датасетах, метрику, учитывающую разные аспекты правописания, и пополнение в семействе открытых предобученных моделей.

14:55

Никита Мартынов

скачать презентацию

MERA: бенчмарк для оценки фундаментальных моделей

TeamLead команды AGI NLP R&D

14:30

Алёна Феногенова

Альбина Ахметгареева

Senior Data Scientist

Мария Тихонова

Главный инженер по разработке

В докладе подробно расскажем:
— О методологии бенчмарка и его особенностях
— Подробно обсудим входящие в него тесты — 21 задание в инструктивном формате для оценки навыков модели: здравый смысл, целеполагание, логика, знания о мире, память, математика, этика и многое другое.
— Поговорим о том, как отправлять сабмиты и пользоваться кодом на основе открытой библиотеки LM Harness для замеров моделей в едином формате.

скачать презентацию

Практические аспекты ранжирования ответов виртуального ассистента Салют

ML Engineer

Доклад о том, как мы делаем ранжирование. В качестве примера возьмем задачу выбора ответа в Собеседнике. Обсудим, как мы работаем с данными, что делаем для улучшения качества и какие применяем оптимизации по памяти и времени.

14:05

Артём Снегирёв

скачать презентацию

mGPT-модели для малых языков России

Главный инженер по разработке

Расскажем о новых экспериментах с мультиязычной моделью mGPT, которые мы в этом году представляем на EMNLP, а также презентуем 23 файнтюна mGPT на моноязычных корпусах языков малых народов России и стран СНГ. Этот набор даст уникальную возможность использовать мощь языковых моделей для малоресурсных языков.

13:45

Игорь Чурин

Мария Тихонова

Главный инженер по разработке

скачать презентацию

GigaSearch или RAG в GigaChat

DS Team Lead

Поговорим о том, как мы в SberDevices реализовали RAG (Retrieval Augmented Generation) на основе GigaChat — GigaSearch. Заглянем под капот, обсудим трудности, с которыми нам пришлось столкнуться, а также продемонстрируем прирост по метрикам качества ответа на фактологические вопросы. На десерт — покажем, как научили GigaSearch отвечать со ссылками на источники.

13:05

Прохор Гладких

скачать презентацию

Исследования в alignment GigaChat

Никита Сидоров

Senior MLE R&D NLP GigaChat

12:40

Расскажем о том, какие исследовательские решения наша команда уже внедрила в разработку GigaChat и как мы работаем над его alignment`ом.

скачать презентацию

R&D GigaChat: направления и фокусы

Team Lead R&D NLP GigaChat

12:20

Обсудим ключевые направления экспериментов в NLP GigaChat, рецепты pretrain, мультиэкспертность и мультиагентность и GigaQ*. Поговорим о мультимодальности: изображениях, видео, звуке, 2D/3D и манипуляции изображениями.

Валерий Терновский

Team Lead R&D CV

Александр Капитанов

скачать презентацию

Открытие

12:00

Сергей Марков

Руководитель исследовательской программы GigaChat
и R&D

11:00

Регистрация офлайн-участников и приветственный кофе

Буду смотреть в онлайне

Письмо со ссылкой на трансляцию придет на ваш e-mail за час до начала события.

Места ограничены. Регистрация на офлайн завершена.

Москва

Хочу прийти очно

SberDevices — российская IT-компания полного цикла. R&D-центр экспертизы в области искусственного интеллекта: речевые технологии, понимание естественного языка, компьютерное зрение.

Производит умные устройства, разрабатывает высокотехнологичные сервисы для бизнеса, делает масштабные ML-проекты, LLM, высоконагруженные системы и технологии обработки Big Data. В портфолио SberDevices — SberBox, SberBoom, SberJazz, GigaChat и другие легенды.

@Salute AI

Работа в СБЕР

Code of Conduct

Реклама. ПАО Сбербанк. ИНН 7707083893. Erid: 2RanymbaMyz