Конференция RnD команд SberDevices по развитию GigaChat, NLP, Vision и Audio
5 апреля
12:00
Москва+Онлайн
(МСК, GMT+3)
18+
Программа
Афтерпати для офлайн-участников
20:00
Закрытие
19:45
Сергей Марков
Руководитель исследовательской программы GigaChat и R&D
Не можешь сказать — спой! Синтез пения по нажатию одной кнопки
Data Scientist команды Генеративной музыки
19:20
Максим Смоляков
Расскажем про синтез вокала и генерацию пения с аккомпанементом по тексту.
Управление речевыми характеристиками в модели синтеза речи и инструктивные данные
Senior ML Engineer
19:00
Артемий Таразанов
Артемий расскажет о способе представления речевых характеристик, который позволяет управлять темпом, тоном, энергией, экспрессией и артикуляцией речи в модели синтеза речи на основе архитектур FastSpeech. Обсудим создание инструктивного датасета для синтеза речи с помощью LLM.
LLM-подходы в синтезе речи
Team Lead RnD.TTS
18:30
Борис Жестков
Можно ли решать задачи генерации речи с помощью LLM? Какие возможности и ограничения у таких архитектур? Рассмотрим применение LLM к различным задачам в речевом домене. Обсудим архитектуры, токенизацию аудио, пайплайны сбора и валидации данных.
Тихо! Сейчас будет та самая сцена: как автоматически находить цепляющие моменты в видео
CV Engineer
17:50
Марина Бессмертная
Марина познакомит с полностью автоматизированным пайплайном для распознавания видеоконтента. Эта система, работая с запросами на естественном языке, быстро находит и извлекает нужные фрагменты из видео, выделяя самые увлекательные моменты. Присоединяйтесь, чтобы узнать, как это изменит взаимодействие с видеоконтентом.
Генеративный 3D, быстрый синтез и реконструкция 3D-объектов
ML Engineer
17:30
Михаил Мазуров
Исследование диффузионных моделей приоткрыло нам возможность переносить текстовые концепции на холст цифрового полотна. Казалось бы, что еще нужно для счастья? Перенести все это в 3D! Выясним, как создать практически любой объект в 3D-пространстве с помощью нейронных сетей, как заставить Кандинского смотреть за угол и ждет ли нас будущее, как в «Первому игроку приготовиться».
Как научить модель понимать жестовую речь
Lead CV Engineer
Начнем с понятия жестового языка, его ключевых особенностей и проблем, возникающих при переводе. Вы узнаете технологиях компьютерного зрения, о различиях между задачами распознавания жестов и перевода жестовой речи, а также о специфике данных для решения этих задач.
17:10
Александр Нагаев
Панельная дискуссия: GPT-5, как догнать и перегнать западных конкурентов в российских реалиях
Руководитель исследовательской программы GigaChat
и R&D
16:00
Сергей Марков
Обед
15:20
SAGE v1.1.0: мультиязычная правка орфографии и пунктуации
Senior NLP Engineer
Поговорим про трансформерные модели для коррекции правописания на русском и английском языках, которые выигрывают у открытых спеллчекеров (Yandex.Speller, JamSpell, Hunspell) и проприетарных моделей (GPT-3.5, GPT-4). А также про обновления в нашей библиотеке SAGE: расширенную разметку в датасетах, метрику, учитывающую разные аспекты правописания, и пополнение в семействе открытых предобученных моделей.
14:55
Никита Мартынов
MERA: бенчмарк для оценки фундаментальных моделей
TeamLead команды AGI NLP R&D
14:30
Алёна Феногенова
Альбина Ахметгареева
Senior Data Scientist
Мария Тихонова
Главный инженер по разработке
В докладе подробно расскажем:
— О методологии бенчмарка и его особенностях
— Подробно обсудим входящие в него тесты — 21 задание в инструктивном формате для оценки навыков модели: здравый смысл, целеполагание, логика, знания о мире, память, математика, этика и многое другое.
— Поговорим о том, как отправлять сабмиты и пользоваться кодом на основе открытой библиотеки LM Harness для замеров моделей в едином формате.
Практические аспекты ранжирования ответов виртуального ассистента Салют
ML Engineer
Доклад о том, как мы делаем ранжирование. В качестве примера возьмем задачу выбора ответа в Собеседнике. Обсудим, как мы работаем с данными, что делаем для улучшения качества и какие применяем оптимизации по памяти и времени.
14:05
Артём Снегирёв
mGPT-модели для малых языков России
Главный инженер по разработке
Расскажем о новых экспериментах с мультиязычной моделью mGPT, которые мы в этом году представляем на EMNLP, а также презентуем 23 файнтюна mGPT на моноязычных корпусах языков малых народов России и стран СНГ. Этот набор даст уникальную возможность использовать мощь языковых моделей для малоресурсных языков.
13:45
Игорь Чурин
Мария Тихонова
Главный инженер по разработке
GigaSearch или RAG в GigaChat
DS Team Lead
Поговорим о том, как мы в SberDevices реализовали RAG (Retrieval Augmented Generation) на основе GigaChat — GigaSearch. Заглянем под капот, обсудим трудности, с которыми нам пришлось столкнуться, а также продемонстрируем прирост по метрикам качества ответа на фактологические вопросы. На десерт — покажем, как научили GigaSearch отвечать со ссылками на источники.
13:05
Прохор Гладких
Исследования в alignment GigaChat
Никита Сидоров
Senior MLE R&D NLP GigaChat
12:40
Расскажем о том, какие исследовательские решения наша команда уже внедрила в разработку GigaChat и как мы работаем над его alignment`ом.
R&D GigaChat: направления и фокусы
Team Lead R&D NLP GigaChat
12:20
Обсудим ключевые направления экспериментов в NLP GigaChat, рецепты pretrain, мультиэкспертность и мультиагентность и GigaQ*. Поговорим о мультимодальности: изображениях, видео, звуке, 2D/3D и манипуляции изображениями.
Валерий Терновский
Team Lead R&D CV
Александр Капитанов
Открытие
12:00
Сергей Марков
Руководитель исследовательской программы GigaChat
и R&D
11:00
Регистрация офлайн-участников и приветственный кофе
Буду смотреть в онлайне
Письмо со ссылкой на трансляцию придет на ваш e-mail за час до начала события.
Места ограничены. Регистрация на офлайн завершена.
Москва
Хочу прийти очно
SberDevices — российская IT-компания полного цикла. R&D-центр экспертизы в области искусственного интеллекта: речевые технологии, понимание естественного языка, компьютерное зрение.
Производит умные устройства, разрабатывает высокотехнологичные сервисы для бизнеса, делает масштабные ML-проекты, LLM, высоконагруженные системы и технологии обработки Big Data. В портфолио SberDevices — SberBox, SberBoom, SberJazz, GigaChat и другие легенды.
@Salute AI
Работа в СБЕР
© 2012–2024 JUG Ru Group
Реклама. ПАО Сбербанк. ИНН 7707083893. Erid: 2RanymbaMyz