Афтерпати для офлайн-участников
Руководитель исследовательской программы GigaChat и R&D
Не можешь сказать — спой! Синтез пения по нажатию одной кнопки
Data Scientist команды Генеративной музыки
Расскажем про синтез вокала и генерацию пения с аккомпанементом по тексту.
Управление речевыми характеристиками в модели синтеза речи и инструктивные данные
Артемий расскажет о способе представления речевых характеристик, который позволяет управлять темпом, тоном, энергией, экспрессией и артикуляцией речи в модели синтеза речи на основе архитектур FastSpeech. Обсудим создание инструктивного датасета для синтеза речи с помощью LLM.
LLM-подходы в синтезе речи
Можно ли решать задачи генерации речи с помощью LLM? Какие возможности и ограничения у таких архитектур? Рассмотрим применение LLM к различным задачам в речевом домене. Обсудим архитектуры, токенизацию аудио, пайплайны сбора и валидации данных.
Тихо! Сейчас будет та самая сцена: как автоматически находить цепляющие моменты в видео
Марина познакомит с полностью автоматизированным пайплайном для распознавания видеоконтента. Эта система, работая с запросами на естественном языке, быстро находит и извлекает нужные фрагменты из видео, выделяя самые увлекательные моменты. Присоединяйтесь, чтобы узнать, как это изменит взаимодействие с видеоконтентом.
Генеративный 3D, быстрый синтез и реконструкция 3D-объектов
Исследование диффузионных моделей приоткрыло нам возможность переносить текстовые концепции на холст цифрового полотна. Казалось бы, что еще нужно для счастья? Перенести все это в 3D! Выясним, как создать практически любой объект в 3D-пространстве с помощью нейронных сетей, как заставить Кандинского смотреть за угол и ждет ли нас будущее, как в «Первому игроку приготовиться».
Как научить модель понимать жестовую речь
Начнем с понятия жестового языка, его ключевых особенностей и проблем, возникающих при переводе. Вы узнаете технологиях компьютерного зрения, о различиях между задачами распознавания жестов и перевода жестовой речи, а также о специфике данных для решения этих задач.
Панельная дискуссия: GPT-5, как догнать и перегнать западных конкурентов в российских реалиях
Руководитель исследовательской программы GigaChat
и R&D
SAGE v1.1.0: мультиязычная правка орфографии и пунктуации
Поговорим про трансформерные модели для коррекции правописания на русском и английском языках, которые выигрывают у открытых спеллчекеров (Yandex.Speller, JamSpell, Hunspell) и проприетарных моделей (GPT-3.5, GPT-4). А также про обновления в нашей библиотеке SAGE: расширенную разметку в датасетах, метрику, учитывающую разные аспекты правописания, и пополнение в семействе открытых предобученных моделей.
MERA: бенчмарк для оценки фундаментальных моделей
TeamLead команды AGI NLP R&D
Главный инженер по разработке
В докладе подробно расскажем:
— О методологии бенчмарка и его особенностях
— Подробно обсудим входящие в него тесты — 21 задание в инструктивном формате для оценки навыков модели: здравый смысл, целеполагание, логика, знания о мире, память, математика, этика и многое другое.
— Поговорим о том, как отправлять сабмиты и пользоваться кодом на основе открытой библиотеки LM Harness для замеров моделей в едином формате.
Практические аспекты ранжирования ответов виртуального ассистента Салют
Доклад о том, как мы делаем ранжирование. В качестве примера возьмем задачу выбора ответа в Собеседнике. Обсудим, как мы работаем с данными, что делаем для улучшения качества и какие применяем оптимизации по памяти и времени.
mGPT-модели для малых языков России
Главный инженер по разработке
Расскажем о новых экспериментах с мультиязычной моделью mGPT, которые мы в этом году представляем на EMNLP, а также презентуем 23 файнтюна mGPT на моноязычных корпусах языков малых народов России и стран СНГ. Этот набор даст уникальную возможность использовать мощь языковых моделей для малоресурсных языков.
Главный инженер по разработке
GigaSearch или RAG в GigaChat
Поговорим о том, как мы в SberDevices реализовали RAG (Retrieval Augmented Generation) на основе GigaChat — GigaSearch. Заглянем под капот, обсудим трудности, с которыми нам пришлось столкнуться, а также продемонстрируем прирост по метрикам качества ответа на фактологические вопросы. На десерт — покажем, как научили GigaSearch отвечать со ссылками на источники.
Исследования в alignment GigaChat
Senior MLE R&D NLP GigaChat
Расскажем о том, какие исследовательские решения наша команда уже внедрила в разработку GigaChat и как мы работаем над его alignment`ом.
R&D GigaChat: направления и фокусы
Team Lead R&D NLP GigaChat
Обсудим ключевые направления экспериментов в NLP GigaChat, рецепты pretrain, мультиэкспертность и мультиагентность и GigaQ*. Поговорим о мультимодальности: изображениях, видео, звуке, 2D/3D и манипуляции изображениями.
Руководитель исследовательской программы GigaChat
и R&D
Регистрация офлайн-участников и приветственный кофе