Расписание конференции

Сбор гостей

11:00

Старт программы

12:30 - 12:35
Доклад

AI-инструмент для разработчика: как мы обучали LLM работе с кодом

Большие языковые модели (LLM) всё чаще начинают применять для автозаполнения, ревью кода. Но их разработка — сложная задача, которая требует правильного подбора таргетов и большой базы для обучения. В докладе поделюсь, как мы дообучали модели на продакшен-коде Яндекса и открытом коде с большим количеством звёзд, а также почему решили предсказывать стейтменты и как это повысило результаты онлайн-метрик качества.

Также рассмотрим разные способы оценки качества таких моделей. Например, вначале мы использовали метрики «доля акцептов» и «доля дискардов» для оценки экспериментов с моделью. Однако они не учитывали абсолютное количество ивентов и длину саджеста. Расскажу об устройстве нашей метрики и её основных принципах.

Смотреть запись

12:35 - 13:15
Data Science
Виктор Плошихин Yandex Infrastructure Руководитель ML-лаборатории в Yandex Platform Engineering

Отвечает за разработку и развитие AI-инструментов, повышающих эффективность разработчиков. В Яндексе с 2010 года. До Yandex Cloud руководил ML-командами в качестве Поиска, Видео, Почте и Финтехе. Считает, что главное в работе — делать жизнь пользователей продуктов лучше и за счёт этого приносить компании профит.

Доклад

Исследование экосистемных эффектов методами Causal Inference

У крупных технологических компаний много продуктов, которые образуют экосистему. Одни влияют на другие, каннибализируют их, становятся источником привлечения и повышают лояльность к бренду. Такие эффекты не всегда можно проверить тестом — иногда это долго, дорого или просто невозможно. Я расскажу, как в Т-Банке оценили влияние страховых продуктов на другие части экосистемы с помощью методов причинно-следственного анализа.

Смотреть запись

13:15 - 13:55
Data Science
Георгий Морозов Т-банк Ведущий аналитик рисков

Окончил физический факультет МГУ им. М. В. Ломоносова. Сейчас интересуется аналитикой и Data Science. Более трех лет анализирует и управляет рисками в страховании: прошёл путь от джуна до лида команды. Нашёл себя в преподавании: учит управлять рисками на финтех-курсах Т-Банка.

Перерыв

13:55 - 14:30

Спикеры отвечают на вопросы в офлайн-зоне Q&A

13:55 - 14:30
Доклад

Большие проекты на базе LLM и связанные с ними «грабли»

14:30 - 15:15
Keynote
Алексей Гусаков Яндекс Поиск CTO

Разработал первую нейросеть для Поиска, ставшую основой алгоритма «Палех». Руководил командой Алисы и запустил YandexGPT и Шедеврум. Отвечает за все поисковые технологии Яндекса и внедрение нейросетей в сервисы компании для внутреннего и мирового рынков. Больше пяти лет работал в Google — занимался разработкой платформы для машинного обучения. Занял второе место на чемпионате мира по программированию ACM ICPC. Покорил Килиманджаро и Эльбрус. Выжимает 190 кг и прививает любовь к тяжёлым тренировкам команде.

Keynote
Катя Серажим Яндекс Поиск Руководитель управления качества

Отвечает за улучшение качества поисковых алгоритмов, разработку и внедрение в поиск новых технологий. Одно из фокусных направлений — интеграция в поиск генеративной нейросети YandexGPT.

Присоединилась к команде Яндекса в 2012 году. Начинала с разработки ML-моделей ранжирования для регионального поиска. В 2015 году возглавила группу разработки формул ранжирования и внесла большой вклад в обновления Поиска 2016-го и 2017-го годов.

В 2020 году команда под руководством Кати запустили YATI — технологию анализа текста на основе нейросетей-трансформеров. Благодаря этой технологии Поиск стал лучше оценивать смысловую связь между поисковыми запросами и содержанием документов в интернете. В 2022 году внедрила в Поиск нейросеть CS YATI, что значительно улучшило качество выдачи для разработчиков и ML-специалистов и сделало навигацию по запросам более удобной.

Окончила факультет прикладной математики Высшей школы экономики и Школу анализа данных Яндекса. Специализируется на машинном обучении.

Доклад

Синтез выразительной речи для аудиокниг

10 июня в «Букмейте» появился «Виртуальный рассказчик» — нейронная сеть Яндекса для синтеза аудиокниг. Расскажу о прошлом, настоящем и будущем этого проекта. Прошлое — зачем его создавали и чего хотят пользователи. Настоящее — как выжать максимум из технологий уходящего поколения и внедрить длинный контекст в low-resource real-time модель. Будущее — как GPT и диффузионные модели произвели революцию в синтезе речи и как мы это используем.

Смотреть запись

15:15 - 15:55
Speech
Степан Комков Яндекс Поиск Старший разработчик службы синтеза речи

Шесть лет создавал алгоритмы для беспилотных автомобилей, распознавания лиц и обработки видео в Huawei. За это время получил степень кандидата физико-математических наук. Теперь работает над генерацией голоса в Яндексе.

Верит, что, зная алгоритм обратного распространения ошибки и умея пользоваться бродкастингом, можно и нужно добиваться крутых результатов в разных областях глубокого обучения.

Доклад

Использование LLM в разметке данных: можно ли убрать людей?

Доклад посвящён экспериментам по использованию LLM в разметке данных и их результатам. Расскажу о наших исследованиях во всех способах подключения LLM к разметке данных (чернорабочий, разметчик, модератор и ассистент) на живых проектах и проведу сравнение процесса с участием людей и без них. Наш проект — внутренняя платформа разметки Сбера, через которую проходит большая часть разметки как флагманских проектов самого Сбера (GigaCha, Кандинский, R&D), так и внешних клиентов.

Смотреть запись

15:55 - 16:35
NLP
Дмитрий Антипов Сбер, АБТ Тимлид разработки

Занимается дата-инженерией и помогает Сберу делать его флагманский ИИ лучше: проектирует и руководит разработкой внутренней платформы для DS/ML-команд, позволяющей быстро и качественно размечать мультимодальные данные практически любой сложности. Находит, готовит и размечает данные для GigaChat, Kandinsky, R&D и многих других сервисов. Больше всего любит разные сложные штуки и путешествия.

Доклад

Человек и LLM. Как оценивать качество моделей и строить их метрики качества

Чем лучше становятся LLM-модели, тем сложнее построить систему оценки качества. Поговорим о том, как с этим жить: как строить метрики, какие бенчмарки самые правильные и надёжные, как выстраивать процессы разметки данных. Обсудим экспертные разметки vs краудсорс, а ещё плюсы и минусы экспертов в штате.

Смотреть запись

16:35 - 17:15
NLP
Ирина Барская Яндекс Поиск Руководитель службы аналитики и исследований

Отвечает за аналитику основных нейросетевых технологий Яндекс Поиска: от генерации изображений YandexArt и Переводчика до распознавания и синтеза речи и LLM YandexGPT. До Яндекса защитила кандидатскую по физике и работала постдоком в Vanderbilt University, где на стыке физики, биологии и CV исследовала возможность ранней диагностики рассеянного склероза. А после занималась задачей детекции эмоции в Samsung R&D Center. Больше всего на свете любит смотреть в данные и искать в них здравый смысл.

Спикеры отвечают на вопросы в офлайн-зоне Q&A

17:15 - 17:45

Перерыв

17:15 - 17:45
Доклад

Адаптация VLM под продуктовые требования

Visual Language Models (VLM) — это нейросети, которые работают одновременно с изображением и текстом. Например, принимают запросы с текстовой инструкцией и картинкой, а затем генерируют текстовый ответ.

Базовая технология VLM умеет хорошо решать большое количество задач «из коробки», но для внедрения в продукт нужно учитывать ограничения по формату ответа, доступность дополнительных источников информации и ресурсов.

Адаптация моделей под продуктовые требования называется продуктовым элайнментом. В докладе поговорим про основные методы элайнмента (prompt engineering, P-Tune, SFT, RL, RAG) и разберём их применение на примере трёх реальных задач: мультимодального поиска, описания изображений и фантазийно-генеративных сценариев.

Смотреть запись

17:45 - 18:30
CV
Екатерина Глазкова Яндекс Поиск Тимлид команды алайнмента VLM службы компьютерного зрения

Руководит командой алайнмента Visual-Language Models (VLM) в службе компьютерного зрения — отвечает за адаптацию VLM моделей для нужд разных продуктов Яндекса. Выпускница ФКН ВШЭ и ШАД. Преподавала машинное и глубинное обучение на факультете компьютерных наук ВШЭ, занималась компьютенрым зрением в Центре глубинного обучения и байесовских методов НИУ ВШЭ и Лаборатории Касперского.

Доклад

SOTA в анализе медицинских снимков, MedSAM, разметка. Что можно предсказать, имея свой снимок МРТ?

Поговорим про SOTA-сегментации обычных и медицинских изображений SAM и MedSam. Обсудим решения из лидербордов в соревновании по сегментации опухолей мозга BraTS. Посмотрим, как сегодня сетки перформят на реальных данных Эксперимента радиологии Москвы, и погордимся. В конце расскажу, что можно предсказать по сеткам в открытом доступе, имея на руках свои снимки и PhD в Computer Science.

Смотреть запись

18:30 - 19:10
CV
Екатерина Кондратьева LiteBC Ltd. (Израиль) Руководитель команды по компьютерному зрению

Старший инженер в области компьютерного зрения с шестилетним опытом в ИИ для медицины. Автор более 20 научных статей и финалист трёх соревнований по анализу МРТ-снимков.

Доклад

Вольюметрик-студия на коленке

Расскажем о том, как создать технологию восстановления людей в 3D с небольшого числа очень дешевых камер.

Вольюметрик студия очень мобильна и работает на супер дешевых камерах. Это стало возможным благодаря уникальным алгоритмам, разработанным мной и членами моей команды.

В ходе разработки, мы стремились получить решение, не требующее приобретения дорогих камер или иного оборудования. И в результате множеста software-прорывов и hardware-ресерча достигли результирующей стоимости студии в пару тысяч долларов.

Смотреть запись

19:10 - 19:50
CV
Сергей Елисеев Яндекс Плюс Руководитель группы 3D компьютерного зрения

Окончил Школы анализа данных, запустил Яндекс Плюс, делал Кинопоиск. Разрабатывал автономный транспорт — зрение машины и робота. Сейчас руководит исследованиями в 3D в Фантехе Яндекса.

CV
Леонид Штанько Яндекс Плюс Старший разработчик

Занимается реконструкцией 3D-сцен в Фантехе Яндекса: делает трёхмерный контент из набора картинок. До этого работал над задачами компьютерного зрения для real-time-безопасности водителей Такси и локализацией объектов для роботов Маркета.

Спикеры отвечают на вопросы в офлайн-зоне Q&A

19:50 - 20:20

Афтепати

19:50 - 22:30

Сбор гостей

11:00

Старт программы

13:00 - 13:05
Доклад

Актуальный опыт внедрения Feast в командах Купера

Доклад о том, как в Купере проходило внедрение Feast в качестве Online Feature Store. Расскажу о подводных камнях при работе с Feast, текущем техническом состоянии проекта и результатах внедрения Feast в уже существующий workflow. Также поделюсь полученными результатами и советами по работе с Feast.

Смотреть запись

13:05 - 13:45
MLOps
Юрий Классен Купер Руководитель группы разработки инфраструктуры машинного обучения

Занимается разработкой на Python уже больше шести лет. Попробовал себя в разных сферах — от кибербезопасности до геймдева. Последние четыре года работает в направлении MLOps — разрабатывает платформы машинного обучения и интегрирует в них Open Source решения (Feast и другие).

Доклад

Онтология: что находится под капотом рекламы

ML в рекламе используют больше 10 лет. Сотни разработчиков ежедневно обучают модели, ставят эксперименты и выкатывают их в прод. Или не выкатывают. Реклама настолько большая, что могут потребоваться месяцы, чтобы разобраться во всех внутренних процессах. Я расскажу, как мы улучшили понимание и контроль всей рекламной ML-инфраструктуры с помощью метасервиса, объединяющего все компоненты системы.

Смотреть запись

13:45 - 14:25
MLOps
Кирилл Трофимов Яндекс Реклама Ведущий ML-инженер

Работает в Яндексе пять лет. Оптимизирует рекламные процессы на всех уровнях. В свободное время увлекается робототехникой, финансами, любит сёрфинг и путешествия.

Перерыв

14:25 - 15:15

Спикеры отвечают на вопросы в офлайн-зоне Q&A

14:25 - 14:55
Доклад

Как улучшить знакомые подходы для рекомендации незнакомого

Для расширения кругозора пользователя и активного поиска нового контента в Яндекс Музыке есть специальная настройка «Незнакомое» в «Моей волне». В докладе разберём её особенности по сравнению с обычным потоком рекомендаций. Поймём, какие метрики важно растить, когда рекомендуется только неизвестный пользователю контент, и как переделать алгоритм рекомендаций под них. Поделюсь особыми подходами в отборе кандидатов и моделями ранжирования, а ещё результатами внедрения этих подходов.

Смотреть запись

15:15 - 16:00
RecSys
Савва Степурин Яндекс Музыка Старший разработчик команды рекомендаций

Окончил бакалавриат и магистратуру МФТИ и Школу анализа данных. В Яндексе уже четыре года: вырос из стажёра в старшего разработчика. Успел поработать над рекомендациями в Дзене и Яндекс банке. Сейчас два года развивает «Мою волну» в Яндекс Музыке. Для души преподаёт: обучает студентов программированию в МФТИ и ВШЭ.

Доклад

Кандидатогенерация для рекламы. Как учитывать ставки на всех этапах ранжирования

Поговорим про устройство нативной рекламы в поиске Маркета. Узнаете, как не терять рекламные товары среди миллионов других и как сделать эффективные алгоритмы кандидатогенерации с учётом рекламной ставки. Рассмотрим основные этапы, проблемы, внедрения и дальнейшие направления развития.

Смотреть запись

16:00 - 16:40
RecSys
Александр Воронцов Яндекс Маркет Руководитель службы качества рекламы

Руководит командой качества рекламы в Яндекс Маркете. Ранжирует и генерирует рекламные объявления, разрабатывает продукты для рекламодателей.

Доклад

Рекомендательные системы: сложности разработки и пути решения

Доклад о ключевых проблемах, с которыми сталкиваются разработчики, на примере рекомендательных систем HeadHunter. Предложу проверенные на практике решения, расскажу о методах улучшения качества разметки данных с использованием кластеризации, подходах к согласованию ML- и бизнес-метрик, а также методах борьбы с пузырём рекомендаций. Особое внимание уделю реальному кейсу HH. Это поможет увидеть, как теоретические решения применяются на практике и какое влияние они оказывают на бизнес.

Смотреть запись

16:40 - 17:20
RecSys
Пётр Чуйков HeadHunter Руководитель команды Data Science

Руководит командой «DSML-Соискатели» в HeadHunter. До этого успел поработать в различных сферах, где в России применяют ML. Победитель и призер соревнований по машинному обучению, включая Kaggle-соревнования.

Перерыв

17:20 - 17:50

Спикеры отвечают на вопросы в офлайн-зоне Q&A

17:20 - 17:50
Доклад

(Не)реальные данные — генерация синтетических данных

Обсудим недавние методы генерации синтетики и задачи, для которых генерация синтетики будет полезна. Расскажу об опыте работы с такими данными: для чего мы это делали и как. Затрону как обычную генерацию текстов (для дообучения моделей на них), так и что-то необычное — например, маскирование корпоративных данных для передачи во внешние нейросети. Поделюсь, где получилось хорошо, где — плохо и с какими проблемами и ограничениями столкнулись.

Смотреть запись

17:50 - 18:35
NLP
Дарья Андреева X5 Tech Data Scientist

Окончила факультет компьютерных наук ВШЭ в 2022 году. Сейчас работает с языковыми моделями в X5 Tech. Параллельно успевает вести курсы NLP в ВШЭ. А ещё делает образовательный контент по ML для МИЭМ НИУ ВШЭ.

Доклад

Оптимизация генеративного ридера в составе RAG‑системы

В докладе рассмотрим простую методику для оптимизации подсистемы генеративного ридера, который является одним из ключевых компонентов вопросо-ответных систем на архитектуре RAG. Методику можно использовать в качестве предварительной оптимизации, которая позволяет быстро построить вопросо-ответную систему приемлемого качества. Её особенности — простота, скорость и минимальные требования к аппаратному обеспечению.

Смотреть запись

18:35 - 19:15
NLP
Андрей Соколов YADRO Архитектор, Эксперт по разработке ПО искусственного интеллекта

Более 15 лет разрабатывает сложные алгоритмы и вычислительные системы. Последние годы практикует методы машинного обучения и искусственного интеллекта. Развивается как архитектор и техлид, разрабатывает интеллектуальные системы. Учился в аспирантуре МГУ им. Ломоносова и писал диссертацию об оценках сложности обучения формальных нейронов. Теперь в том же университете делится опытом со студентами.

NLP
Юлия Камелина YADRO Старший инженер по разработке ПО ИИ

Более 5 лет занимается разработкой в области искусственного интеллекта. В последние годы работала над обработкой естественного языка, включая разработку RAG-систем и решений с использованием больших языковых моделей, а также проектами в области автоматического распознавания речи (ASR).

Спикеры отвечают на вопросы в офлайн-зоне Q&A

19:15 - 19:45

Афтепати

19:50 - 22:30
Для участия в мастер-классе желательно иметь при себе ноутбук
Мастер-класс

Мультиагентные подходы для работы с языковыми моделями на базе сервисов Yandex Cloud

В области применения больших языковых моделей популярность набирают агентские подходы, когда несколько таких моделей взаимодействуют для достижения цели — например, для повышения качества финального ответа. В рамках мастер-класса мы попробуем применить этот подход для построения вопросо-ответной системы транспортной компании. При этом сами методы могут быть полезны в любой индустрии и компании, которая планирует строить вопросо-ответные системы. С помощью них клиенты смогут получить информацию о планируемых рейсах, стоимости и других деталях услуг. Для решения задачи поэкспериментируем с различными структурами данных для RAG, в том числе с текстовыми и графовыми. Мастер-класс пройдёт на базе языковой модели YandexGPT и других ML-сервисов Yandex Cloud.

13:15 - 14:45
NLP
Дмитрий Рыбалко Yandex Cloud Продуктовый архитектор ML-сервисов

Работает в Yandex Cloud, где отвечает за развитие платформы для обучения и деплоя ML-моделей Yandex DataSphere и большой языковой модели YandexGPT. Помогает клиентам разобраться с ML-технологиями Яндекса, участвует в социальных проектах Yandex Cloud, где разрабатывает решения на базе ML для экологии, медицины и образования.

В области анализа данных и машинного обучения уже более 7 лет. В компаниях IBM и Ramax занимался разработкой и внедрением аналитических и оптимизационных решений в различных отраслях (например, банки и авиация). Сейчас с большим интересом следит за развитием направлений MLOps и LLM.

NLP
Дмитрий Сошников Yandex Cloud Доцент МАИ, НИУ ВШЭ, технический руководитель AI Lab Школы дизайна НИУ ВШЭ, консультант Yandex Cloud

Ветеран Microsoft, проработал в компании больше 16 лет. Как технологический евангелист, участвовал во множестве конференций и мероприятий, дважды оказывался на одной сцене со Стивом Балмером и Алексеем Пажитновым, встречался с Биллом Гейтсом. В течение 2 лет был ведущим экспертом по машинному обучению и искусственному интеллекту, помогал крупным европейским компаниям создавать пилотные проекты цифровой трансформации на основе данных.

Сейчас доцент МАИ, НИУ ВШЭ и МФТИ, читает курсы «Искусственный интеллект» и «Функциональное и логическое программирование».

Перерыв

14:45 - 15:45
Мастер-класс

Как зафайнтюнить вашу любимую диффузионную модель

Современные диффузионные модели позволяют генерировать качественные и разнообразные изображения по текстовому описанию. Но что делать, если мы хотим сгенерировать не случайную картинку, а конкретный объект (например, вазу, которую мы продадим на маркетплейсе). В этом заключается задача персонализированной генерации: внедрить в предобученную модель знания о каком-то объекте, заданном несколькими фотографиями, чтобы генерировать его в новых сценах. На мастер-классе разберём основы диффузии и базовые методы персонализации диффузионных моделей, а также попробуем обучить некоторые из них на конкретных примерах.

15:45 - 17:15
CV
Лев Новицкий SBER AI Ведущий специалист по исследованию данных Kandinsky Research

Занимается генеративными моделями, в частности автоэнкодерами для изображений и видео, а также обучением и дистилляцией диффузионных моделей.

CV
Вера Соболева Институт Искусственного Интеллекта AIRI Младший научный сотрудник

Последние пять лет занимается исследованиями в области искуственного интеллекта. Полтора года из которых работает над генеративными моделями. Младший научный сотрудник в AIRI и аспирант ФКН в НИУ ВШЭ. Окончила МФТИ и Сколтех.

Перерыв

17:15 - 17:55
Мастер-класс

Как достать соседа — бенчмаркаем ANN алгоритмы

На мастер-классе разберёмся, зачем нужны алгоритмы приближенного поиска соседей. Рассмотрим реализацию популярных алгоритмов IVF, HNSW. Научимся делать бенчмарк различных подходов на своих данных с использованием библиотеки ann-benchmarks.

17:55 - 19:25
RecSys
Михаил Каменщиков Avito Руководитель юнита Рекомендаций

Окончил мехмат НГУ и Школу анализа данных, сейчас руководит направлением рекомендаций в Авито. До этого развивал рекомендации как DS. Преподаёт алгоритмы и ML System Design. Kaggle Master.

Перерыв

19:25 - 19:55

GenAI D&D

Познакомьтесь с технологиями по-новому. В 19:55 вы сможете сыграть в интерактивную ролевую игру в стиле Dungeons & Dragons. YandexGPT выступит в роли генеративного мастера подземелья, YandexART создаст атмосферное визуальное сопровождение, а Yandex SpeechKit озвучит реплики персонажей, которых вы встретите в своем путешествии. Приходите поиграть или просто понаблюдать за приключениями.

19:55 - 21:25
Создайте свой собственный мир приключений в стиле игры Dungeons & Dragons

Афтепати

19:50 - 22:30

Кофе с talk’ом от Екома и Райдтеха

15:35 - 16:15
Способы применения машинного обучения в робототехнике

Кофе с talk’ом от Екома и Райдтеха

17:30 - 18:10
Использование нейросетей в ранжировании в поиске Екома

Кофе с talk’ом от Екома и Райдтеха

19:30 - 20:10
Связь бизнеса и ML: как поверх ML‑модели накрутить бизнес-логику

Афтепати

19:50 - 22:30
Mon Nov 18 2024 11:24:39 GMT+0300 (Moscow Standard Time)