Недавно завершилась конференция aij.ru от Сбера
Офлайн попасть было практически нереально, и нужно было быть со связями либо особенным, чтобы получить приглашение на нее (так что я не попал и смотрел онлайн 🙃). Как всегда, Сбер сделал кучу анонсов, с которыми можно ознакомиться тут.
Мне запомнились 2 интересных и забавных момента с конференции:
Первый
AI Journey считается одной из крупнейших конференций по искусственному интеллекту. На ней Сбер представляет свои новые LLM модели, например в прошлом году они анонсировали новую модель гигачата.
Похоже ребята из Т-Банка подумали, что и в этом году на AIJ Сбер будет презентовать новую модель. Поэтому ночью за день до релиза они засабмитили и утром анонсировали модели T-Lite и T-Pro, с гордостью указав, что они #2 модель после gpt-4o на бенчмарке MERA.
Но как говорят, "Великие умы мыслят одинаково". Той же ночью, и с такой же задумкой MTS AI решил тоже засабмитить свою модель Cotype. Модель оказалась на 0.004 балла лучше T-pro-it-1.0 и случайно (либо нет?) была выложена прямо после того как Тбанк сделал анонс, что "T-Pro заняла второе место по бенчмарку MERA среди всех моделей, включая проприетарные" - и все, кто перешли проверить, увидели на месте T-pro модель от MTS AI . Хороший и бесплатный пиар у MTS AI получился😀
Офлайн попасть было практически нереально, и нужно было быть со связями либо особенным, чтобы получить приглашение на нее (так что я не попал и смотрел онлайн 🙃). Как всегда, Сбер сделал кучу анонсов, с которыми можно ознакомиться тут.
Мне запомнились 2 интересных и забавных момента с конференции:
Первый
AI Journey считается одной из крупнейших конференций по искусственному интеллекту. На ней Сбер представляет свои новые LLM модели, например в прошлом году они анонсировали новую модель гигачата.
Похоже ребята из Т-Банка подумали, что и в этом году на AIJ Сбер будет презентовать новую модель. Поэтому ночью за день до релиза они засабмитили и утром анонсировали модели T-Lite и T-Pro, с гордостью указав, что они #2 модель после gpt-4o на бенчмарке MERA.
Но как говорят, "Великие умы мыслят одинаково". Той же ночью, и с такой же задумкой MTS AI решил тоже засабмитить свою модель Cotype. Модель оказалась на 0.004 балла лучше T-pro-it-1.0 и случайно (либо нет?) была выложена прямо после того как Тбанк сделал анонс, что "T-Pro заняла второе место по бенчмарку MERA среди всех моделей, включая проприетарные" - и все, кто перешли проверить, увидели на месте T-pro модель от MTS AI . Хороший и бесплатный пиар у MTS AI получился😀
Второй момент с конференции aij.ru
Александр Потемкин, директор tagme.ru для своего выступления Способы оптимизации разметки данных взял большую часть материала из моего доклада Автоматизация разметки данных с помощью ML-моделей. Да, картинки, несколько кейсов и оформление они взяли свои, но суть, идеи, тренды - многое взято под копирку.
Вы можете сказать: "А у Александра еще про LLM есть, а у тебя нет".
Согласен, но и тут вышло забавно: блок про LLM был позаимствован у Дмитрия Антипова с AI Conf 2024 😀.
Вот так и создаются доклады для международной конференции по ИИ.
Но как говориться, заимствуют у лучших. Так что это одно из подтверждений, что я для вас создаю качественный контент, который даже Сбер использует.
Александр Потемкин, директор tagme.ru для своего выступления Способы оптимизации разметки данных взял большую часть материала из моего доклада Автоматизация разметки данных с помощью ML-моделей. Да, картинки, несколько кейсов и оформление они взяли свои, но суть, идеи, тренды - многое взято под копирку.
Вы можете сказать: "А у Александра еще про LLM есть, а у тебя нет".
Согласен, но и тут вышло забавно: блок про LLM был позаимствован у Дмитрия Антипова с AI Conf 2024 😀.
Вот так и создаются доклады для международной конференции по ИИ.
Но как говориться, заимствуют у лучших. Так что это одно из подтверждений, что я для вас создаю качественный контент, который даже Сбер использует.
Ну что, пора подводить итоги года. Начну с самого интересного и авантюрного для меня проекта AI Роман.
Год назад, листая ленту инстаграмма, я наткнулся на рилс моего давнего знакомого Василия Рязанова о AI модели, которая зарабатывает более 10к$ в месяц. Курьезность этого видео была в том, что об этом рассказывал не сам Вася, а его цифровой аватар, круг замкнулся 😀
И понеслось! 8 января я сделал своего первого цифрового аватара. Только взгляните с какого ужасного качества я начинал, и какой аватар сейчас.
Кстати, цели и планы, которые я поставил по проекту год назад, полностью реализовались! Это я к тому, как важно прописывать планы, строить роадмапы и работать с целеполаганием.
За этот год (даже за 7 месяцев, так как полноценная команда появилась с июня ):
• Мы выложили более 350 рилс
• Собрали 2 крутых инфокурса по обучению нейросетям и созданию собственного аватара
• Получили более 1м просмотров для десятков роликов (как вам новогодний рилс с Гарри Поттером?)
• А всратый рилс с бегемотом набрал 10 миллионов просмотров и завирусился на весь мир
• Разместили кучу контента в ТГ, инсте, TikTok, Shorts, Дзене, Yappy, VK
• Запустили марафон по работе с нейросетями
• Познакомился с огромным количеством интересных людей, попал в закрытый ИИ клуб “Акулы”
• Чуть лучше стал понимать нишу и̶ф̶о̶ц̶и̶г̶а̶н̶ инфоблогеров, механики пиара и способы привлечения аудитории
Из неудач: пока не вышли на самоокупаемость, долго топтались на месте с одним маркетологом, трудности с поиском хорошего маркетолога (вакансия открыта).
Уверен, что мы находимся только в начале нашего пути, и в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!
Год назад, листая ленту инстаграмма, я наткнулся на рилс моего давнего знакомого Василия Рязанова о AI модели, которая зарабатывает более 10к$ в месяц. Курьезность этого видео была в том, что об этом рассказывал не сам Вася, а его цифровой аватар, круг замкнулся 😀
И понеслось! 8 января я сделал своего первого цифрового аватара. Только взгляните с какого ужасного качества я начинал, и какой аватар сейчас.
Кстати, цели и планы, которые я поставил по проекту год назад, полностью реализовались! Это я к тому, как важно прописывать планы, строить роадмапы и работать с целеполаганием.
За этот год (
• Мы выложили более 350 рилс
• Собрали 2 крутых инфокурса по обучению нейросетям и созданию собственного аватара
• Получили более 1м просмотров для десятков роликов (как вам новогодний рилс с Гарри Поттером?)
• А всратый рилс с бегемотом набрал 10 миллионов просмотров и завирусился на весь мир
• Разместили кучу контента в ТГ, инсте, TikTok, Shorts, Дзене, Yappy, VK
• Запустили марафон по работе с нейросетями
• Познакомился с огромным количеством интересных людей, попал в закрытый ИИ клуб “Акулы”
• Чуть лучше стал понимать нишу и̶ф̶о̶ц̶и̶г̶а̶н̶ инфоблогеров, механики пиара и способы привлечения аудитории
Из неудач: пока не вышли на самоокупаемость, долго топтались на месте с одним маркетологом, трудности с поиском хорошего маркетолога (вакансия открыта).
Уверен, что мы находимся только в начале нашего пути, и в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!
И конечно же хочу поделиться итогами по LLM Arena!
Прежде чем начну, расскажу о том, как же пришла в голову идея создать арену.
Последние 8 лет я плотно занимаюсь данными, и их просто обожаю (думаю, по названию канала это и так понятно😀). Еще в 2018 году, когда выигрывал хакатоны, я усвоил, что без хорошей валидации нереально строить ИИ продукт. Если тест сета нет - то ты как слепой котенок: что-то улучшаешь, файтюнишь. А стало ли лучше - непонятно.
И даже когда мой основной бизнес стал сбором, разметкой и модерацией данных для обучения ИИ, оценка качества ML алгоритмов всегда оставалась любимой задачей.
Поэтому, когда новые LLMки начали появляться как грибы после дождя, я понял, что с одной стороны, у пользователей есть большая потребность понимать, как LLM соотносятся по качеству между собой. А с другой, что у меня есть экспертиза, команда, и понимание, как сделать качественный и хороший бенчмарк.
Почему мы пошли по пути LMSYS Chatbot Arena
На это было несколько причин:
1. Уже была MERA. Летом я познакомился с Аленой Феногеновой, понял, что у нее сильная команда, хорошие бюджеты, пиар, и посчитал, что делать еще один тестовый бенчмарк сейчас нет необходимости.
2. С 2018 года я плотно занимаюсь краудсорсингом, был сертифицированным партнером Толоки, преподавателем крауда в ВШЭ и ШАДе. Так что нагонять кучу людей для сбора оценок, выявлять фродеров, управлять толпой - это то, что я люблю и умею.
3. Было видно, что помимо бенчмарков в виде теста, разработчикам нужны бенчи на основе человеческого фидбека
4. Весной за рубежом LMSYS хайповала, казалось, что это самый популярный бенчмарк
А так как российским LLM моделям трудно попасть на зарубежную арену, мы запустили свою llmarena.ru 🎉
Чего добились за эти полгода:
• Добавили на лидерборд 44 модели
• Выстроили репутацию, что даже ЦБ о нас пишет
• Получили огромную огласку в СМИ
• Запустили мини-app LLM Arena в Telegram
• Опубликовали на Habr более 25 статей об оценке RAG и LLM моделей
• В рамках llmarena.team пошли в заказную разработку, оценку LLM и RAG систем, Red Teaming LLM, нащупали маркет фит, получили первую выручку
• Познакомились с кучей интересных людей, занимающихся развитием ЛЛМ в РФ
• Сплотились в дружную команду из 8 человек
• Собрали более 50 000 оценок от юзеров
• Наш доклад "Почему бенчмарки лгут?" выиграл номинацию “лучший доклад техно-трека” на конференции conversations
Как и в AI Роман, в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!
Прежде чем начну, расскажу о том, как же пришла в голову идея создать арену.
Последние 8 лет я плотно занимаюсь данными, и их просто обожаю (думаю, по названию канала это и так понятно😀). Еще в 2018 году, когда выигрывал хакатоны, я усвоил, что без хорошей валидации нереально строить ИИ продукт. Если тест сета нет - то ты как слепой котенок: что-то улучшаешь, файтюнишь. А стало ли лучше - непонятно.
И даже когда мой основной бизнес стал сбором, разметкой и модерацией данных для обучения ИИ, оценка качества ML алгоритмов всегда оставалась любимой задачей.
Поэтому, когда новые LLMки начали появляться как грибы после дождя, я понял, что с одной стороны, у пользователей есть большая потребность понимать, как LLM соотносятся по качеству между собой. А с другой, что у меня есть экспертиза, команда, и понимание, как сделать качественный и хороший бенчмарк.
Почему мы пошли по пути LMSYS Chatbot Arena
На это было несколько причин:
1. Уже была MERA. Летом я познакомился с Аленой Феногеновой, понял, что у нее сильная команда, хорошие бюджеты, пиар, и посчитал, что делать еще один тестовый бенчмарк сейчас нет необходимости.
2. С 2018 года я плотно занимаюсь краудсорсингом, был сертифицированным партнером Толоки, преподавателем крауда в ВШЭ и ШАДе. Так что нагонять кучу людей для сбора оценок, выявлять фродеров, управлять толпой - это то, что я люблю и умею.
3. Было видно, что помимо бенчмарков в виде теста, разработчикам нужны бенчи на основе человеческого фидбека
4. Весной за рубежом LMSYS хайповала, казалось, что это самый популярный бенчмарк
А так как российским LLM моделям трудно попасть на зарубежную арену, мы запустили свою llmarena.ru 🎉
Чего добились за эти полгода:
• Добавили на лидерборд 44 модели
• Выстроили репутацию, что даже ЦБ о нас пишет
• Получили огромную огласку в СМИ
• Запустили мини-app LLM Arena в Telegram
• Опубликовали на Habr более 25 статей об оценке RAG и LLM моделей
• В рамках llmarena.team пошли в заказную разработку, оценку LLM и RAG систем, Red Teaming LLM, нащупали маркет фит, получили первую выручку
• Познакомились с кучей интересных людей, занимающихся развитием ЛЛМ в РФ
• Сплотились в дружную команду из 8 человек
• Собрали более 50 000 оценок от юзеров
• Наш доклад "Почему бенчмарки лгут?" выиграл номинацию “лучший доклад техно-трека” на конференции conversations
Как и в AI Роман, в следующем году нашу команду ждут новые вызовы и свершения. Поэтому подписывайтесь и следите за нашими достижениями!
Интересный слайд о том, в каких задачах выгодно применять разметку от LLM.
Взято у Германа Ганус (Яндекс Крауд) из доклада "Как GPT помогает обучать модели?". Ссылка на всю презентацию тут.
Взято у Германа Ганус (Яндекс Крауд) из доклада "Как GPT помогает обучать модели?". Ссылка на всю презентацию тут.
Роман с данными
А 6-го декабря буду выступать на конференции CONVERSATIONS 2024 с докладом "Почему бенчмарки лгут? Как правильно оценить LLM для ваших бизнес-задач" Кто тоже будет на конференции - ставьте 👍. Готов со всеми пересечься и обсудить разметку и LLM.
Конференция CONVERSATIONS 2024 прошла просто замечательно.
Помимо крутых фоток (новая аватарка как раз оттуда), и выигранной номинации “лучший доклад техно-трека”, было крутое автопати, на котором познакомился с огромным количеством интересных людей.
Одним из них оказался Валерий Ковальский, CEO NDT by r_m_r. За разговором мы выяснили, что я уже давно подписан на его канал Neural Deep | NDT, а он на мой канал LLM Arena.
Поняв, что Валерий эксперт в теме ИИ, создает продукты, выступает, решил пригласить его в наш клуб Акулы.
А Александр Коренев, создатель клуба, предложил нам записать общий подкаст на тему развития LLM, и мы с Валерием с радостью согласились.
Всем приятного просмотра!
Помимо крутых фоток (новая аватарка как раз оттуда), и выигранной номинации “лучший доклад техно-трека”, было крутое автопати, на котором познакомился с огромным количеством интересных людей.
Одним из них оказался Валерий Ковальский, CEO NDT by r_m_r. За разговором мы выяснили, что я уже давно подписан на его канал Neural Deep | NDT, а он на мой канал LLM Arena.
Поняв, что Валерий эксперт в теме ИИ, создает продукты, выступает, решил пригласить его в наш клуб Акулы.
А Александр Коренев, создатель клуба, предложил нам записать общий подкаст на тему развития LLM, и мы с Валерием с радостью согласились.
Всем приятного просмотра!
Forwarded from Korenev AI - GPT в тапочках🩴
Записал подкаст с двумя ИИ предпринимателями, которые находятся в гуще событий.
Парни работают с крупным бизнесом и рассказывают, как реально заработать на ИИ в России, сколько стоит внедрение, и где искать первых клиентов.
Обсудили конкретные кейсы и поделились историями успеха – от первой сделки до оборота в сотни миллионов.
В этом видео мы старались излагать мысли с минимумом технарской терминологии.
Надеюсь записать следующий подкаст уже с технарским погружением.
➡️ Задавайте парням вопросы в комментариях. Попрошу их ответить или тут, или как раз в новом подкасте.
Приятного просмотра!
Ссылки:
Ютуб
Рутуб
Контакты:
➖ Роман Куцев, основатель компании по разметке данных с оборотом 500 млн рублей, создатель LLM-Arena https://www.tgoop.com/Roma_Data
➖ Валерий Ковальский, создатель компании по внедрению корпоративных ИИ-решений https://www.tgoop.com/neuraldeep
➖ Коренев Александр, ведущий подкаста, эксперт по внедрению ИИ в банковском секторе https://www.tgoop.com/korenev_ai
Парни работают с крупным бизнесом и рассказывают, как реально заработать на ИИ в России, сколько стоит внедрение, и где искать первых клиентов.
Обсудили конкретные кейсы и поделились историями успеха – от первой сделки до оборота в сотни миллионов.
В этом видео мы старались излагать мысли с минимумом технарской терминологии.
Надеюсь записать следующий подкаст уже с технарским погружением.
Приятного просмотра!
Ссылки:
Ютуб
Рутуб
Контакты:
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
За что я не люблю задачи по транскрибации аудио😀
Media is too big
VIEW IN TELEGRAM
В последнее время замечаю рост популярности бенчмарка GPQA для оценки LLM.
Перевел с помощью ИИ видео о том:
- как GPQA устроен
- сколько сотен тысяч долларов потратили на его создание
- почему авторы разочаровались в нем и отказываются его дальше развивать
Приятного просмотра!
Перевел с помощью ИИ видео о том:
- как GPQA устроен
- сколько сотен тысяч долларов потратили на его создание
- почему авторы разочаровались в нем и отказываются его дальше развивать
Приятного просмотра!
Всем привет!
Мы с Димой Антиповым организуем секцию Data Collection & Labelling на Data Fest 2025.
Если у вас есть опыт или интересные истории про сбор и разметку данных — го к нам! Поможем с подготовкой, организацией и выступлением.
В приоритете темы:
• Разметка данных для LLM
• Нестандартные и креативные подходы к сбору/разметке
• Разметка VLM-ками
• Интересные кейсы по генерации синтетических датасетов
📅 Дедлайн подачи: 7 мая
🎤 Формат: онлайн или офлайн — как удобно
Хочешь стать спикером? 👉 [тык]
Мы с Димой Антиповым организуем секцию Data Collection & Labelling на Data Fest 2025.
Если у вас есть опыт или интересные истории про сбор и разметку данных — го к нам! Поможем с подготовкой, организацией и выступлением.
В приоритете темы:
• Разметка данных для LLM
• Нестандартные и креативные подходы к сбору/разметке
• Разметка VLM-ками
• Интересные кейсы по генерации синтетических датасетов
📅 Дедлайн подачи: 7 мая
🎤 Формат: онлайн или офлайн — как удобно
Хочешь стать спикером? 👉 [тык]
LLM моделей становится все больше и больше, разобраться в таком зоопарке становится все сложнее и сложнее.
Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.
Как говорится - все гениальное просто 🙃
Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings
P.S: За новость спасибо Валерию Ковальскому, автору канала Neural Deep
Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.
Как говорится - все гениальное просто 🙃
Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings
P.S: За новость спасибо Валерию Ковальскому, автору канала Neural Deep
Ребята из Just AI тут запустили классный движ – pov и real в индустрии genAI! Мифов и предубеждений на рынке много, сегодня развеиваю один из них 👆🏻
А эстафету передаю Валерию Ковальскому из red_mad_robot
А эстафету передаю Валерию Ковальскому из red_mad_robot