Telegram Web
Про the illusion of thinking

Как говорится, не можешь в рисерч - хотя бы выложи датасет или бенчмарк и напиши о нем статью (что, заметим для протокола, не умаляет полезности бенчмарков❗️)

Когда РБК меня просили прокомментировать провал Apple Intelligence, я очень удивился и был сдержан в выражениях. Все же Apple последние лет 10 уж точно был компанией победившего маркетинга, а по технологиям в продуктах отставал от конкурентов на пару-тройку лет, однако все-таки в конечном счете делал откровенно удобные решения. Я вежливо объяснял, что ну не работает после релиза, и ладно, так бывает, будет еще десяток апдейтов и заработает, что бухтеть-то.

Но вот сегодня половина твиттера обсуждает яблочную статью The illusion of thinking и теперь у меня закралась определенная тревога по поводу дел с AI в Apple (не потому что статья не супер, а потому что нет более интересных от них и как будто идут по пути наименьшего сопротивления в поисках о чем написать). Статья в сухом остатке про «мы придумали еще один бенчмарк» и «нам не понравилось, как LRM с ним справляется». Бенчмарк в виде задачек про ханойские башни и волка-козу-капусту (и еще 2 типа заданий) с регулируемым уровнем сложности. Основная претензия к LRM - Large Reasoning Models - в том, что они, видите ли, не понимают какие-то концепты и рассуждают, а пытаются вспоминать и воспроизводить заученные паттерны (алё, вы в курсе какую задачу решают языковые модели?)))), судя по тому, как они справляются с бенчмарком. И, о ужас, мы с вами так далеки от AGI, гораздо дальше чем Альтман говорит инвесторам 🤡

Это конечно офигеть какая новость (конечно же нет 😐), однако как человек много работающий с обучением живых людей, могу сказать, что радикального отличия не вижу. Как только человек существенно выходит за пределы знакомых задач и знакомой ситуации, первым делом активируется воспроизведение знакомых паттернов и попытка из них собрать решение, словно Кай слово «вечность» из ледышек или инженер что угодно из говна, палок и синей изоленты. Только единицы начинают в незнакомой ситуации разбираться в основных концептах и правилах игры, а затем придумывать алгоритмы решения задачи, большинство же людей так делает только внутри той области, где уже более-менее комфортно разбирается.

Касательно нытья о том, что LRM не рассуждает, а воспроизводит паттерны, вспоминается один частый вопрос про возможности AI: “Могла бы LLM придумать квантовую механику или общую теорию относительности?”. Скорее всего, нет, по крайней мере в ближайшие годы наверняка нет (но буду рад оказаться неправ). Зато пересказывать и немного дописывать за другими, сразу владея последними публикациями человечества по любой теме - легко. И это тоже сильное преимущество, которого у людей нет, и которое даже с поисковиком наверстывается долго. Возможно, нам не стоит переоценивать себя и говорить, что такой интеллект «недостаточно general». Это скорее Гейзенберг и Эйнштейн исключения из нормального представления об интеллекте, а эрудированный попугай вполне себе general intelligence :)
Переслали мне корпоративную методику по управлению продуктовым портфелем

Итак, если бы пожарную команду создавали по этой методичке:

1. Ideation (оценка идеи)
Варианты:
За месяц не произошло ни одного пожара, потенциальных клиентов нет — закрываем продукт (KILL)
или
Один пожар был, но с погорельцев особо ничего взять — MERGE с водовозами, водовозы — жизнеспособный продукт с устойчивой клиентской базой и выраженной сезонностью.
Но перед тушением пожара необходимо будет производить расчет эффекта от тушения и сравнение с прямыми продажами воды клиентам
Или
Было несколько пожаров — когда пришли опрашивать клиентов получили люлей как поджигатели, глаз подбит 🤕, но зерно есть — PIVOT. Будем дистанционно (чтобы снова не получить) продавать палатки жертвам пожаров

2. Concept Validation — подтвердить жизнеспособность концепции
Продуктовый комитет затребовал дорожную карту по тушению пожаров на следующий год
Необходимо рассчитать точное время и место пожаров, затраты на тушение, экономический эффект
Ок, провернули фокус из финала The Incredible Burt Wonderstone и прошли дальше

3. Prototype Development
Сделали пожарную машину на деньги, выделенные на этапе 2.
Машиной сложно назвать — поэтому скорее получилась пожарная тачка.
Комитет отправил нас на Technical Pivot, без доп финансирования конечно же
На остатки финансирования получилось сделать лейку-поливалку

А дальше пришла летняя жара , и пол-города сгорело вместе с продуктовым комитетом 😂😂😂

PS: для тех кто не в курсе — частная пожарная охрана есть и вполне благополучно работает (например) и в нашей стране и в других

PPS: у любого инструмента есть своя область применения, даже у продуктовых методичек, и вот уж методички неплохо бы начинать с описания к чему их следует применять
https://vlmsarebiased.github.io/

Проблемы нейросеток со счетом это такой же мем как проблемы с количеством пальцев сколько-то поколений сеток назад. Однако сейчас в стандартных задачах сетки на ряд "счетных" вопросов отвечать все же могут. В примерах показано, насколько сильно эти ответы могут быть обоснованы априорным знанием из обучающей выборки, а не самим изображением.

Для оценки этого тестировали вопросы в духе "сколько ног у животного" на картинках с дорисованной лишней ногой или "сколько шахматных фигур на доске" на изображении без одной фигуры. Нейросеть отвечает то же, что и человек при очень беглом взгляде - не то что видит, а то, что знает про животное, про число шахматных фигур и т.д. Объект на изображении действительно идентифицируется, но ответы на счетные вопросы даются уже из общих знаний.

На всякий случай, если кто-то, посмотрев иллюстрацию, уже побежал искать супер-нейросетку GT: это Ground Truth 😁
Как узнать, что человек с Физтеха?
Никак, он сам об этом скажет в первые 5 минут общения 😂

Принял приглашение Даши Гриц стать академическим директором магистратуры Бизнес-школы МФТИ. Моя задача — не просто курировать процесс обучения, а формировать и внедрять целостное видение программы, которая готовит лидеров технологического предпринимательства (как звучит-то, ух!) 😎

Здесь магистратура — больше, чем просто образование. Студенты учатся на практике: дипломная работа — это запуск стартапа в партнёрстве с крупнейшими игроками рынка.

Вот крутые проекты, которые создали студенты в Бизнес-школе:

1. Платформа для автоматической проверки письменной части ЕГЭ с оценкой по критериям. С этим проектом студенты неделю назад выступали в Сбере среди образовательных программ. В итоге, разработка получила самые высокие оценки!

2. Краудлендинговая платформа для прямого онлайн финансирования бизнеса физлицами. Студенты выиграли бизнес-акселератор от ВТБ и уже создали прототип ИИ-платформы.

3. И мой любимый проект: система диспетчеризации БЕЛАЗов для угольных карьеров на базе ИИ. За год команда сэкономила 1,5 млрд для заказчика на настоящем карьере😳

Сейчас в Бизнес-школе идёт конкурс грантов TechLead Battle — это возможность бесплатно учиться на бизнес-программе «Запуск высокотехнологичных продуктов» и начать карьеру в технологическом бизнесе. Ищут самостоятельных, открытых и инициативных ;)

Победители по итогам финального мероприятия получают статус претендентов на грантовую поддержку от Сбера.

Этап I — онлайн-отбор
Приём заявок до 20 июня
Проверка soft skills:
- видео-заявка с рассказом о мотивации и опыте;
- onepager с описанием проекта.
Проверка hard skills:
- решение кейсов и тестов.

Этап II — очный финал: 11 июля
Деловые игры и групповые задания.

Заполняй форму в ТГ боте, чтобы принять участие: https://www.tgoop.com/bsmipt_bot

ВАЖНО: верхнего порога по возрасту участия в программе нет. Если вы знаете тех, кому нужна глубокая поддержка в запуске своего проекта, - поделитесь с ними ссылкой. Им полезно, а мне приятно 🥳

P.S. В комментариях можете задавать любые вопросы, оч постараюсь на них ответить.
Совсем скоро откроется подача документов на магистерские программы — приглашаем на презентацию магистратуры по ИИ от МТС и ФКН ВШЭ!

Самое важное:
- 30 оплачиваемых мест от МТС;
- Занятия ведут преподаватели ВШЭ и действующие эксперты-практики из МТС и MTS AI, а для проектов можно использовать виртуальную инфраструктуру компании;
- В канале абитуриентов делимся новостями и помогаем с подготовкой к поступлению.

Презентация пройдет 19 июня в 18:00:

- Расскажем о программе и познакомим с преподавателями;
- Разберем, как устроен конкурс портфолио и как подготовиться к вступительным;
- Ответим на все вопросы.

А еще, если вы любите участвовать в соревнованиях на Kaggle — расскажем как получить бонус на этапе собеседования

Подробнее о программе и регистрация на встречу на сайте. Ждем каждого!
2025/06/18 17:17:40
Back to Top
HTML Embed Code: