AIHAPPENS Telegram 380
интернет продолжает спорить: "говно ли релиз gpt5" и "хахаха так все плохо, что вернули 4o".
понимаю эмоцию. но у меня ощущение, что мы сами себе не ответили на базовый вопрос: а улучшение моделей — это вообще про что?

если смотреть на реальную жизнь, «умнее» нам уже почти не нужно. возьмите любую свою задачу и честно загрузите её в модель: переписка с клиентами, формулировка продуктовой гипотезы, план запуска фичи, разбор отчёта, черновик договора, скрипт для аналитики. она не всегда дотащит от начала до конца, но почти всегда снимет львиную долю трения. значит, дело не в абстрактном iq.

нам не хватает другого — навыка стратегического действия. не «правильного ответа», а умения выбирать ход, запускать нужные инструменты, проверять себя, отменять нерабочие ветки и собирать это в длинную траекторию. это похоже на работу топ-менеджера: много опций, много неопределённости, ограниченный бюджет внимания. оптимальной стратегии нет, а логи того, как люди принимали решения, почти не оцифрованы — учить особо не на чём. поэтому бенчмарки типа «реши тест» тут мало помогают; нужны «управляй бизнесом хоть в игрушечном виде». и такие зачатки уже появляются — например, симуляция долгосрочного управления автоматом с продажами, где агент ведёт маленький, но настоящий «магазин» и быстро теряет нить, если нет памяти, планирования и самокоррекции.


и вот на этом фоне релиз gpt‑5 для меня важен не «стал ли он умнее по тестам», а тем, что он двигает нас в сторону мета‑управления: модель сама решает, когда отвечать быстро, а когда «думать дольше», и умеет роутить между подмоделями под задачу. это первый кирпичик к агенту‑стратегу: не только «что ответить», но и «какой инструмент/режим сейчас включить», с учётом контекста, цены и сложности. и да - если задать тупой вопрос, вам ответит тупая модель.

вокруг релиза было много шум и другого типа — многим хотелось оставить 4o из‑за «ощущения» и тона. и компанию даже попросили вернуть его в выбор моделей — и вернули. но как будто все эти диалоги были вообще о другом. мы привыкли к некой персоналии модели и для нас изменение (в любую сторону) это будто нашего друга заменили на другого человек. и пусть даже умнее - мне нужен мой друг. интересная ветка про эмоциональную связь люди - gpt, но ща не про это.


так в чем тогда ждать улучшений от моделей:

— меньше фетиша «станет умнее», больше запроса «станет надёжнее на длинной дистанции».
— не «напишет ли ответ», а «сможет ли сама собрать пайплайн: спланировать → запустить инструменты → проверить → откатить → попробовать ещё».
— и да, бенчмарки тоже нужны новые: где модель как менеджер магазина принимает подряд десятки мелких решений, а не угадывает один большой ответ.

мой take: gpt‑5 — это не «+10 к iq», не чуть меньше красиво болтаем, а больше умеем выбирать режим работы и держать план в руках. и вот когда модели стабильно перестанут терять контекст на 50‑й минуте процесса, начнут сами ставить проверки, менять стратегию и управлять инструментами как сео — вот это и будет релиз, после которого спорить станет не о чем.

и в этом разрезе мы действительно еще на ооооочень раннем этапе, остается вопрос, сможем ли мы по нему двигаться также быстро как по iq бенчмарку.

@aihappens
👍8936❤‍🔥12🤔7👎3🌚3🤝2🔥1🆒1



tgoop.com/aihappens/380
Create:
Last Update:

интернет продолжает спорить: "говно ли релиз gpt5" и "хахаха так все плохо, что вернули 4o".
понимаю эмоцию. но у меня ощущение, что мы сами себе не ответили на базовый вопрос: а улучшение моделей — это вообще про что?

если смотреть на реальную жизнь, «умнее» нам уже почти не нужно. возьмите любую свою задачу и честно загрузите её в модель: переписка с клиентами, формулировка продуктовой гипотезы, план запуска фичи, разбор отчёта, черновик договора, скрипт для аналитики. она не всегда дотащит от начала до конца, но почти всегда снимет львиную долю трения. значит, дело не в абстрактном iq.

нам не хватает другого — навыка стратегического действия. не «правильного ответа», а умения выбирать ход, запускать нужные инструменты, проверять себя, отменять нерабочие ветки и собирать это в длинную траекторию. это похоже на работу топ-менеджера: много опций, много неопределённости, ограниченный бюджет внимания. оптимальной стратегии нет, а логи того, как люди принимали решения, почти не оцифрованы — учить особо не на чём. поэтому бенчмарки типа «реши тест» тут мало помогают; нужны «управляй бизнесом хоть в игрушечном виде». и такие зачатки уже появляются — например, симуляция долгосрочного управления автоматом с продажами, где агент ведёт маленький, но настоящий «магазин» и быстро теряет нить, если нет памяти, планирования и самокоррекции.


и вот на этом фоне релиз gpt‑5 для меня важен не «стал ли он умнее по тестам», а тем, что он двигает нас в сторону мета‑управления: модель сама решает, когда отвечать быстро, а когда «думать дольше», и умеет роутить между подмоделями под задачу. это первый кирпичик к агенту‑стратегу: не только «что ответить», но и «какой инструмент/режим сейчас включить», с учётом контекста, цены и сложности. и да - если задать тупой вопрос, вам ответит тупая модель.

вокруг релиза было много шум и другого типа — многим хотелось оставить 4o из‑за «ощущения» и тона. и компанию даже попросили вернуть его в выбор моделей — и вернули. но как будто все эти диалоги были вообще о другом. мы привыкли к некой персоналии модели и для нас изменение (в любую сторону) это будто нашего друга заменили на другого человек. и пусть даже умнее - мне нужен мой друг. интересная ветка про эмоциональную связь люди - gpt, но ща не про это.


так в чем тогда ждать улучшений от моделей:

— меньше фетиша «станет умнее», больше запроса «станет надёжнее на длинной дистанции».
— не «напишет ли ответ», а «сможет ли сама собрать пайплайн: спланировать → запустить инструменты → проверить → откатить → попробовать ещё».
— и да, бенчмарки тоже нужны новые: где модель как менеджер магазина принимает подряд десятки мелких решений, а не угадывает один большой ответ.

мой take: gpt‑5 — это не «+10 к iq», не чуть меньше красиво болтаем, а больше умеем выбирать режим работы и держать план в руках. и вот когда модели стабильно перестанут терять контекст на 50‑й минуте процесса, начнут сами ставить проверки, менять стратегию и управлять инструментами как сео — вот это и будет релиз, после которого спорить станет не о чем.

и в этом разрезе мы действительно еще на ооооочень раннем этапе, остается вопрос, сможем ли мы по нему двигаться также быстро как по iq бенчмарку.

@aihappens

BY AI Happens


Share with your friend now:
tgoop.com/aihappens/380

View MORE
Open in Telegram


Telegram News

Date: |

4How to customize a Telegram channel? Healing through screaming therapy Activate up to 20 bots A Telegram channel is used for various purposes, from sharing helpful content to implementing a business strategy. In addition, you can use your channel to build and improve your company image, boost your sales, make profits, enhance customer loyalty, and more. The creator of the channel becomes its administrator by default. If you need help managing your channel, you can add more administrators from your subscriber base. You can provide each admin with limited or full rights to manage the channel. For example, you can allow an administrator to publish and edit content while withholding the right to add new subscribers.
from us


Telegram AI Happens
FROM American