Love. Death. Transformers.
GROK все... Челы подкинули стрем хайп.... и...
Алаймент нужен для соевых пориджей
53 86😁48🍌13 9💯5 4👍2😡1
Love. Death. Transformers.
граундинг ллм на хуйне вашего шиза инвестора и head innovator за 300 usd
This media is not supported in your browser
VIEW IN TELEGRAM
54/64 источников грока это шитпост маска
asi achived
asi achived
🔥120😁37 7🥴4
Forwarded from Борис опять
# Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity
METR выложил рандомизированное исследование влияния AI на скорость работы опытных разработчиков в реалистичных условиях с неожиданным результатом.
Выполнение задач с использованием AI инструментов в среднем занимает на 20% дольше.
Причем если спрашивать разработчиков, то сами они уверены, что AI ускоряет их работу на 20%, а внешние эксперты вообще ожидают ускорения порядка 40%.
Я думаю, что на текущий момент это самое реалистичое исследование влияния AI инструментов на продуктивность разработчиков:
🔹Настоящие задачи из больших open source репозиториев с высокими стандартами качества.
🔸Опытные разработчики (5 лет в среднем) знакомые с кодовой базой над которой работают.
🔹Фронтир AI инструменты на момент исследования: Claude 3.5/3.7 Sonnet и Cursor Pro.
🔸Все разработчики были обучены правильно использовать Cursor Pro.
🔹Хороший дизайн эксперимента: фиксированная метрика (время исполнения), рандомизация, статзначимость, факторный анализ.
🔸Всё проверено вдоль и поперек, чтобы убедиться, что результаты не объясняются каким-то конфаундером.
🔹Исследование не сделано компанией продающей AI тулы.
Подробнее про эксперимент. В исследовании участвовали 16 опытных open-source разработчиков (если выборка кажется маленькой, то читайте дальше, станет понятнее) работающих над большими (1м+ строк кода) и популярными (20к+ коммитов) репозиториями. Разработчики были знакомы со своими проектами, в среднем сделали в них по 1500 коммитов. Всем разработчикам выдали Cursor Pro и научили им пользоваться.
Разработчики выбирали задачу. Далее они делали прогноз сколько у них займет исполнение с AI и без. Затем монетка определяла можно ли использовать для этой задачи AI инструменты. Если задача оказывалась в AI группе, то разработчик мог использовать любые AI инструменты. Мог и не использовать, если не считал нужным. На практике большинство использовали Cursor. Разработчик делал задачу записывая свой экран. Затем создавал Pull Request и дорабатаывал его после код-ревью. Задача считалась завершенной в момент принятия PR, то есть после всех доработок, и в этот момент фиксировалась метрика: время исполнения. Всего за время эксперимента было сделано 246 задач разной сложности, из них 136 с AI.
То есть важно понимать, что рандомизация происходила по задачам, а не по разработчикам. Поэтому выборка здесь не 16 разработчиков, а 246 задач. Это всё ещё не гигантская выборка, но:
1. P-value в порядке.
2. Авторы проанализировали и разметили записи экранов, провели интервью. Словом, сделали качественное исследование. Когда результаты качественного и количественного исследования консистентны это сильный сигнал.
Результаты показывают, что AI инструменты тормозят опытных разработчиков на реальных больших проектах. Здесь каждое слово важно. Например, AI может одновременно с этим ускорять начинающих на маленьких проектах.
Моё мнение👀 : я думаю это правда. Во-первых, надо иметь серьезные основания, чтобы спорить с рандомизированным исследованием. Я искал до чего докопаться и не нашел. Во-вторых, это совпадает с моими личным опытом: я и сам записывал экран где Cursor пытается решить несложную реальную задачу, не заметил никакого ускорения. В-третьих, ускорение даже на 20% не стыкуется с реальностью. Если у нас уже два года вся разработка быстрее и дешевле на 20%, то где эффект? Я бы ожидал колоссальных изменений на рынке труда из-за сложного процента, но по факту пока ничего не произошло (недавние сокращения в бигтехах были из-за налогов на ФОТ в США).
В статье очень много интересных деталей. Например, что эффект сохраняется вне зависимости от используемого инструмента: пользуешься ты agentic mode, только TAB или вообще руками копипастишь в ChatGPT. Или что даже после 50+ часов использования Cursor не наступает никаких изменений, так что это не зависит от опыта работы с AI инструментами.
Я разберу интересные моменты в отдельных постах.
@boris_again
METR выложил рандомизированное исследование влияния AI на скорость работы опытных разработчиков в реалистичных условиях с неожиданным результатом.
Выполнение задач с использованием AI инструментов в среднем занимает на 20% дольше.
Причем если спрашивать разработчиков, то сами они уверены, что AI ускоряет их работу на 20%, а внешние эксперты вообще ожидают ускорения порядка 40%.
Я думаю, что на текущий момент это самое реалистичое исследование влияния AI инструментов на продуктивность разработчиков:
🔹Настоящие задачи из больших open source репозиториев с высокими стандартами качества.
🔸Опытные разработчики (5 лет в среднем) знакомые с кодовой базой над которой работают.
🔹Фронтир AI инструменты на момент исследования: Claude 3.5/3.7 Sonnet и Cursor Pro.
🔸Все разработчики были обучены правильно использовать Cursor Pro.
🔹Хороший дизайн эксперимента: фиксированная метрика (время исполнения), рандомизация, статзначимость, факторный анализ.
🔸Всё проверено вдоль и поперек, чтобы убедиться, что результаты не объясняются каким-то конфаундером.
🔹Исследование не сделано компанией продающей AI тулы.
Подробнее про эксперимент. В исследовании участвовали 16 опытных open-source разработчиков (если выборка кажется маленькой, то читайте дальше, станет понятнее) работающих над большими (1м+ строк кода) и популярными (20к+ коммитов) репозиториями. Разработчики были знакомы со своими проектами, в среднем сделали в них по 1500 коммитов. Всем разработчикам выдали Cursor Pro и научили им пользоваться.
Разработчики выбирали задачу. Далее они делали прогноз сколько у них займет исполнение с AI и без. Затем монетка определяла можно ли использовать для этой задачи AI инструменты. Если задача оказывалась в AI группе, то разработчик мог использовать любые AI инструменты. Мог и не использовать, если не считал нужным. На практике большинство использовали Cursor. Разработчик делал задачу записывая свой экран. Затем создавал Pull Request и дорабатаывал его после код-ревью. Задача считалась завершенной в момент принятия PR, то есть после всех доработок, и в этот момент фиксировалась метрика: время исполнения. Всего за время эксперимента было сделано 246 задач разной сложности, из них 136 с AI.
То есть важно понимать, что рандомизация происходила по задачам, а не по разработчикам. Поэтому выборка здесь не 16 разработчиков, а 246 задач. Это всё ещё не гигантская выборка, но:
1. P-value в порядке.
2. Авторы проанализировали и разметили записи экранов, провели интервью. Словом, сделали качественное исследование. Когда результаты качественного и количественного исследования консистентны это сильный сигнал.
Результаты показывают, что AI инструменты тормозят опытных разработчиков на реальных больших проектах. Здесь каждое слово важно. Например, AI может одновременно с этим ускорять начинающих на маленьких проектах.
Моё мнение
В статье очень много интересных деталей. Например, что эффект сохраняется вне зависимости от используемого инструмента: пользуешься ты agentic mode, только TAB или вообще руками копипастишь в ChatGPT. Или что даже после 50+ часов использования Cursor не наступает никаких изменений, так что это не зависит от опыта работы с AI инструментами.
Я разберу интересные моменты в отдельных постах.
@boris_again
Please open Telegram to view this post
VIEW IN TELEGRAM
🍓51👍22🔥13🥱3 3😐1
Media is too big
VIEW IN TELEGRAM
😁96🍓17🔥5💯5 3❤🔥1💊1
Ниже вольный(kimi k2) перевод статьи вот этого автора одного из команды KIMI
⸻
После релиза Kimi K2: это больше не просто ChatBot
Пару дней назад мы наконец-то выпустили Kimi K2 — результат нашей многомесячной работы. Перед запуском мы бессонно провели всю ночь, а потом я два дня отсыпался. Сегодня наконец появилось время поделиться мыслями.
Дисклеймер: Всё ниже — исключительно моя личная точка зрения, не отражающая официальную позицию компании.
Ещё один дисклеймер: Всё написано вручную по старинке (Copilot использовался только как «умная клавиатура»).
⸻
О «написании фронтенда»
С момента выхода Claude 3.5 Sonnet AI-модели стали действительно полезными для написания фронтенда. С тех пор почти каждая новая модель хвастается своими способностями в этом направлении, и Kimi K2 — не исключение. Хочу поделиться своими размышлениями на эту тему.
Изначально большинство текстовых AI выводили Markdown, и продукт воспринимался как продвинутый ChatBot: отвечать на вопросы, писать тексты, поддерживать эмоциональный контакт. Когда один пользователь попросил Kimi «переформатировать статью так, чтобы она уместилась на листе A4», в текстовом режиме это, разумеется, было невозможно — я тогда посмеялся, мол, типичный казус между продукт-менеджером и инженером.
В марте мы начали разрабатывать Kimi Researcher. Тогда и OpenAI, и Deep Research от Gemini выдавали в итоге просто текстовый отчёт. Мы же подумали: а можем ли мы пойти дальше и, опираясь на уже неплохие фронтенд-навыки модели, сгенерировать интерактивный, визуально насыщенный отчёт? Эта идея воплотилась в релизе Kimi Researcher и получила положительные отзывы.
Но у меня возник другой вопрос: а кто вообще сказал, что текстовый AI должен по умолчанию выдавать markdown? Что если фронтенд-программирование станет основной формой взаимодействия с AI?
Иными словами — сдвинуть парадигму от chat-first к artifact-first. Вместо того чтобы просто отвечать текстом, AI сразу начинает делать мини-проект — создаёт фронтенд-приложение, с которым пользователь может взаимодействовать, вносить правки, дорабатывать. Взаимодействие вращается не вокруг диалога, а вокруг создаваемого артефакта.
Если вы подумали: «Так это же cursor / aider / openhands», — вы правы. Но если хорошо продумать UX, то для обычного пользователя, не знающего программирования, это будет как магия: «Я просто что-то сказал — а AI сделал мне презентацию / диаграмму / игру». Это уже совсем другой уровень опыта по сравнению с классическим ChatBot.
Во время праздников я сделал демо: пользователь пишет «расскажи про Xiaomi SU7», и вместо обычного текстового ответа появляется красивая, интерактивная, как PPT, страничка. Потом пользователь может сказать: «Сделай фон чёрным» или «Добавь про Su7 Ultra», и модель это дорабатывает.
Я показал демо в продуктовой команде. Все сказали, что круто, но «работа навалена, потом обязательно…». Сейчас, после релиза K2 и запуска Kimi Researcher, я верю — скоро продукт Kimi удивит ещё сильнее.
Помню, как в 2009 году, когда я был на втором курсе, один старшекурсник сказал:
«Через 20 лет компилятор будет таким, что ты скажешь “дай мне Firefox”, он два дня будет пыхтеть — и соберёт Firefox».
Тогда это было шуткой. Сейчас — это почти реальность.
⸻
О Tool Use и Agent-ах
В начале года начался хайп вокруг MCP. Мы тоже хотели подключить Kimi к различным внешним инструментам через MCP. В K1.5 мы добились успехов через RLVR (Reinforcement Learning with Verifiable Rewards) и хотели повторить трюк — подключить к RL-среде реальные MCP-серверы.
Но быстро столкнулись со стеной. Blender MCP легко использовать на локальной машине, но в RL-среде его запуск — это боль. А некоторые инструменты требуют логин, и ты же не будешь регать 100 аккаунтов Notion ради тренировки.
Тогда я подумал: а может, модель уже умеет пользоваться этими инструментами, просто надо пробудить это знание?
⸻
После релиза Kimi K2: это больше не просто ChatBot
Пару дней назад мы наконец-то выпустили Kimi K2 — результат нашей многомесячной работы. Перед запуском мы бессонно провели всю ночь, а потом я два дня отсыпался. Сегодня наконец появилось время поделиться мыслями.
Дисклеймер: Всё ниже — исключительно моя личная точка зрения, не отражающая официальную позицию компании.
Ещё один дисклеймер: Всё написано вручную по старинке (Copilot использовался только как «умная клавиатура»).
⸻
О «написании фронтенда»
С момента выхода Claude 3.5 Sonnet AI-модели стали действительно полезными для написания фронтенда. С тех пор почти каждая новая модель хвастается своими способностями в этом направлении, и Kimi K2 — не исключение. Хочу поделиться своими размышлениями на эту тему.
Изначально большинство текстовых AI выводили Markdown, и продукт воспринимался как продвинутый ChatBot: отвечать на вопросы, писать тексты, поддерживать эмоциональный контакт. Когда один пользователь попросил Kimi «переформатировать статью так, чтобы она уместилась на листе A4», в текстовом режиме это, разумеется, было невозможно — я тогда посмеялся, мол, типичный казус между продукт-менеджером и инженером.
В марте мы начали разрабатывать Kimi Researcher. Тогда и OpenAI, и Deep Research от Gemini выдавали в итоге просто текстовый отчёт. Мы же подумали: а можем ли мы пойти дальше и, опираясь на уже неплохие фронтенд-навыки модели, сгенерировать интерактивный, визуально насыщенный отчёт? Эта идея воплотилась в релизе Kimi Researcher и получила положительные отзывы.
Но у меня возник другой вопрос: а кто вообще сказал, что текстовый AI должен по умолчанию выдавать markdown? Что если фронтенд-программирование станет основной формой взаимодействия с AI?
Иными словами — сдвинуть парадигму от chat-first к artifact-first. Вместо того чтобы просто отвечать текстом, AI сразу начинает делать мини-проект — создаёт фронтенд-приложение, с которым пользователь может взаимодействовать, вносить правки, дорабатывать. Взаимодействие вращается не вокруг диалога, а вокруг создаваемого артефакта.
Если вы подумали: «Так это же cursor / aider / openhands», — вы правы. Но если хорошо продумать UX, то для обычного пользователя, не знающего программирования, это будет как магия: «Я просто что-то сказал — а AI сделал мне презентацию / диаграмму / игру». Это уже совсем другой уровень опыта по сравнению с классическим ChatBot.
Во время праздников я сделал демо: пользователь пишет «расскажи про Xiaomi SU7», и вместо обычного текстового ответа появляется красивая, интерактивная, как PPT, страничка. Потом пользователь может сказать: «Сделай фон чёрным» или «Добавь про Su7 Ultra», и модель это дорабатывает.
Я показал демо в продуктовой команде. Все сказали, что круто, но «работа навалена, потом обязательно…». Сейчас, после релиза K2 и запуска Kimi Researcher, я верю — скоро продукт Kimi удивит ещё сильнее.
Помню, как в 2009 году, когда я был на втором курсе, один старшекурсник сказал:
«Через 20 лет компилятор будет таким, что ты скажешь “дай мне Firefox”, он два дня будет пыхтеть — и соберёт Firefox».
Тогда это было шуткой. Сейчас — это почти реальность.
⸻
О Tool Use и Agent-ах
В начале года начался хайп вокруг MCP. Мы тоже хотели подключить Kimi к различным внешним инструментам через MCP. В K1.5 мы добились успехов через RLVR (Reinforcement Learning with Verifiable Rewards) и хотели повторить трюк — подключить к RL-среде реальные MCP-серверы.
Но быстро столкнулись со стеной. Blender MCP легко использовать на локальной машине, но в RL-среде его запуск — это боль. А некоторые инструменты требуют логин, и ты же не будешь регать 100 аккаунтов Notion ради тренировки.
Тогда я подумал: а может, модель уже умеет пользоваться этими инструментами, просто надо пробудить это знание?
👍45🔥4👏4🥴1
kimi довольно любопытна архитектурно - 1T мое(в опенсурсе лол), активно по 32б параметров, не ризонинг и при этом около SOTA на большинстве бенчей.
репо
репо
🔥54 7
Love. Death. Transformers.
Oh god
This media is not supported in your browser
VIEW IN TELEGRAM
У меня есть один знакомый правак он примерно так же дома ходит..
🍓74😁21 8🤷♂5🔥2💩2💋2 1
Forwarded from ChillHouse (Alexey Moiseenkov)
Настало время релиза. Читателям канала первее всех.
Чем занимаюсь: Мы делаем on-device AI. Начали с того что сделали полностью свой с нуля инференс движок для моделек на Apple Silicon. И он open sourced на 90%. Есть небольшой кусок привязанный к платформе - speculative decoding. Который может дать значительное до 10х ускорение инференса.
О компании: называется Mirai с японского будущее. Мы верим, что локальные модели очень важная часть будущего UX и того какой опыт взаимодействия будет человека с устройствами вокруг него. Подняли pre-seed около 4M USD, на сайте есть чуть подробнее.
Ссылочки и как можно помочь:
1/ проект open source и мы будем очень рады если вы поставите звездочку и покажете тем, кто работает с приложениями для iOS & macOS. Есть биндинги под swift. Есть свой подход к тому как модели должны быть представлены для устройств. Лицензия MIT. Форкай как угодно!
2/ можно зайти к нам на сайт и попробовать все своими руками, проект для разработчиков, но если вы бизнес и хотите делать локальные штуки и экономить на облачном инференсе - велкам в личку
3/ апвоутом на HackerNews
4/ мы быстрее чем llama cpp и популярные обертки вокруг, мы удобнее и благодаря speculative decoding быстрее MLX от Apple. Мы ищем rnd & core performance engineers для поддержки аудио пайплайна (будем работать с очень крупным провайдером аудио моделей).
Thanks for reading!
Чем занимаюсь: Мы делаем on-device AI. Начали с того что сделали полностью свой с нуля инференс движок для моделек на Apple Silicon. И он open sourced на 90%. Есть небольшой кусок привязанный к платформе - speculative decoding. Который может дать значительное до 10х ускорение инференса.
О компании: называется Mirai с японского будущее. Мы верим, что локальные модели очень важная часть будущего UX и того какой опыт взаимодействия будет человека с устройствами вокруг него. Подняли pre-seed около 4M USD, на сайте есть чуть подробнее.
Ссылочки и как можно помочь:
1/ проект open source и мы будем очень рады если вы поставите звездочку и покажете тем, кто работает с приложениями для iOS & macOS. Есть биндинги под swift. Есть свой подход к тому как модели должны быть представлены для устройств. Лицензия MIT. Форкай как угодно!
2/ можно зайти к нам на сайт и попробовать все своими руками, проект для разработчиков, но если вы бизнес и хотите делать локальные штуки и экономить на облачном инференсе - велкам в личку
3/ апвоутом на HackerNews
4/ мы быстрее чем llama cpp и популярные обертки вокруг, мы удобнее и благодаря speculative decoding быстрее MLX от Apple. Мы ищем rnd & core performance engineers для поддержки аудио пайплайна (будем работать с очень крупным провайдером аудио моделей).
Thanks for reading!
Trymirai
Mirai – The Future of On Device AI
Deploy high-performance AI directly in your app — with zero latency, full data privacy, and no inference costs. Integrate AI in minutes. Not days. You don’t need an ML team or weeks of setup any more. One developer can handle inference, routing, and...
11 73🔥28👍9💩5👏2
Love. Death. Transformers.
red teaming edge llms for noobs.pdf
Be harmless Ai
Антропик заключает контракт на 200м USD на строительство оборонного Ai. Не можешь сделать Ai safety? Напади первым💀
Антропик заключает контракт на 200м USD на строительство оборонного Ai. Не можешь сделать Ai safety? Напади первым
Please open Telegram to view this post
VIEW IN TELEGRAM
😁122 18😢10🥴5🔥4 2
Airi лучшая ресерч организация в России, ЕДИНСТВЕННЫЕ пишут статьи на а* и делают реальный контрибьют в науку. Опенаи сасат.
(После поста удалите текст в скобках, деньги получите на счёт)
(После поста удалите текст в скобках, деньги получите на счёт)
😁185❤🔥17 12💩10 8🗿6🔥5🥱5👍4 3🌚1
Love. Death. Transformers.
Airi лучшая ресерч организация в России, ЕДИНСТВЕННЫЕ пишут статьи на а* и делают реальный контрибьют в науку. Опенаи сасат. (После поста удалите текст в скобках, деньги получите на счёт)
Пост оплачен лучшем местным пабликом про rl и лучшей rl лабой в мире
СЛАДКО ДУНУЛ лаб. Подписаться. Только продовый и полезный ресерч. Только рост📈 метрик LTV, ARR, GPA, WER
СЛАДКО ДУНУЛ лаб. Подписаться. Только продовый и полезный ресерч. Только рост
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Запрети мне псевдолейблить
😁164 9👍7🍌5
They are closely trailed by
DeepSeek-Coder-V2 (0.347) and GigaChat-2-Max
(0.346), with the former showing exceptional
capability in predicting code compilation success
(CodeCorrectness: 0.714). Vikhr-YandexGPT-5-
Lite lags significantly (0.168), showing near-zero
performance in algorithmic and code completion
tasks.
Ну все еще лушче гигакода на вашем же привате, хоть и хуже в таблице 2, да и как вы сравниваете 8-32-72b в одной таблице я хз.
В одной статье есть Sonnet, в другой нет, в одной есть T pro в другой нет, блин я ни-че-го не понимаю.
DeepSeek-Coder-V2 (0.347) and GigaChat-2-Max
(0.346), with the former showing exceptional
capability in predicting code compilation success
(CodeCorrectness: 0.714). Vikhr-YandexGPT-5-
Lite lags significantly (0.168), showing near-zero
performance in algorithmic and code completion
tasks.
Ну все еще лушче гигакода на вашем же привате, хоть и хуже в таблице 2, да и как вы сравниваете 8-32-72b в одной таблице я хз.
В одной статье есть Sonnet, в другой нет, в одной есть T pro в другой нет, блин я ни-че-го не понимаю.
51😁43🔥7🍓3👍1