Maxim.ML - канал@ml

Maxim.ML - канал

Спонсор вайба на выходных - Илон Маск, а с меня - свежий лайфхак для vibe-кодинга

Начну сразу с главного: два дня тестирую новую Grok Code Fast 1 (xAI), которую сейчас бесплатно раздают в Cursor (аж до 2 сентября, вы тоже успеете потестировать), но все таки, пока что личный фаворит - это Claude 4 Sonnet

Grok Code Fast 1 генерирует код с какой-то нечеловеческой скоростью (авторы заявляют 160 tokens per second). Я с ним за час набросал ядро сложного мультимодального RAG-поиска. А потом пришло время все это собирать воедино с основным сервисом. И пошли проблемы. Ассистент, пытаясь исправить одну ошибку, создавал три новых. Думаю эта ситуация знакома многим

И вот мой лайфхак, который спасает 90% времени и нервов - это тесты с подробными логами. Это ваш единственный объективный критерий того, что все работает как надо

Этот подход можно разбить на две части

Допустим, мы только что собрали мультимодальный RAG-поиск. Мой промпт будет выглядеть так (обычно пишу на английском - субъективно работает лучше и дешевле):

🟡Пишем тесты:

Here is the python module with multi-modal RAG logic [code]. Your job is write an extensive tests for it using pytest. I need at least 20 tests covering huge bunch of cases: from file uploads to API responses and edge cases like empty inputs and hard cases with different input combinations.

Обычно в момент написания все тесты проходят без проблем, но это только пока мы не насоздавали еще десятки зависимостей

🟡А если зависимости все ломают, то дебажим при помощи тестов:

Okay, look. Here is the output of the tests we wrote before. [вставляю лог с ошибками]. 4 / 20 tests failed. Your changes broke the critical functionality. Your one and only goal right now is to fix the code so that all 20 tests pass again. start fixing all failed tests.

И это отлично работает! Особенно когда приходится переключаться между чатами с потерей контекста

Что касается моих впечатлений от Grok Code Fast 1 - модель быстрая, но сыровата, хотя метрики на SWE bench могут впечатлить. Для большинства практических задач связка Claude 4 Sonnet с описанной выше методологией пока остается непревзойденной. Я потратил час на написание фичи с Grok, а потом еще 30 минут дебажил результат с помощью Claude и тестов..

Всем вайбовых выходных!

💃 #vibe_coding@ml_maxim

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5🔥3❤22

www.tgoop.com/ml_maxim/87

995 viewsAug 29 at 12:26

tgoop.com/ml_maxim/87

Create: 2025-08-29
Last Update: 2025-10-01 23:37:42

Here is the python module with multi-modal RAG logic [code]. Your job is write an extensive tests for it using pytest. I need at least 20 tests covering huge bunch of cases: from file uploads to API responses and edge cases like empty inputs and hard cases with different input combinations.

Okay, look. Here is the output of the tests we wrote before. [вставляю лог с ошибками]. 4 / 20 tests failed. Your changes broke the critical functionality. Your one and only goal right now is to fix the code so that all 20 tests pass again. start fixing all failed tests.

Telegram News

Спонсор вайба на выходных - Илон Маск