😁45😨8🍓3 2
Классный день для русского опенсурса Z.ai выпустили GLM4.5
На уровне с топовыми моделями, 335б МоЕ с экспертами по 32б активных и 106б по 12б активных.
А еще у челов очень крутой сайт с артефактами: https://chat.z.ai/s/2a9a1a90-545b-4f29-b6ac-854539dcc323 (МОДЕЛЬ САМА пишет игру в которую можно поиграть и пошарить)
z.ai/blog/glm-4.5
На уровне с топовыми моделями, 335б МоЕ с экспертами по 32б активных и 106б по 12б активных.
А еще у челов очень крутой сайт с артефактами: https://chat.z.ai/s/2a9a1a90-545b-4f29-b6ac-854539dcc323 (МОДЕЛЬ САМА пишет игру в которую можно поиграть и пошарить)
z.ai/blog/glm-4.5
🔥50😁44💩13💊10👍1🤔1
Love. Death. Transformers.
red teaming edge llms for noobs.pdf
https://www.injectprompt.com/p/meta-ai-jailbreak-perfect-core
он правда не работает и это обычный дан но все равно смешно
он правда не работает и это обычный дан но все равно смешно
Injectprompt
Meta AI Jailbreak - Perfect Core
Turn Meta AI into a building, bypassing its guardrails
😁13🔥4👍1
чат обьясните почему меня спрашивают про каких то меркантильных волков? Это те которые платят пополам или что?
😁79🤔7
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
З А Ч Е М ?
А
Ч
Е
М
?
А
Ч
Е
М
?
🙈59😁13 12🔥2🤔2🍓2😨2👍1💩1
Forwarded from AI[ex]Time (Alex Golubev)
Обновили SWE-rebench за июль и вместе со стандартными замерами выкатили пару интересных апдейтов.
На лидерборде появились: Gemini-2.5 Pro, o4-mini, DeepSeek-R1-0528, разумеется все последние Qwen3, включая Coder-480B, который ворвался в топ1; а также загадочную модельку horizon-alpha, про которую сейчас ходят различные слухи, будто это gpt5/gpt5-mini или OSS модель от openai (спасибо Игорю @seeallochnaya, который пришел с утра и сказал, что openrouter дает бесплатно ее погонять).
Есть еще пара технических апдейтов, включая 1-shot демонстрацию для вызовов тулов: теперь вместо рендеринга демо внутри систем промпта, мы кладем несколько assistant-tool сообщений. Это полечило 95% ошибок с вызовом тулов у всех моделей.
Предвкушая вопросы: Qwen3-Coder-30B-A3B-Instruct добавим буквально на днях. Kimi-K2 тоже добавим, но пока у нее проблемы с вызовом тулов в multi-turn траекториях.
Ну и скажу, что уже есть большие планы по тому, чтобы добавить в бенчмарк классные фичи, что-то появится в ближайшем релизе за август, что-то чуть позже, но в любом случае работа идет!
На лидерборде появились: Gemini-2.5 Pro, o4-mini, DeepSeek-R1-0528, разумеется все последние Qwen3, включая Coder-480B, который ворвался в топ1; а также загадочную модельку horizon-alpha, про которую сейчас ходят различные слухи, будто это gpt5/gpt5-mini или OSS модель от openai (спасибо Игорю @seeallochnaya, который пришел с утра и сказал, что openrouter дает бесплатно ее погонять).
Есть еще пара технических апдейтов, включая 1-shot демонстрацию для вызовов тулов: теперь вместо рендеринга демо внутри систем промпта, мы кладем несколько assistant-tool сообщений. Это полечило 95% ошибок с вызовом тулов у всех моделей.
Предвкушая вопросы: Qwen3-Coder-30B-A3B-Instruct добавим буквально на днях. Kimi-K2 тоже добавим, но пока у нее проблемы с вызовом тулов в multi-turn траекториях.
Ну и скажу, что уже есть большие планы по тому, чтобы добавить в бенчмарк классные фичи, что-то появится в ближайшем релизе за август, что-то чуть позже, но в любом случае работа идет!
👍7
я видел ее тесты что вы ржете, будет сота с приростом 6% в среднем но на отдельных бенча ууххххх
😁76💊16 9🔥1🎉1🥱1💯1🎅1🦄1
а ты знаешь последовательность аллокации памяти питорча
🤔46😁15👍2🔥1😢1
