Gemini 3 发了,谷歌还搞了个新的智能 IDE
https://antigravity.google/
https://blog.google/technology/developers/gemini-3-developers/
https://antigravity.google/
https://blog.google/technology/developers/gemini-3-developers/
🔥22👨💻3
橘橘橘子汁 & 🍊
Gemini 3 发了,谷歌还搞了个新的智能 IDE https://antigravity.google/ https://blog.google/technology/developers/gemini-3-developers/
长上下文下惨不忍睹...短上下文倒确实有提升,综合来说 Agent 体验开倒车,属于是刷 benchmark 的分来了;感觉有效上下文还没有 100k
随便找了个我的项目测了一下 7块钱写了个功能还一堆编译报错(这个功能 GLM 4.6 7角钱就写完了)
随便找了个我的项目测了一下 7块钱写了个功能还一堆编译报错(这个功能 GLM 4.6 7角钱就写完了)
😁46🤷♂7
IMO 金牌又被拿下了 这让人类做题家怎么活()
这个模型训练基本思想就是避免模型靠蒙出正确答案得分,于是搞了个校验模型来看过程打分,又搞了个校验校验模型来看校验模型打的分是不是对的,不对就扣他工资
感觉有点像避免 Reward Hacking 的思路
比较值得提的是这个模型是基于 v3.2exp 的,有 DSA 以后推理成本降低了一截;所以它现在可能是大众唯一可以摸到的 IMO 金牌模型(虽然一次 Heavy 还是要一千块,以及大众真的有什么做数学题的需求吗
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
这个模型训练基本思想就是避免模型靠蒙出正确答案得分,于是搞了个校验模型来看过程打分,又搞了个校验校验模型来看校验模型打的分是不是对的,不对就扣他工资
感觉有点像避免 Reward Hacking 的思路
比较值得提的是这个模型是基于 v3.2exp 的,有 DSA 以后推理成本降低了一截;所以它现在可能是大众唯一可以摸到的 IMO 金牌模型(虽然一次 Heavy 还是要一千块,以及大众真的有什么做数学题的需求吗
https://github.com/deepseek-ai/DeepSeek-Math-V2/blob/main/DeepSeekMath_V2.pdf
🔥23🙊3
