Forwarded from Reorx’s Forge
建议每个开发过或者打算开发 AI 应用的人都读一下这篇文章
https://mp.weixin.qq.com/s/6CJOaw7Z8-fDjclUjmNoIg
原文: https://koomen.dev/essays/horseless-carriages/
https://mp.weixin.qq.com/s/6CJOaw7Z8-fDjclUjmNoIg
原文: https://koomen.dev/essays/horseless-carriages/
koomen.dev
AI Horseless Carriages | koomen.dev
An essay about bad AI app design
在 vscode 上用 github copilot 进行 vibe coding,让它帮我写单元测试,然后一路无脑 continue ,进行了几轮迭代,我看见它把测试目录下的测试文件删了一遍又一遍,把要写测试的文件读了一遍又一遍,最后我选择 cancle 了
📖主题 FastVLM:高效视觉编码的视觉语言模型
🚩重点
• FastViTHD编码器输出更少tokens,编码时间显著降低
• 最小变体比LLaVA-OneVision-0.5B快85x,视觉编码器小3.4x
• 大型变体使用Qwen2-7B LLM,TTFT提升7.9x,超越Cambrian-1-8B
✨结论 推荐使用FastVLM进行高分辨率图像处理,适合移动设备应用,提供多种模型和详细训练指引。
🏷️标签 #机器学习 #视觉语言模型
🔗链接 https://github.com/apple/ml-fastvlm
🚩重点
• FastViTHD编码器输出更少tokens,编码时间显著降低
• 最小变体比LLaVA-OneVision-0.5B快85x,视觉编码器小3.4x
• 大型变体使用Qwen2-7B LLM,TTFT提升7.9x,超越Cambrian-1-8B
✨结论 推荐使用FastVLM进行高分辨率图像处理,适合移动设备应用,提供多种模型和详细训练指引。
🏷️标签 #机器学习 #视觉语言模型
🔗链接 https://github.com/apple/ml-fastvlm
GitHub
GitHub - apple/ml-fastvlm: This repository contains the official implementation of "FastVLM: Efficient Vision Encoding for Vision…
This repository contains the official implementation of "FastVLM: Efficient Vision Encoding for Vision Language Models" - CVPR 2025 - apple/ml-fastvlm
Forwarded from Garyの梦呓
Google IO 大会更新
- Gemini 2.5 Pro Deep Think
加入新型增强推理模式,在回应前会探索多种假设,能够更有效地处理复杂的数学和编程问题。2025 USAMO 和LiveCodeBench 新 SOTA
- Gemini Diffusion
一个小规模扩散模型 LLM,性能超过2.0 FlashLite 的同时速度超2000token/s
- 发布 Imagen 4, Veo 3, Flow
Imagen 4 能够渲染织物、水滴和动物毛发等精细细节,创建分辨率高达 2K 的图像。Veo 3 提生了质量,而且首次可以生成带有音频的视频。Flow 整合了 Veo、Imagen 和 Gemini。用户可以使用自然语言描述分镜,并使用 Flow 将各种要素编织成优美的场景。
其他杂讯:
- Gemini advanced 改名 AI Pro 并推出 AI Ultra,比CloaseAI划算就行(
- Chrome 内置 Gemini
- Stitch 可生成UI设计稿并导出至Figma
- NotebookLM 支持视频摘要,ai studio支持预览交互式的Gemini SDK应用
- Gemini 2.5 Pro Deep Think
加入新型增强推理模式,在回应前会探索多种假设,能够更有效地处理复杂的数学和编程问题。2025 USAMO 和LiveCodeBench 新 SOTA
- Gemini Diffusion
一个小规模扩散模型 LLM,性能超过2.0 FlashLite 的同时速度超2000token/s
- 发布 Imagen 4, Veo 3, Flow
Imagen 4 能够渲染织物、水滴和动物毛发等精细细节,创建分辨率高达 2K 的图像。Veo 3 提生了质量,而且首次可以生成带有音频的视频。Flow 整合了 Veo、Imagen 和 Gemini。用户可以使用自然语言描述分镜,并使用 Flow 将各种要素编织成优美的场景。
其他杂讯:
- Gemini advanced 改名 AI Pro 并推出 AI Ultra,比CloaseAI划算就行(
- Chrome 内置 Gemini
- Stitch 可生成UI设计稿并导出至Figma
- NotebookLM 支持视频摘要,ai studio支持预览交互式的Gemini SDK应用