Невыложнные фотки от поездки в Россию, город который должен был чем то стать, но не смог. Нерешаемые проблемы замазанные штукатуркой и куча воспоминаний "было и у нас величие". Офис Вк с исторической переговоркой в этом смысле очень интересный объект.
🔥51😢40🥱8😡8💩5🍓5💊4😁3👍2🌚1
Любовь и забота о месте в котором живёшь позволяет решать "нерешаемые" проблемы грязи и мигрантов и не забывая великое прошлое смотреть в будущее.
💊92🍓57🥴17💯12💩9🤔8👍6🤷♂2🔥2☃1🆒1
Love. Death. Transformers.
Позиция по sora2 - это не совсем sota. Ну точнее так - как и gpt5 это массовый продукт и при акценте на массовость я имею ввиду сотни миллионов юзеров - это очень быстрая и явно дешевая для oai модель и цена генерации в апи я ожидаю в пределах 1cent/s
Проиграл выходит
С другой стороны на рынке нет нормального конкурента, чо бы не крутить прайс?
С другой стороны на рынке нет нормального конкурента, чо бы не крутить прайс?
👍9
Qwen3-Next 80B-A3B
C того момента как она вышла, уже вышла Doubao, Step3, Qwen3-235B, DeepSeek V3.2 и я за пивом
- Hybrid Architecture: Gated DeltaNet + Gated Att - вариция на тему RNN + не везде а только 75% cлоев и 25% cлоев обычный attention
- 3b активных параметров при 80 тотал
- Используют QK postnorm по аналогии с DIT для улучшения стабильности
- MTP как в deepseek
- Показывают бОльшую скорость префила и декода чем соседи по метрикам (это если что qwen 30bA3 и qwen 32b)
blog
C того момента как она вышла, уже вышла Doubao, Step3, Qwen3-235B, DeepSeek V3.2 и я за пивом
- Hybrid Architecture: Gated DeltaNet + Gated Att - вариция на тему RNN + не везде а только 75% cлоев и 25% cлоев обычный attention
- 3b активных параметров при 80 тотал
- Используют QK postnorm по аналогии с DIT для улучшения стабильности
- MTP как в deepseek
- Показывают бОльшую скорость префила и декода чем соседи по метрикам (это если что qwen 30bA3 и qwen 32b)
blog
🔥34 6