Neural Deep@neuraldeep P.1086

Warning: mkdir(): No space left on device in /var/www/tgoop/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/neuraldeep/--): Failed to open stream: No such file or directory in /var/www/tgoop/post.php on line 50
Neural Deep@neuraldeep P.1086

NEURALDEEP Telegram 1086

Forwarded from Data Secrets

Сколько параметров в GPT-4o mini?

Конечно, сама компания в последнее время не раскрывает ни деталей реализации, ни даже количества параметров своих моделей. Но бесследно разработка все равно не проходит, поэтому на Реддит погадали на фактах и... получилось примерно 8В. Вот почему:

▪️ Из утечки препринтов Microsoft известно, что GPT 3.5 Turbo – это 20B модель (см.скрин). В OpenAI заявляли, что GPT-4o mini стоит на 60% меньше, чем предшественник. Несложная математика: 20-60% = 8B

▪️ Microsoft имеет все доступы к моделям OpenAI и, вероятно, осведомлены об архитектурах. Они также пытаются приблизить свои модели к производительности OpenAI, используя, скорее всего, те же подходы. Так что по таким релизам, как Phi 3.5, можно отдаленно судить об архитектурах OpenAI.

▪️ Ужа давно ходили слухи, что GPT-4 имела 16 экспертов (это MoE). Учитывая, что новая Phi 3.5 MoE от Microsoft – это тоже 16 экспертов, и принимая во внимание пункт 2, можно предположить, что GPT-4o mini – это тоже 16 экспертов по примерно 4В параметров. Получается как раз 8В активных.

Кстати, новая архитектура тоже не исключена. Возможно, в OpenAI используют что-то вроде hybrid-mamba 2.

Please open Telegram to view this post

VIEW IN TELEGRAM

55🔥61

www.tgoop.com/neuraldeep/1086

933 viewsValerii Kovalskii, Aug 29, 2024 at 12:10

tgoop.com/neuraldeep/1086

Create: 2024-08-29
Last Update: 2025-07-28 00:30:11

Сколько параметров в GPT-4o mini?

Конечно, сама компания в последнее время не раскрывает ни деталей реализации, ни даже количества параметров своих моделей. Но бесследно разработка все равно не проходит, поэтому на Реддит погадали на фактах и... получилось примерно 8В. Вот почему:

▪️ Из утечки препринтов Microsoft известно, что GPT 3.5 Turbo – это 20B модель (см.скрин). В OpenAI заявляли, что GPT-4o mini стоит на 60% меньше, чем предшественник. Несложная математика: 20-60% = 8B

▪️ Microsoft имеет все доступы к моделям OpenAI и, вероятно, осведомлены об архитектурах. Они также пытаются приблизить свои модели к производительности OpenAI, используя, скорее всего, те же подходы. Так что по таким релизам, как Phi 3.5, можно отдаленно судить об архитектурах OpenAI.

▪️ Ужа давно ходили слухи, что GPT-4 имела 16 экспертов (это MoE). Учитывая, что новая Phi 3.5 MoE от Microsoft – это тоже 16 экспертов, и принимая во внимание пункт 2, можно предположить, что GPT-4o mini – это тоже 16 экспертов по примерно 4В параметров. Получается как раз 8В активных.

Кстати, новая архитектура тоже не исключена. Возможно, в OpenAI используют что-то вроде hybrid-mamba 2.

BY Neural Deep

Share with your friend now:
tgoop.com/neuraldeep/1086

Open in Telegram

Telegram News

Date: 2025-07-28|

As the broader market downturn continues, yelling online has become the crypto trader’s latest coping mechanism after the rise of Goblintown Ethereum NFTs at the end of May and beginning of June, where holders made incoherent groaning sounds and role-played as urine-loving goblin creatures in late-night Twitter Spaces. A few years ago, you had to use a special bot to run a poll on Telegram. Now you can easily do that yourself in two clicks. Hit the Menu icon and select “Create Poll.” Write your question and add up to 10 options. Running polls is a powerful strategy for getting feedback from your audience. If you’re considering the possibility of modifying your channel in any way, be sure to ask your subscribers’ opinions first. Ng Man-ho, a 27-year-old computer technician, was convicted last month of seven counts of incitement charges after he made use of the 100,000-member Chinese-language channel that he runs and manages to post "seditious messages," which had been shut down since August 2020. Telegram users themselves will be able to flag and report potentially false content. Users are more open to new information on workdays rather than weekends.
from us

Telegram Neural Deep
FROM American