Notice: file_put_contents(): Write of 17648 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение@dsproglib P.6059
DSPROGLIB Telegram 6059
👀 DeepSeek R1: разбираемся с фактами

🔸 Ходят слухи, что обучение DeepSeek стоило ~$6M, но это маловероятно. Только базовая модель без RL обошлась в $5.5M, а ведь были ещё дополнительные прогоны обучения и полное обучение R1.

🔸 DeepSeek — не стартап на коленке. Их поддерживает High-Flyer, крупный китайский хедж-фонд, а команда состоит из олимпиадников по математике и физике. Они работают на 50,000+ GPU, что говорит о масштабе.

🔸 DeepSeek R1 — это 671B параметров, для работы требуется 16×H100. Это один из самых мощных опенсорсных ИИ.

🔸 Есть и «облегчённые» версии, например, 1.5B, но это не настоящий R1, а лишь дообученные Qwen/Llama.

📌 Если используете хостинговую версию DeepSeek, внимательно изучите ToS (условия предоставления услуг). Они могут использовать ваши данные для обучения будущих моделей.
👍5🥱21



tgoop.com/dsproglib/6059
Create:
Last Update:

👀 DeepSeek R1: разбираемся с фактами

🔸 Ходят слухи, что обучение DeepSeek стоило ~$6M, но это маловероятно. Только базовая модель без RL обошлась в $5.5M, а ведь были ещё дополнительные прогоны обучения и полное обучение R1.

🔸 DeepSeek — не стартап на коленке. Их поддерживает High-Flyer, крупный китайский хедж-фонд, а команда состоит из олимпиадников по математике и физике. Они работают на 50,000+ GPU, что говорит о масштабе.

🔸 DeepSeek R1 — это 671B параметров, для работы требуется 16×H100. Это один из самых мощных опенсорсных ИИ.

🔸 Есть и «облегчённые» версии, например, 1.5B, но это не настоящий R1, а лишь дообученные Qwen/Llama.

📌 Если используете хостинговую версию DeepSeek, внимательно изучите ToS (условия предоставления услуг). Они могут использовать ваши данные для обучения будущих моделей.

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tgoop.com/dsproglib/6059

View MORE
Open in Telegram


Telegram News

Date: |

1What is Telegram Channels? The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. "Doxxing content is forbidden on Telegram and our moderators routinely remove such content from around the world," said a spokesman for the messaging app, Remi Vaughn. The best encrypted messaging apps In handing down the sentence yesterday, deputy judge Peter Hui Shiu-keung of the district court said that even if Ng did not post the messages, he cannot shirk responsibility as the owner and administrator of such a big group for allowing these messages that incite illegal behaviors to exist.
from us


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM American