КПД@quant_prune_distill P.242

QUANT_PRUNE_DISTILL Telegram 242

Конечно, сказать наверняка нельзя, но сильные результаты моделей Command-R/Command-R+ [пост на Love. Death. Transformers], большая из которых вошла в десятку на lmsys и даже обошла некоторые версии GPT-4, наводят на мысль, что и сама GPT-4 может быть не такой уж огромной и даже одного порядка по размеру с GPT-3 (175B параметров).

А помните, были слухи, что GPT-4 - это якобы смесь экспертов с 1.8Т 😱 параметров, инферить которую придется на нескольких хостах?

Полагаю, что все же основной прирост был за счет большего количества данных, лучшей их фильтрации и предобработки. Маленьких секретиков по instruction-tuning, RLHF с достаточным количеством разнообразных инструкций, и обширным подбором ассессоров из разнообразных групп.

🤔5👍2

www.tgoop.com/quant_prune_distill/242

1.17K viewsedited Apr 10, 2024 at 21:22

tgoop.com/quant_prune_distill/242

Create: 2024-04-10
Last Update: 2025-09-08 18:43:57

Конечно, сказать наверняка нельзя, но сильные результаты моделей Command-R/Command-R+ [пост на Love. Death. Transformers], большая из которых вошла в десятку на lmsys и даже обошла некоторые версии GPT-4, наводят на мысль, что и сама GPT-4 может быть не такой уж огромной и даже одного порядка по размеру с GPT-3 (175B параметров).

А помните, были слухи, что GPT-4 - это якобы смесь экспертов с 1.8Т 😱 параметров, инферить которую придется на нескольких хостах?

Полагаю, что все же основной прирост был за счет большего количества данных, лучшей их фильтрации и предобработки. Маленьких секретиков по instruction-tuning, RLHF с достаточным количеством разнообразных инструкций, и обширным подбором ассессоров из разнообразных групп.

BY КПД

Share with your friend now:
tgoop.com/quant_prune_distill/242

Open in Telegram

Telegram News

Date: 2025-09-08|

The public channel had more than 109,000 subscribers, Judge Hui said. Ng had the power to remove or amend the messages in the channel, but he “allowed them to exist.” Matt Hussey, editorial director of NEAR Protocol (and former editor-in-chief of Decrypt) responded to the news of the Telegram group with “#meIRL.” Telegram channels enable users to broadcast messages to multiple users simultaneously. Like on social media, users need to subscribe to your channel to get access to your content published by one or more administrators. Image: Telegram. Administrators
from us

Telegram КПД
FROM American