tgoop.com/quant_prune_distill/242
Create:
Last Update:
Last Update:
Конечно, сказать наверняка нельзя, но сильные результаты моделей Command-R/Command-R+ [пост на Love. Death. Transformers], большая из которых вошла в десятку на lmsys и даже обошла некоторые версии GPT-4, наводят на мысль, что и сама GPT-4 может быть не такой уж огромной и даже одного порядка по размеру с GPT-3 (175B параметров).
А помните, были слухи, что GPT-4 - это якобы смесь экспертов с 1.8Т 😱 параметров, инферить которую придется на нескольких хостах?
Полагаю, что все же основной прирост был за счет большего количества данных, лучшей их фильтрации и предобработки. Маленьких секретиков по instruction-tuning, RLHF с достаточным количеством разнообразных инструкций, и обширным подбором ассессоров из разнообразных групп.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/242