tgoop.com/quant_prune_distill/182
Last Update:
Эксперименты
Модель-решатель и модель-проверяльщика инициализируют из преобученных Phi-1.5. Одно лишь увеличение размера модели-решателя дает небольшой прирост качества, потому добавления проверяльщика - критично для достижения хорошего результата. Любопытно, что увеличение проверяльщика дает больший прирост качества, чем модели решателя. Сэмплируются 48 решений, из которых подается лучшее в качестве ответа.
Самая лучшая модель достигает качества в 81.5%, что больше, чем у GPT-3.5 (77.4%), породившей в определенном смысле данную модель, и открытых моделей, дообученных на решение математических задач поверх Llama 2 7B и 13B. GPT-4 для справки добивается 97% точности.
Метод проверяют и на другом известном бенчмарке ASDIV и там тоже получают сильный результат.
Ожидаемо, случайная инициализация работает хуже, чем обучение с чекпоинта Phi-1.5, хоть я бы ожидал большей разницы.
Вывод
Прикольное и эффектное решение. Тем не менее уместно заметить, что стоимость инференса при использовании модели-проверятеля возрастает кратно числу сгенерированных моделью-решателем ответов и выигрыш от использования меньшей модели надо умножать на число прогонов, после чего сравнить с качеством при одноразовой прогонке через большую модель.
BY КПД
Share with your friend now:
tgoop.com/quant_prune_distill/182