QUANT_PRUNE_DISTILL Telegram 309
Результаты и наблюдения

1️⃣ Точность может сильно различаться между разными подвыборками из одного датасета.
2️⃣ Есть более и менее шумные задачи. BoolQ и RTE показывают наибольшую дисперсию.
3️⃣ Одни датасеты лучше других. В среднем RefinedWeb показывает лучшее качество, а Wikipedia худшее, но разброс значителен - между моделями и методами и нет четкого ранжирования.
4️⃣ Прунинг сажает качество моделей сильнее, потому и влияние данных более заметно, по всей видимости. Разброс для SparseGPT больше (ожидаемо, так как SparseGPT не только прунит, но и обновляет оставшиеся веса).
5️⃣OPTы более чувствительны к выбору данных, чем парнокопытные модели
6️⃣ Качество быстро насыщается с количеством калибровочных примеров для всех методов, кроме SparseGPT. (по нашим наблюдениям, чтобы выжать максимум из качества пара тысяч последовательностей все же нужна).
7️⃣ SparseGPT лучше Wanda (хотя исходная статья утверждала обратное). Логично, ибо Wanda есть де-факто кастрированный SparseGPT.

Выводы

Мораль сей басни такова - подбирайте калибровочные данные осмысленно. Полезное исследование, но чувствуется, что для полноты картины нехватает более сложных задач и других областей (математика, код), как и более свежих моделей.
👍5



tgoop.com/quant_prune_distill/309
Create:
Last Update:

Результаты и наблюдения

1️⃣ Точность может сильно различаться между разными подвыборками из одного датасета.
2️⃣ Есть более и менее шумные задачи. BoolQ и RTE показывают наибольшую дисперсию.
3️⃣ Одни датасеты лучше других. В среднем RefinedWeb показывает лучшее качество, а Wikipedia худшее, но разброс значителен - между моделями и методами и нет четкого ранжирования.
4️⃣ Прунинг сажает качество моделей сильнее, потому и влияние данных более заметно, по всей видимости. Разброс для SparseGPT больше (ожидаемо, так как SparseGPT не только прунит, но и обновляет оставшиеся веса).
5️⃣OPTы более чувствительны к выбору данных, чем парнокопытные модели
6️⃣ Качество быстро насыщается с количеством калибровочных примеров для всех методов, кроме SparseGPT. (по нашим наблюдениям, чтобы выжать максимум из качества пара тысяч последовательностей все же нужна).
7️⃣ SparseGPT лучше Wanda (хотя исходная статья утверждала обратное). Логично, ибо Wanda есть де-факто кастрированный SparseGPT.

Выводы

Мораль сей басни такова - подбирайте калибровочные данные осмысленно. Полезное исследование, но чувствуется, что для полноты картины нехватает более сложных задач и других областей (математика, код), как и более свежих моделей.

BY КПД


Share with your friend now:
tgoop.com/quant_prune_distill/309

View MORE
Open in Telegram


Telegram News

Date: |

So far, more than a dozen different members have contributed to the group, posting voice notes of themselves screaming, yelling, groaning, and wailing in various pitches and rhythms. You can invite up to 200 people from your contacts to join your channel as the next step. Select the users you want to add and click “Invite.” You can skip this step altogether. The channel also called on people to turn out for illegal assemblies and listed the things that participants should bring along with them, showing prior planning was in the works for riots. The messages also incited people to hurl toxic gas bombs at police and MTR stations, he added. Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. When choosing the right name for your Telegram channel, use the language of your target audience. The name must sum up the essence of your channel in 1-3 words. If you’re planning to expand your Telegram audience, it makes sense to incorporate keywords into your name.
from us


Telegram КПД
FROM American