Notice: file_put_contents(): Write of 8951 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 8192 of 17143 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
DL in NLP@dlinnlp P.1758
DLINNLP Telegram 1758
Llama 3
llama.meta.com/llama3/

Немного странный анонс моделей с приговоркой "статья будет чуть позже", meta раньше так не делали, но всё равно модели очень крутые и уже доступны

Детали:
1. 16K GPU 🤯
1. 15T токенов 🤯🤯
1. Веса моделей на 8B и 70B параметров уже доступны 🎉
1. Тренируют модель на 405B параметров (без MoE) 🤯
1. 8K длина контекста

1. Архиткетурно самые большие отличия: Grouped Query Attention и 128K vocab size
1. Для тренировки оценивали scaling laws на разных доменах датасета (и на downstream задачах) после чего из них высчитывали оптимальное взвешивание

Бенчмарки:
1. На MMLU, Llama 3 8B работает на уровне PALM-540B и Chinchilla 70B
1. Там же Llama 70B обходит Claude 3 Sonnet и Mistral Large
👍57🔥3



tgoop.com/dlinnlp/1758
Create:
Last Update:

Llama 3
llama.meta.com/llama3/

Немного странный анонс моделей с приговоркой "статья будет чуть позже", meta раньше так не делали, но всё равно модели очень крутые и уже доступны

Детали:
1. 16K GPU 🤯
1. 15T токенов 🤯🤯
1. Веса моделей на 8B и 70B параметров уже доступны 🎉
1. Тренируют модель на 405B параметров (без MoE) 🤯
1. 8K длина контекста

1. Архиткетурно самые большие отличия: Grouped Query Attention и 128K vocab size
1. Для тренировки оценивали scaling laws на разных доменах датасета (и на downstream задачах) после чего из них высчитывали оптимальное взвешивание

Бенчмарки:
1. На MMLU, Llama 3 8B работает на уровне PALM-540B и Chinchilla 70B
1. Там же Llama 70B обходит Claude 3 Sonnet и Mistral Large

BY DL in NLP




Share with your friend now:
tgoop.com/dlinnlp/1758

View MORE
Open in Telegram


Telegram News

Date: |

The Channel name and bio must be no more than 255 characters long With the administration mulling over limiting access to doxxing groups, a prominent Telegram doxxing group apparently went on a "revenge spree." Just at this time, Bitcoin and the broader crypto market have dropped to new 2022 lows. The Bitcoin price has tanked 10 percent dropping to $20,000. On the other hand, the altcoin space is witnessing even more brutal correction. Bitcoin has dropped nearly 60 percent year-to-date and more than 70 percent since its all-time high in November 2021. Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. 5Telegram Channel avatar size/dimensions
from us


Telegram DL in NLP
FROM American