DEF_MODEL_TRAIN Telegram 1034
я обучала одну модель
The Platonic Representation Hypothesis https://arxiv.org/abs/2405.07987 Знал ли Платон, что однажды его процитируют в ML-папире? 🤔 Маловероятно, но гипотеза авторов статьи как будто имеет довольно очевидные корни: они утверждают, что нейросети с разными…
Вдогонку к этой статье хотела прикрепить твит jack morris (очень люблю его аккаунт). Он говорит, что очень много чего понял про дип лернинг из статьи Pretraining Without Attention: авторы потратили кучу времени, чтобы построить архитектуру, не похожую на Трансформер (state space model + sequence routing), перепробовали кучу разных конфигураций, чтобы в итоге выяснить, что при равном количестве параметров они примерно с Трансформерами сравнялись

Из этого он постулирует, что при достаточном количестве параметров и когда things are reasonably well-conditioned (достаточно нелинейности и скип-коннекшенов), то архитектура на самом деле не имеет никакого значения

Если же верна предпосылка The Platonic Representation Hypothesis, и все модели независимо от архитектуры сходятся к одной какой-то репрезентации реальности, то кажется что “качество” такой репрезентации зависит от FLOPs, и не особо от чего-то еще. Если это и есть верхний порог того, насколько хорошо мы можем аппроксимировать (например, если лосс LLaMA 3 все же однажды перестанет падать после 15-ого триллиона токенов), то стоит ли нам задуматься, аппроксимируем ли мы нужную функцию?

В конце The Platonic Representation Hypothesis авторы отмечают, что для специализированного ИИ может быть не оптимально моделировать реальность вслед за человеком, если он может найти какой-то shortcut или какие-то эффективные репрезентации, оторванные от реальности (такой, какой ее себе представляем мы), чтобы решать свои задачи. Нужно ли будет ASI тоже научиться моделировать реальность совсем не так, как мы, и выучить для этого какую-то совсем другую функцию? 🚬
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥32🤯41👍1



tgoop.com/def_model_train/1034
Create:
Last Update:

Вдогонку к этой статье хотела прикрепить твит jack morris (очень люблю его аккаунт). Он говорит, что очень много чего понял про дип лернинг из статьи Pretraining Without Attention: авторы потратили кучу времени, чтобы построить архитектуру, не похожую на Трансформер (state space model + sequence routing), перепробовали кучу разных конфигураций, чтобы в итоге выяснить, что при равном количестве параметров они примерно с Трансформерами сравнялись

Из этого он постулирует, что при достаточном количестве параметров и когда things are reasonably well-conditioned (достаточно нелинейности и скип-коннекшенов), то архитектура на самом деле не имеет никакого значения

Если же верна предпосылка The Platonic Representation Hypothesis, и все модели независимо от архитектуры сходятся к одной какой-то репрезентации реальности, то кажется что “качество” такой репрезентации зависит от FLOPs, и не особо от чего-то еще. Если это и есть верхний порог того, насколько хорошо мы можем аппроксимировать (например, если лосс LLaMA 3 все же однажды перестанет падать после 15-ого триллиона токенов), то стоит ли нам задуматься, аппроксимируем ли мы нужную функцию?

В конце The Platonic Representation Hypothesis авторы отмечают, что для специализированного ИИ может быть не оптимально моделировать реальность вслед за человеком, если он может найти какой-то shortcut или какие-то эффективные репрезентации, оторванные от реальности (такой, какой ее себе представляем мы), чтобы решать свои задачи. Нужно ли будет ASI тоже научиться моделировать реальность совсем не так, как мы, и выучить для этого какую-то совсем другую функцию? 🚬

BY я обучала одну модель





Share with your friend now:
tgoop.com/def_model_train/1034

View MORE
Open in Telegram


Telegram News

Date: |

How to create a business channel on Telegram? (Tutorial) A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” Your posting frequency depends on the topic of your channel. If you have a news channel, it’s OK to publish new content every day (or even every hour). For other industries, stick with 2-3 large posts a week. Some Telegram Channels content management tips Telegram Channels requirements & features
from us


Telegram я обучала одну модель
FROM American