MACHINELEARNING_INTERVIEW Telegram 1406
Forwarded from Machinelearning
🌟 MD4: ΠœΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Π½Π½Π°Ρ диффузия для дискрСтных Π΄Π°Π½Π½Ρ‹Ρ….

ΠœΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Π½Π½Π°Ρ (ΠΈΠ»ΠΈ Π°Π±ΡΠΎΡ€Π±ΠΈΡ€ΡƒΡŽΡ‰Π°Ρ) диффузия - пСрспСктивный ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Π² Π³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΌ ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ дискрСтных Π΄Π°Π½Π½Ρ‹Ρ…, ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‰ΠΈΠΉ Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Ρƒ авторСгрСссионным модСлям.

MD4 (Masked Discrete Diffusion for Discrete Data) - ΠΌΠ΅Ρ‚ΠΎΠ΄, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ Π² Google DeepMind ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΡƒΠΏΡ€ΠΎΡ‰Π΅Π½Π½Ρ‹ΠΉ ΠΈ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΊ маскированной Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ. Π‘Ρ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€Π° ΠΌΠ΅Ρ‚ΠΎΠ΄Π° позволяСт ΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ маскированной Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ с Π³ΠΈΠ±ΠΊΠΈΠΌΠΈ схСмами маскировки, зависящими ΠΎΡ‚ состояния Π΄Π°Π½Π½Ρ‹Ρ….

Π’ основС MD4 Π»Π΅ΠΆΠΈΡ‚ Β«ΠΌΠ°ΡΠΊΠΈΡ€ΡƒΡŽΡ‰ΠΈΠΉΒ» процСсс, ΠΏΡ€Π΅Π²Ρ€Π°Ρ‰Π°ΡŽΡ‰ΠΈΠΉ исходныС Π΄Π°Π½Π½Ρ‹Π΅ Π² состояниС «маски» Π² случайный ΠΌΠΎΠΌΠ΅Π½Ρ‚ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ. ΠžΠ±Ρ€Π°Ρ‰Π΅Π½ΠΈΠ΅ этого процСсса позволяСт ΡΠΈΠ½Ρ‚Π΅Π·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π½ΠΎΠ²Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅, ΡΠΎΡ…Ρ€Π°Π½ΡΡŽΡ‰ΠΈΠ΅ распрСдСлСниС ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ.

ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΡ‡Π΅ΡΠΊΠΈ прямой процСсс описываСтся ΠΊΠ°ΠΊ марковская ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ дискрСтных случайных Π²Π΅Π»ΠΈΡ‡ΠΈΠ½, индСксируСмых Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠΌ ΠΎΡ‚ 0 Π΄ΠΎ 1.

MD4 продСмонстрировал прСвосходство Π½Π°Π΄ Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹ΠΌΠΈ языковыми модСлями ΠΏΠΎ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŽ пСрплСксии Π½Π° Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… OpenWebText ΠΈ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ обошСл ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ дискрСтныС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎ качСству пиксСльного модСлирования ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ, достигая 2,75 Π±ΠΈΡ‚ Π½Π° ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅ для CIFAR-10 ΠΈ 3,40 Π±ΠΈΡ‚ Π½Π° ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅ для ImageNet 64 Γ— 64.

Π­Ρ‚ΠΈ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π²Ρ‹ΡˆΠ΅, Ρ‡Π΅ΠΌ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΠΈ авторСгрСссионных ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ сопоставимого Ρ€Π°Π·ΠΌΠ΅Ρ€Π° (GPT-2, PixelRNN, Gated PixelCNN, PixelCNN++, PixelSNAIL, Image Transformer, Sparse Transformer).

НСсмотря Π½Π° всС прСимущСства ΠΌΠ΅Ρ‚ΠΎΠ΄Π°, MD4 склонСн ΠΊ ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ, Ρ‡Ρ‚ΠΎ сниТаСт Π΅Π³ΠΎ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ для Π·Π°Π΄Π°Ρ‡ с Π½ΡƒΠ»Π΅Π²ΠΎΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΎΠΉ ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π±ΠΎΠ»Π΅Π΅ простыми модСлями.

ΠŸΡ€ΠΈΠΊΠ»Π°Π΄Π½Π°Ρ рСализация MD4 ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Π° Π² Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Google Deepmind, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ прСдставлСна Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΏΠΎΠ²Ρ‚ΠΎΡ€ΠΈΡ‚ΡŒ ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½ΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π° тСкстС ΠΈΠ»ΠΈ изобраТСниях.

⚠️ Batch size зависит ΠΎΡ‚ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… рСсурсов. Для обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ MD4-S с Π΄Π»ΠΈΠ½ΠΎΠΉ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ 1024, 8 GPU A100 ΠΌΠΎΠ³ΡƒΡ‚ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Ρ‚ΡŒ ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ batch size=128. ΠŸΡ€ΠΈ запускС Π½Π° TPU, 8 Ρ‡ΠΈΠΏΠΎΠ² v5litepod, batch size=32.

β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ обучСния Π½Π° тСкстС ΠΈ изобраТСниях:

# Create & activate env
python -m venv md4_venv
source md4_venv/bin/activate

# Install required packages
pip install -r requirements_gpu.txt

# Include a path dir in the Python path
export PYTHONPATH="$PYTHONPATH:~/path/to/md4"

# Prepare openwebtext for training
mkdir data_dir
python prepare_openwebtext_data.py

# Train a MD4-S model over text data
python md4/main.py --config=md4/configs/md4/openwebtext.py --sharded=false --workdir=./expt

# Train a MD4-S model over image data via cifar10
python md4/main.py --config=md4/configs/md4/cifar10.py --sharded=false --workdir=./expt


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #MD4 #GoogleDeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘5❀2πŸ”₯1



tgoop.com/machinelearning_interview/1406
Create:
Last Update:

🌟 MD4: ΠœΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Π½Π½Π°Ρ диффузия для дискрСтных Π΄Π°Π½Π½Ρ‹Ρ….

ΠœΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Π½Π½Π°Ρ (ΠΈΠ»ΠΈ Π°Π±ΡΠΎΡ€Π±ΠΈΡ€ΡƒΡŽΡ‰Π°Ρ) диффузия - пСрспСктивный ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Π² Π³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΌ ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ дискрСтных Π΄Π°Π½Π½Ρ‹Ρ…, ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‰ΠΈΠΉ Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Ρƒ авторСгрСссионным модСлям.

MD4 (Masked Discrete Diffusion for Discrete Data) - ΠΌΠ΅Ρ‚ΠΎΠ΄, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ Π² Google DeepMind ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΡƒΠΏΡ€ΠΎΡ‰Π΅Π½Π½Ρ‹ΠΉ ΠΈ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΊ маскированной Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ. Π‘Ρ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€Π° ΠΌΠ΅Ρ‚ΠΎΠ΄Π° позволяСт ΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ маскированной Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ с Π³ΠΈΠ±ΠΊΠΈΠΌΠΈ схСмами маскировки, зависящими ΠΎΡ‚ состояния Π΄Π°Π½Π½Ρ‹Ρ….

Π’ основС MD4 Π»Π΅ΠΆΠΈΡ‚ Β«ΠΌΠ°ΡΠΊΠΈΡ€ΡƒΡŽΡ‰ΠΈΠΉΒ» процСсс, ΠΏΡ€Π΅Π²Ρ€Π°Ρ‰Π°ΡŽΡ‰ΠΈΠΉ исходныС Π΄Π°Π½Π½Ρ‹Π΅ Π² состояниС «маски» Π² случайный ΠΌΠΎΠΌΠ΅Π½Ρ‚ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ. ΠžΠ±Ρ€Π°Ρ‰Π΅Π½ΠΈΠ΅ этого процСсса позволяСт ΡΠΈΠ½Ρ‚Π΅Π·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π½ΠΎΠ²Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅, ΡΠΎΡ…Ρ€Π°Π½ΡΡŽΡ‰ΠΈΠ΅ распрСдСлСниС ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ.

ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΡ‡Π΅ΡΠΊΠΈ прямой процСсс описываСтся ΠΊΠ°ΠΊ марковская ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ дискрСтных случайных Π²Π΅Π»ΠΈΡ‡ΠΈΠ½, индСксируСмых Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠΌ ΠΎΡ‚ 0 Π΄ΠΎ 1.

MD4 продСмонстрировал прСвосходство Π½Π°Π΄ Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹ΠΌΠΈ языковыми модСлями ΠΏΠΎ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŽ пСрплСксии Π½Π° Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… OpenWebText ΠΈ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ обошСл ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ дискрСтныС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎ качСству пиксСльного модСлирования ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ, достигая 2,75 Π±ΠΈΡ‚ Π½Π° ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅ для CIFAR-10 ΠΈ 3,40 Π±ΠΈΡ‚ Π½Π° ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅ для ImageNet 64 Γ— 64.

Π­Ρ‚ΠΈ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π²Ρ‹ΡˆΠ΅, Ρ‡Π΅ΠΌ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΠΈ авторСгрСссионных ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ сопоставимого Ρ€Π°Π·ΠΌΠ΅Ρ€Π° (GPT-2, PixelRNN, Gated PixelCNN, PixelCNN++, PixelSNAIL, Image Transformer, Sparse Transformer).

НСсмотря Π½Π° всС прСимущСства ΠΌΠ΅Ρ‚ΠΎΠ΄Π°, MD4 склонСн ΠΊ ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ, Ρ‡Ρ‚ΠΎ сниТаСт Π΅Π³ΠΎ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ для Π·Π°Π΄Π°Ρ‡ с Π½ΡƒΠ»Π΅Π²ΠΎΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΎΠΉ ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π±ΠΎΠ»Π΅Π΅ простыми модСлями.

ΠŸΡ€ΠΈΠΊΠ»Π°Π΄Π½Π°Ρ рСализация MD4 ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Π° Π² Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Google Deepmind, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ прСдставлСна Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΏΠΎΠ²Ρ‚ΠΎΡ€ΠΈΡ‚ΡŒ ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½ΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π° тСкстС ΠΈΠ»ΠΈ изобраТСниях.

⚠️ Batch size зависит ΠΎΡ‚ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… рСсурсов. Для обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ MD4-S с Π΄Π»ΠΈΠ½ΠΎΠΉ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ 1024, 8 GPU A100 ΠΌΠΎΠ³ΡƒΡ‚ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Ρ‚ΡŒ ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ batch size=128. ΠŸΡ€ΠΈ запускС Π½Π° TPU, 8 Ρ‡ΠΈΠΏΠΎΠ² v5litepod, batch size=32.

β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ обучСния Π½Π° тСкстС ΠΈ изобраТСниях:

# Create & activate env
python -m venv md4_venv
source md4_venv/bin/activate

# Install required packages
pip install -r requirements_gpu.txt

# Include a path dir in the Python path
export PYTHONPATH="$PYTHONPATH:~/path/to/md4"

# Prepare openwebtext for training
mkdir data_dir
python prepare_openwebtext_data.py

# Train a MD4-S model over text data
python md4/main.py --config=md4/configs/md4/openwebtext.py --sharded=false --workdir=./expt

# Train a MD4-S model over image data via cifar10
python md4/main.py --config=md4/configs/md4/cifar10.py --sharded=false --workdir=./expt


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #MD4 #GoogleDeepMind

BY Machine learning Interview






Share with your friend now:
tgoop.com/machinelearning_interview/1406

View MORE
Open in Telegram


Telegram News

Date: |

In the next window, choose the type of your channel. If you want your channel to be public, you need to develop a link for it. In the screenshot below, it’s ”/catmarketing.” If your selected link is unavailable, you’ll need to suggest another option. To view your bio, click the Menu icon and select β€œView channel info.” There have been several contributions to the group with members posting voice notes of screaming, yelling, groaning, and wailing in different rhythms and pitches. Calling out the β€œdegenerate” community or the crypto obsessives that engage in high-risk trading, Co-founder of NFT renting protocol Rentable World emiliano.eth shared this group on his Twitter. He wrote: β€œhey degen, are you stressed? Just let it out all out. Voice only tg channel for screaming”. The Standard Channel Done! Now you’re the proud owner of a Telegram channel. The next step is to set up and customize your channel.
from us


Telegram Machine learning Interview
FROM American