MACHINELEARNING_INTERVIEW Telegram 1407
Forwarded from Machinelearning
🌟 MD4: ΠœΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Π½Π½Π°Ρ диффузия для дискрСтных Π΄Π°Π½Π½Ρ‹Ρ….

ΠœΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Π½Π½Π°Ρ (ΠΈΠ»ΠΈ Π°Π±ΡΠΎΡ€Π±ΠΈΡ€ΡƒΡŽΡ‰Π°Ρ) диффузия - пСрспСктивный ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Π² Π³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΌ ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ дискрСтных Π΄Π°Π½Π½Ρ‹Ρ…, ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‰ΠΈΠΉ Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Ρƒ авторСгрСссионным модСлям.

MD4 (Masked Discrete Diffusion for Discrete Data) - ΠΌΠ΅Ρ‚ΠΎΠ΄, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ Π² Google DeepMind ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΡƒΠΏΡ€ΠΎΡ‰Π΅Π½Π½Ρ‹ΠΉ ΠΈ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΊ маскированной Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ. Π‘Ρ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€Π° ΠΌΠ΅Ρ‚ΠΎΠ΄Π° позволяСт ΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ маскированной Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ с Π³ΠΈΠ±ΠΊΠΈΠΌΠΈ схСмами маскировки, зависящими ΠΎΡ‚ состояния Π΄Π°Π½Π½Ρ‹Ρ….

Π’ основС MD4 Π»Π΅ΠΆΠΈΡ‚ Β«ΠΌΠ°ΡΠΊΠΈΡ€ΡƒΡŽΡ‰ΠΈΠΉΒ» процСсс, ΠΏΡ€Π΅Π²Ρ€Π°Ρ‰Π°ΡŽΡ‰ΠΈΠΉ исходныС Π΄Π°Π½Π½Ρ‹Π΅ Π² состояниС «маски» Π² случайный ΠΌΠΎΠΌΠ΅Π½Ρ‚ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ. ΠžΠ±Ρ€Π°Ρ‰Π΅Π½ΠΈΠ΅ этого процСсса позволяСт ΡΠΈΠ½Ρ‚Π΅Π·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π½ΠΎΠ²Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅, ΡΠΎΡ…Ρ€Π°Π½ΡΡŽΡ‰ΠΈΠ΅ распрСдСлСниС ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ.

ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΡ‡Π΅ΡΠΊΠΈ прямой процСсс описываСтся ΠΊΠ°ΠΊ марковская ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ дискрСтных случайных Π²Π΅Π»ΠΈΡ‡ΠΈΠ½, индСксируСмых Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠΌ ΠΎΡ‚ 0 Π΄ΠΎ 1.

MD4 продСмонстрировал прСвосходство Π½Π°Π΄ Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹ΠΌΠΈ языковыми модСлями ΠΏΠΎ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŽ пСрплСксии Π½Π° Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… OpenWebText ΠΈ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ обошСл ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ дискрСтныС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎ качСству пиксСльного модСлирования ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ, достигая 2,75 Π±ΠΈΡ‚ Π½Π° ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅ для CIFAR-10 ΠΈ 3,40 Π±ΠΈΡ‚ Π½Π° ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅ для ImageNet 64 Γ— 64.

Π­Ρ‚ΠΈ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π²Ρ‹ΡˆΠ΅, Ρ‡Π΅ΠΌ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΠΈ авторСгрСссионных ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ сопоставимого Ρ€Π°Π·ΠΌΠ΅Ρ€Π° (GPT-2, PixelRNN, Gated PixelCNN, PixelCNN++, PixelSNAIL, Image Transformer, Sparse Transformer).

НСсмотря Π½Π° всС прСимущСства ΠΌΠ΅Ρ‚ΠΎΠ΄Π°, MD4 склонСн ΠΊ ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ, Ρ‡Ρ‚ΠΎ сниТаСт Π΅Π³ΠΎ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ для Π·Π°Π΄Π°Ρ‡ с Π½ΡƒΠ»Π΅Π²ΠΎΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΎΠΉ ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π±ΠΎΠ»Π΅Π΅ простыми модСлями.

ΠŸΡ€ΠΈΠΊΠ»Π°Π΄Π½Π°Ρ рСализация MD4 ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Π° Π² Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Google Deepmind, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ прСдставлСна Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΏΠΎΠ²Ρ‚ΠΎΡ€ΠΈΡ‚ΡŒ ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½ΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π° тСкстС ΠΈΠ»ΠΈ изобраТСниях.

⚠️ Batch size зависит ΠΎΡ‚ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… рСсурсов. Для обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ MD4-S с Π΄Π»ΠΈΠ½ΠΎΠΉ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ 1024, 8 GPU A100 ΠΌΠΎΠ³ΡƒΡ‚ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Ρ‚ΡŒ ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ batch size=128. ΠŸΡ€ΠΈ запускС Π½Π° TPU, 8 Ρ‡ΠΈΠΏΠΎΠ² v5litepod, batch size=32.

β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ обучСния Π½Π° тСкстС ΠΈ изобраТСниях:

# Create & activate env
python -m venv md4_venv
source md4_venv/bin/activate

# Install required packages
pip install -r requirements_gpu.txt

# Include a path dir in the Python path
export PYTHONPATH="$PYTHONPATH:~/path/to/md4"

# Prepare openwebtext for training
mkdir data_dir
python prepare_openwebtext_data.py

# Train a MD4-S model over text data
python md4/main.py --config=md4/configs/md4/openwebtext.py --sharded=false --workdir=./expt

# Train a MD4-S model over image data via cifar10
python md4/main.py --config=md4/configs/md4/cifar10.py --sharded=false --workdir=./expt


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #MD4 #GoogleDeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘5❀2πŸ”₯1



tgoop.com/machinelearning_interview/1407
Create:
Last Update:

🌟 MD4: ΠœΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Π½Π½Π°Ρ диффузия для дискрСтных Π΄Π°Π½Π½Ρ‹Ρ….

ΠœΠ°ΡΠΊΠΈΡ€ΠΎΠ²Π°Π½Π½Π°Ρ (ΠΈΠ»ΠΈ Π°Π±ΡΠΎΡ€Π±ΠΈΡ€ΡƒΡŽΡ‰Π°Ρ) диффузия - пСрспСктивный ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Π² Π³Π΅Π½Π΅Ρ€Π°Ρ‚ΠΈΠ²Π½ΠΎΠΌ ΠΌΠΎΠ΄Π΅Π»ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠΈ дискрСтных Π΄Π°Π½Π½Ρ‹Ρ…, ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‰ΠΈΠΉ Π°Π»ΡŒΡ‚Π΅Ρ€Π½Π°Ρ‚ΠΈΠ²Ρƒ авторСгрСссионным модСлям.

MD4 (Masked Discrete Diffusion for Discrete Data) - ΠΌΠ΅Ρ‚ΠΎΠ΄, Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚Π°Π½Π½Ρ‹ΠΉ Π² Google DeepMind ΠΏΡ€Π΅Π΄Π»Π°Π³Π°Π΅Ρ‚ ΡƒΠΏΡ€ΠΎΡ‰Π΅Π½Π½Ρ‹ΠΉ ΠΈ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½Π½Ρ‹ΠΉ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ ΠΊ маскированной Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ. Π‘Ρ‚Ρ€ΡƒΠΊΡ‚ΡƒΡ€Π° ΠΌΠ΅Ρ‚ΠΎΠ΄Π° позволяСт ΠΎΠ±ΡƒΡ‡Π°Ρ‚ΡŒ ΠΎΠ±ΠΎΠ±Ρ‰Π΅Π½Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ маскированной Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΈ с Π³ΠΈΠ±ΠΊΠΈΠΌΠΈ схСмами маскировки, зависящими ΠΎΡ‚ состояния Π΄Π°Π½Π½Ρ‹Ρ….

Π’ основС MD4 Π»Π΅ΠΆΠΈΡ‚ Β«ΠΌΠ°ΡΠΊΠΈΡ€ΡƒΡŽΡ‰ΠΈΠΉΒ» процСсс, ΠΏΡ€Π΅Π²Ρ€Π°Ρ‰Π°ΡŽΡ‰ΠΈΠΉ исходныС Π΄Π°Π½Π½Ρ‹Π΅ Π² состояниС «маски» Π² случайный ΠΌΠΎΠΌΠ΅Π½Ρ‚ Π²Ρ€Π΅ΠΌΠ΅Π½ΠΈ. ΠžΠ±Ρ€Π°Ρ‰Π΅Π½ΠΈΠ΅ этого процСсса позволяСт ΡΠΈΠ½Ρ‚Π΅Π·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ Π½ΠΎΠ²Ρ‹Π΅ Π΄Π°Π½Π½Ρ‹Π΅, ΡΠΎΡ…Ρ€Π°Π½ΡΡŽΡ‰ΠΈΠ΅ распрСдСлСниС ΠΎΠ±ΡƒΡ‡Π°ΡŽΡ‰Π΅ΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΈ.

ΠœΠ°Ρ‚Π΅ΠΌΠ°Ρ‚ΠΈΡ‡Π΅ΡΠΊΠΈ прямой процСсс описываСтся ΠΊΠ°ΠΊ марковская ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΡŒ дискрСтных случайных Π²Π΅Π»ΠΈΡ‡ΠΈΠ½, индСксируСмых Π²Ρ€Π΅ΠΌΠ΅Π½Π½Ρ‹ΠΌ ΠΏΠ°Ρ€Π°ΠΌΠ΅Ρ‚Ρ€ΠΎΠΌ ΠΎΡ‚ 0 Π΄ΠΎ 1.

MD4 продСмонстрировал прСвосходство Π½Π°Π΄ Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹ΠΌΠΈ языковыми модСлями ΠΏΠΎ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΡŽ пСрплСксии Π½Π° Π½Π°Π±ΠΎΡ€Π΅ Π΄Π°Π½Π½Ρ‹Ρ… OpenWebText ΠΈ Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ обошСл ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ дискрСтныС Π΄ΠΈΡ„Ρ„ΡƒΠ·ΠΈΠΎΠ½Π½Ρ‹Π΅ ΠΌΠΎΠ΄Π΅Π»ΠΈ ΠΏΠΎ качСству пиксСльного модСлирования ΠΈΠ·ΠΎΠ±Ρ€Π°ΠΆΠ΅Π½ΠΈΠΉ, достигая 2,75 Π±ΠΈΡ‚ Π½Π° ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅ для CIFAR-10 ΠΈ 3,40 Π±ΠΈΡ‚ Π½Π° ΠΈΠ·ΠΌΠ΅Ρ€Π΅Π½ΠΈΠ΅ для ImageNet 64 Γ— 64.

Π­Ρ‚ΠΈ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Ρ‹ Π²Ρ‹ΡˆΠ΅, Ρ‡Π΅ΠΌ ΠΏΠΎΠΊΠ°Π·Π°Ρ‚Π΅Π»ΠΈ авторСгрСссионных ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ сопоставимого Ρ€Π°Π·ΠΌΠ΅Ρ€Π° (GPT-2, PixelRNN, Gated PixelCNN, PixelCNN++, PixelSNAIL, Image Transformer, Sparse Transformer).

НСсмотря Π½Π° всС прСимущСства ΠΌΠ΅Ρ‚ΠΎΠ΄Π°, MD4 склонСн ΠΊ ΠΏΠ΅Ρ€Π΅ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΡŽ, Ρ‡Ρ‚ΠΎ сниТаСт Π΅Π³ΠΎ ΡΡ„Ρ„Π΅ΠΊΡ‚ΠΈΠ²Π½ΠΎΡΡ‚ΡŒ для Π·Π°Π΄Π°Ρ‡ с Π½ΡƒΠ»Π΅Π²ΠΎΠΉ Π²Ρ‹Π±ΠΎΡ€ΠΊΠΎΠΉ ΠΏΠΎ ΡΡ€Π°Π²Π½Π΅Π½ΠΈΡŽ с Π±ΠΎΠ»Π΅Π΅ простыми модСлями.

ΠŸΡ€ΠΈΠΊΠ»Π°Π΄Π½Π°Ρ рСализация MD4 ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π½Π° Π² Ρ€Π΅ΠΏΠΎΠ·ΠΈΡ‚ΠΎΡ€ΠΈΠΈ Google Deepmind, Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΌ прСдставлСна Π²ΠΎΠ·ΠΌΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ ΠΏΠΎΠ²Ρ‚ΠΎΡ€ΠΈΡ‚ΡŒ ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½ΠΎΠ΅ ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ Π½Π° тСкстС ΠΈΠ»ΠΈ изобраТСниях.

⚠️ Batch size зависит ΠΎΡ‚ Π²Ρ‹Ρ‡ΠΈΡΠ»ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹Ρ… рСсурсов. Для обучСния ΠΌΠΎΠ΄Π΅Π»ΠΈ MD4-S с Π΄Π»ΠΈΠ½ΠΎΠΉ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ 1024, 8 GPU A100 ΠΌΠΎΠ³ΡƒΡ‚ ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΈΠ²Π°Ρ‚ΡŒ ΠΌΠ°ΠΊΡΠΈΠΌΠ°Π»ΡŒΠ½Ρ‹ΠΉ batch size=128. ΠŸΡ€ΠΈ запускС Π½Π° TPU, 8 Ρ‡ΠΈΠΏΠΎΠ² v5litepod, batch size=32.

β–ΆοΈΠ›ΠΎΠΊΠ°Π»ΡŒΠ½Π°Ρ установка ΠΈ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ обучСния Π½Π° тСкстС ΠΈ изобраТСниях:

# Create & activate env
python -m venv md4_venv
source md4_venv/bin/activate

# Install required packages
pip install -r requirements_gpu.txt

# Include a path dir in the Python path
export PYTHONPATH="$PYTHONPATH:~/path/to/md4"

# Prepare openwebtext for training
mkdir data_dir
python prepare_openwebtext_data.py

# Train a MD4-S model over text data
python md4/main.py --config=md4/configs/md4/openwebtext.py --sharded=false --workdir=./expt

# Train a MD4-S model over image data via cifar10
python md4/main.py --config=md4/configs/md4/cifar10.py --sharded=false --workdir=./expt


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: Apache 2.0 License.


🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #Diffusion #MD4 #GoogleDeepMind

BY Machine learning Interview






Share with your friend now:
tgoop.com/machinelearning_interview/1407

View MORE
Open in Telegram


Telegram News

Date: |

But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered." The administrator of a telegram group, "Suck Channel," was sentenced to six years and six months in prison for seven counts of incitement yesterday. Read now Hui said the time period and nature of some offences β€œoverlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. Content is editable within two days of publishing
from us


Telegram Machine learning Interview
FROM American