MACHINELEARNING_INTERVIEW Telegram 1745
Forwarded from Machinelearning
πŸ“Œ Miras: ΠΊΠ°ΠΊ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‡Π΅Ρ€Π΅Π· ΠΏΠ°ΠΌΡΡ‚ΡŒ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅.

Google Research ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π» ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΠ½ΡƒΡŽ ΡΡ‚Π°Ρ‚ΡŒΡŽ Β«It’s All ConnectedΒ», Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‚ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠΉ слоТности трансформСров Π² ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ : Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ Miras, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ ΠΎΠ½Π»Π°ΠΉΠ½-ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΡŽ, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π² Π΅Π΄ΠΈΠ½ΡƒΡŽ систСму, Ρ‡Ρ‚ΠΎ Π² ΠΈΡ‚ΠΎΠ³Π΅ позволяСт ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ эффСктивныС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Miras β€” это 4 ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°: Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° памяти, цСлСвая функция (смСщСниС внимания), рСгуляризация удСрТания ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ обучСния. Miras позволяСт ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с loss-функциями (Huber loss для устойчивости ΠΊ выбросам) ΠΈ рСгуляризациСй (KL-дивСргСнция, Elastic Net).

Π‘ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Miras Π±Ρ‹Π»ΠΈ созданы 3 тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ β€” Moneta, Yaad ΠΈ Memora. Moneta ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Lp-Π½ΠΎΡ€ΠΌΡ‹ для баланса ΠΌΠ΅ΠΆΠ΄Ρƒ Π·Π°ΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠ΅ΠΌ ΠΈ ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒΡŽ, Yaad ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡ€ΡƒΠ΅Ρ‚ L1 ΠΈ L2 Ρ‡Π΅Ρ€Π΅Π· Huber loss, Π° Memora примСняСт Softmax с KL-рСгуляризациСй.

Π’ экспСримСнтах тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ обошли трансформСры ΠΈ соврСмСнныС RNN Π½Π° Π·Π°Π΄Π°Ρ‡Π°Ρ… языкового модСлирования ΠΈ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ Π² Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах. На тСстС Β«ΠΈΠ³ΠΎΠ»ΠΊΠ° Π² стогС сСна» (8K Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²) Moneta достигла точности 98.8%, Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ Mamba2 β€” лишь 31%.

Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π΅ просто тСорСтичСскоС изысканиС β€” это практичСскоС руководство для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. ЧСткая структура Miras ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ ΡΠΈΡΡ‚Π΅ΠΌΠ°Ρ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ ΠΈ ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°ΠΌΠΈ. НапримСр, Π·Π°ΠΌΠ΅Π½Π° рСгуляризации Π½Π° Elastic Net ΠΈΠ»ΠΈ Bregman divergence ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ Π² Π½ΠΈΡˆΠ΅Π²Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ….

Miras β€” шаг ΠΊ Π±ΠΎΠ»Π΅Π΅ осмыслСнному ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€. Если трансформСры β€” это Β«ΠΊΡƒΠ²Π°Π»Π΄Π°Β» для ΠΌΠ°ΡΡˆΡ‚Π°Π±Π°, Ρ‚ΠΎ описанный Π² ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Google Research - хирургичСский инструмСнт, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ настраиваСтся ΠΏΠΎΠ΄ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΡƒΡŽ Π·Π°Π΄Π°Ρ‡Ρƒ.

🟑Arxiv

@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
πŸ‘12❀6πŸ”₯1



tgoop.com/machinelearning_interview/1745
Create:
Last Update:

πŸ“Œ Miras: ΠΊΠ°ΠΊ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΠΌΠΎΠ΄Π΅Π»ΠΈ Ρ‡Π΅Ρ€Π΅Π· ΠΏΠ°ΠΌΡΡ‚ΡŒ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅.

Google Research ΠΎΠΏΡƒΠ±Π»ΠΈΠΊΠΎΠ²Π°Π» ΠΈΠ½Ρ‚Π΅Ρ€Π΅ΡΠ½ΡƒΡŽ ΡΡ‚Π°Ρ‚ΡŒΡŽ Β«It’s All ConnectedΒ», Π² ΠΊΠΎΡ‚ΠΎΡ€ΠΎΠΉ ΠΏΡ€Π΅Π΄Π»Π°Π³Π°ΡŽΡ‚ Ρ€Π΅ΡˆΠ΅Π½ΠΈΠ΅ ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΡ‹ ΠΊΠ²Π°Π΄Ρ€Π°Ρ‚ΠΈΡ‡Π½ΠΎΠΉ слоТности трансформСров Π² ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ : Ρ„Ρ€Π΅ΠΉΠΌΠ²ΠΎΡ€ΠΊ Miras, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΡΠ΅Ρ‚ ΠΎΠ½Π»Π°ΠΉΠ½-ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΡŽ, ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ ΠΈ Π²Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ Π² Π΅Π΄ΠΈΠ½ΡƒΡŽ систСму, Ρ‡Ρ‚ΠΎ Π² ΠΈΡ‚ΠΎΠ³Π΅ позволяСт ΡΠΎΠ·Π΄Π°Π²Π°Ρ‚ΡŒ Π±ΠΎΠ»Π΅Π΅ эффСктивныС ΠΌΠΎΠ΄Π΅Π»ΠΈ.

Miras β€” это 4 ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°: Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π° памяти, цСлСвая функция (смСщСниС внимания), рСгуляризация удСрТания ΠΈ Π°Π»Π³ΠΎΡ€ΠΈΡ‚ΠΌ обучСния. Miras позволяСт ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с loss-функциями (Huber loss для устойчивости ΠΊ выбросам) ΠΈ рСгуляризациСй (KL-дивСргСнция, Elastic Net).

Π‘ ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ Miras Π±Ρ‹Π»ΠΈ созданы 3 тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ β€” Moneta, Yaad ΠΈ Memora. Moneta ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ Lp-Π½ΠΎΡ€ΠΌΡ‹ для баланса ΠΌΠ΅ΠΆΠ΄Ρƒ Π·Π°ΠΏΠΎΠΌΠΈΠ½Π°Π½ΠΈΠ΅ΠΌ ΠΈ ΡƒΡΡ‚ΠΎΠΉΡ‡ΠΈΠ²ΠΎΡΡ‚ΡŒΡŽ, Yaad ΠΊΠΎΠΌΠ±ΠΈΠ½ΠΈΡ€ΡƒΠ΅Ρ‚ L1 ΠΈ L2 Ρ‡Π΅Ρ€Π΅Π· Huber loss, Π° Memora примСняСт Softmax с KL-рСгуляризациСй.

Π’ экспСримСнтах тСстовыС ΠΌΠΎΠ΄Π΅Π»ΠΈ обошли трансформСры ΠΈ соврСмСнныС RNN Π½Π° Π·Π°Π΄Π°Ρ‡Π°Ρ… языкового модСлирования ΠΈ поиска ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ Π² Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… контСкстах. На тСстС Β«ΠΈΠ³ΠΎΠ»ΠΊΠ° Π² стогС сСна» (8K Ρ‚ΠΎΠΊΠ΅Π½ΠΎΠ²) Moneta достигла точности 98.8%, Ρ‚ΠΎΠ³Π΄Π° ΠΊΠ°ΠΊ Mamba2 β€” лишь 31%.

Π‘Ρ‚Π°Ρ‚ΡŒΡ Π½Π΅ просто тСорСтичСскоС изысканиС β€” это практичСскоС руководство для Ρ€Π°Π·Ρ€Π°Π±ΠΎΡ‚ΠΊΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ. ЧСткая структура Miras ΠΏΠΎΠΌΠΎΠ³Π°Π΅Ρ‚ ΡΠΈΡΡ‚Π΅ΠΌΠ°Ρ‚ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄Ρ‹ ΠΈ ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ с ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚Π°ΠΌΠΈ. НапримСр, Π·Π°ΠΌΠ΅Π½Π° рСгуляризации Π½Π° Elastic Net ΠΈΠ»ΠΈ Bregman divergence ΠΌΠΎΠΆΠ΅Ρ‚ ΡƒΠ»ΡƒΡ‡ΡˆΠΈΡ‚ΡŒ ΡƒΠΏΡ€Π°Π²Π»Π΅Π½ΠΈΠ΅ ΠΏΠ°ΠΌΡΡ‚ΡŒΡŽ Π² Π½ΠΈΡˆΠ΅Π²Ρ‹Ρ… Π·Π°Π΄Π°Ρ‡Π°Ρ….

Miras β€” шаг ΠΊ Π±ΠΎΠ»Π΅Π΅ осмыслСнному ΠΏΡ€ΠΎΠ΅ΠΊΡ‚ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΡŽ Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€. Если трансформСры β€” это Β«ΠΊΡƒΠ²Π°Π»Π΄Π°Β» для ΠΌΠ°ΡΡˆΡ‚Π°Π±Π°, Ρ‚ΠΎ описанный Π² ΡΡ‚Π°Ρ‚ΡŒΠ΅ ΠΏΠΎΠ΄Ρ…ΠΎΠ΄ Google Research - хирургичСский инструмСнт, Π³Π΄Π΅ ΠΊΠ°ΠΆΠ΄Ρ‹ΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ настраиваСтся ΠΏΠΎΠ΄ ΠΊΠΎΠ½ΠΊΡ€Π΅Ρ‚Π½ΡƒΡŽ Π·Π°Π΄Π°Ρ‡Ρƒ.

🟑Arxiv

@ai_machinelearning_big_data

BY Machine learning Interview






Share with your friend now:
tgoop.com/machinelearning_interview/1745

View MORE
Open in Telegram


Telegram News

Date: |

Hui said the messages, which included urging the disruption of airport operations, were attempts to incite followers to make use of poisonous, corrosive or flammable substances to vandalize police vehicles, and also called on others to make weapons to harm police. Hui said the time period and nature of some offences β€œoverlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that β€œscream therapy” is pseudoscience. Scientific research or no, it obviously feels good. Telegram users themselves will be able to flag and report potentially false content. The best encrypted messaging apps
from us


Telegram Machine learning Interview
FROM American