✅Чем отличается использование памяти у оптимизаторов Adam и SGD
Adam потребляет больше памяти, чем стандартный SGD, потому что хранит дополнительные данные для адаптивного обновления параметров.
Adam хранит для каждого параметра две дополнительные переменные: 📍m — экспоненциальное среднее градиентов (первая моментная оценка), 📍 v — экспоненциальное среднее квадратов градиентов (вторая моментная оценка).
То есть если у модели 10 млн параметров, Adam будет хранить ещё 20 млн значений (всего 30 млн), что заметно увеличивает потребление памяти.
SGD: 📍В базовом виде — не хранит ничего, кроме самих параметров. 📍С momentum — хранит один дополнительный буфер (скорость), то есть на одну переменную больше на каждый параметр.
На практике: ➡️Если у вас ограничения по GPU-памяти, и модель или батчи не вмещаются, можно перейти с Adam на SGD, чтобы высвободить память. ➡️Но стоит помнить, что Adam часто сходится быстрее и лучше работает с разреженными градиентами (например, при работе с текстами или рекомендациями).
Некоторые фреймворки (например, PyTorch) предоставляют памяти-эффективные версии Adam, но они могут требовать ручной настройки или иметь побочные эффекты.
✅Чем отличается использование памяти у оптимизаторов Adam и SGD
Adam потребляет больше памяти, чем стандартный SGD, потому что хранит дополнительные данные для адаптивного обновления параметров.
Adam хранит для каждого параметра две дополнительные переменные: 📍m — экспоненциальное среднее градиентов (первая моментная оценка), 📍 v — экспоненциальное среднее квадратов градиентов (вторая моментная оценка).
То есть если у модели 10 млн параметров, Adam будет хранить ещё 20 млн значений (всего 30 млн), что заметно увеличивает потребление памяти.
SGD: 📍В базовом виде — не хранит ничего, кроме самих параметров. 📍С momentum — хранит один дополнительный буфер (скорость), то есть на одну переменную больше на каждый параметр.
На практике: ➡️Если у вас ограничения по GPU-памяти, и модель или батчи не вмещаются, можно перейти с Adam на SGD, чтобы высвободить память. ➡️Но стоит помнить, что Adam часто сходится быстрее и лучше работает с разреженными градиентами (например, при работе с текстами или рекомендациями).
Некоторые фреймворки (например, PyTorch) предоставляют памяти-эффективные версии Adam, но они могут требовать ручной настройки или иметь побочные эффекты.
Clear Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. fire bomb molotov November 18 Dylan Hollingsworth yau ma tei Those being doxxed include outgoing Chief Executive Carrie Lam Cheng Yuet-ngor, Chung and police assistant commissioner Joe Chan Tung, who heads police's cyber security and technology crime bureau. Deputy District Judge Peter Hui sentenced computer technician Ng Man-ho on Thursday, a month after the 27-year-old, who ran a Telegram group called SUCK Channel, was found guilty of seven charges of conspiring to incite others to commit illegal acts during the 2019 extradition bill protests and subsequent months.
from us