Notice: file_put_contents(): Write of 12056 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50

Warning: file_put_contents(): Only 4096 of 16152 bytes written, possibly out of free disk space in /var/www/tgoop/post.php on line 50
PyTorch Howsam@pytorch_howsam P.679
PYTORCH_HOWSAM Telegram 679
کامل نیست، ولی اثر سایز مدل رو ببینید؛

دو تا فاکتور تعداد لایه (nL) و هیدن سایز (nE) رو تغییر دادم و سه تا مدل بدست اومد.

مدل آبی حدودا 3 میلیون پارامتر داره. خیلی کوچیکه. با اینکه خیلی بیشتر از دو مدل دیگه آموزش دیده (حدود 1.4 بیلیون توکن)، اما اختلاف زیادی باهاشون داره.

دو مدل دیگه به‌هم نزدیک هستن. فرقشون در تعداد لایه‌هاست. یکی 4 لایه و دیگری 8 لایه. مشخص هست که مدل 8 لایه عملکرد بهتری داره. مدل 4 لایه به 400 میلیون توکن نیاز داشته تا به لاس زیر 1.5 برسه. اما به نظر میرسه که مدل 8 لایه با تعداد توکن‌های کمتری میتونه این رکورد رو بزنه.

خوبه که یک نمونه جنریشن با پرامپت مشابه از دو مدل آبی و قهوه‌ای ببینیم. اون مدل فیروزه‌ای که هیچ، به اندازه کافی ترین نشده...



tgoop.com/pytorch_howsam/679
Create:
Last Update:

کامل نیست، ولی اثر سایز مدل رو ببینید؛

دو تا فاکتور تعداد لایه (nL) و هیدن سایز (nE) رو تغییر دادم و سه تا مدل بدست اومد.

مدل آبی حدودا 3 میلیون پارامتر داره. خیلی کوچیکه. با اینکه خیلی بیشتر از دو مدل دیگه آموزش دیده (حدود 1.4 بیلیون توکن)، اما اختلاف زیادی باهاشون داره.

دو مدل دیگه به‌هم نزدیک هستن. فرقشون در تعداد لایه‌هاست. یکی 4 لایه و دیگری 8 لایه. مشخص هست که مدل 8 لایه عملکرد بهتری داره. مدل 4 لایه به 400 میلیون توکن نیاز داشته تا به لاس زیر 1.5 برسه. اما به نظر میرسه که مدل 8 لایه با تعداد توکن‌های کمتری میتونه این رکورد رو بزنه.

خوبه که یک نمونه جنریشن با پرامپت مشابه از دو مدل آبی و قهوه‌ای ببینیم. اون مدل فیروزه‌ای که هیچ، به اندازه کافی ترین نشده...

BY PyTorch Howsam




Share with your friend now:
tgoop.com/pytorch_howsam/679

View MORE
Open in Telegram


Telegram News

Date: |

The Standard Channel Users are more open to new information on workdays rather than weekends. Select: Settings – Manage Channel – Administrators – Add administrator. From your list of subscribers, select the correct user. A new window will appear on the screen. Check the rights you’re willing to give to your administrator. Commenting about the court's concerns about the spread of false information related to the elections, Minister Fachin noted Brazil is "facing circumstances that could put Brazil's democracy at risk." During the meeting, the information technology secretary at the TSE, Julio Valente, put forward a list of requests the court believes will disinformation. Earlier, crypto enthusiasts had created a self-described “meme app” dubbed “gm” app wherein users would greet each other with “gm” or “good morning” messages. However, in September 2021, the gm app was down after a hacker reportedly gained access to the user data.
from us


Telegram PyTorch Howsam
FROM American