PYTORCH_HOWSAM Telegram 536
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks


مدل Vision-Language مایکروسافت بنام Florence-2

شاخصه‌های مهم این کار:
* خیلی سَبُکه. خبری از بیلیون پارامتر نیست!
* یک شبکه همه کاره هست؛ یعنی، دیتکشن، سگمنتیش و غیره
* یک دیتاست هیولا برای آموزش مدل ساخته شده!

محقق‌ها میخواستن یه مدلی بسازن که بتونه از عهده تسک‌های متنوع ویژن مثل دیتکشن، سگمنتیشن، کپشنینگ و غیره بربیاد.

خب، دو مقوله اینجا مطرح میشه؛ یکی معماری شبکه و دیگری دیتاست آموزش. معماری شبکه نکته جدیدی نداره. شبیه سایر VLM-های امروزیه. دو نسخه مدل Base با 230 و Large با 770 میلیون پارامتر معرفی شده.

اما، دیتاست اوه اوه! دیتاستی بنام FLD-5B ساختن که شامل 126 میلیون تصویر با 5 بیلیووون Annotation هست! 🤯 این کار رو به صورت دستی هم که انجام ندادن، به نظرم، اصل ایده مقاله همین بخش ساخت دیتاست هست. در مقاله، پایپلاین ساخت دیتاست رو در بخش Data Engine توضیح دادن.

یکسری تصویر از خروجی مدل Large براتون گذاشتیم که نگاه کنید؛ عجب دنیایی شده! دیگه یه مدل مخصوص دیتکشن یا سگمنتیشن بای بای...

مقاله CVPR | نوتبوک کولب | هاگینگ فیس



tgoop.com/pytorch_howsam/536
Create:
Last Update:

Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks


مدل Vision-Language مایکروسافت بنام Florence-2

شاخصه‌های مهم این کار:
* خیلی سَبُکه. خبری از بیلیون پارامتر نیست!
* یک شبکه همه کاره هست؛ یعنی، دیتکشن، سگمنتیش و غیره
* یک دیتاست هیولا برای آموزش مدل ساخته شده!

محقق‌ها میخواستن یه مدلی بسازن که بتونه از عهده تسک‌های متنوع ویژن مثل دیتکشن، سگمنتیشن، کپشنینگ و غیره بربیاد.

خب، دو مقوله اینجا مطرح میشه؛ یکی معماری شبکه و دیگری دیتاست آموزش. معماری شبکه نکته جدیدی نداره. شبیه سایر VLM-های امروزیه. دو نسخه مدل Base با 230 و Large با 770 میلیون پارامتر معرفی شده.

اما، دیتاست اوه اوه! دیتاستی بنام FLD-5B ساختن که شامل 126 میلیون تصویر با 5 بیلیووون Annotation هست! 🤯 این کار رو به صورت دستی هم که انجام ندادن، به نظرم، اصل ایده مقاله همین بخش ساخت دیتاست هست. در مقاله، پایپلاین ساخت دیتاست رو در بخش Data Engine توضیح دادن.

یکسری تصویر از خروجی مدل Large براتون گذاشتیم که نگاه کنید؛ عجب دنیایی شده! دیگه یه مدل مخصوص دیتکشن یا سگمنتیشن بای بای...

مقاله CVPR | نوتبوک کولب | هاگینگ فیس

BY PyTorch Howsam








Share with your friend now:
tgoop.com/pytorch_howsam/536

View MORE
Open in Telegram


Telegram News

Date: |

Ng was convicted in April for conspiracy to incite a riot, public nuisance, arson, criminal damage, manufacturing of explosives, administering poison and wounding with intent to do grievous bodily harm between October 2019 and June 2020. For crypto enthusiasts, there was the “gm” app, a self-described “meme app” which only allowed users to greet each other with “gm,” or “good morning,” a common acronym thrown around on Crypto Twitter and Discord. But the gm app was shut down back in September after a hacker reportedly gained access to user data. Avoid compound hashtags that consist of several words. If you have a hashtag like #marketingnewsinusa, split it into smaller hashtags: “#marketing, #news, #usa. While some crypto traders move toward screaming as a coping mechanism, many mental health experts have argued that “scream therapy” is pseudoscience. Scientific research or no, it obviously feels good. During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content.
from us


Telegram PyTorch Howsam
FROM American