گوگل مدلی تازه به نام EmbeddingGemma معرفی کرده که با وجود حجم بسیار کم (۳۰۸ میلیون پارامتر)، عملکردی فوقالعاده داره. نکته جالب اینه که با کمتر از ۲۰۰ مگابایت رم روی دستگاه اجرا میشه و حتی روی EdgeTPU میتونه در حدود ۱۵ میلیثانیه امبدینگ تولید کنه! 🚀
این مدل از بیش از ۱۰۰ زبان پشتیبانی میکنه و خروجی اون رو میشه بین ۱۲۸ تا ۷۶۸ بُعد تنظیم کرد. کاملاً آفلاین کار میکنه، بنابراین حریم خصوصی بهطور کامل حفظ میشه.
برای کاربردهایی مثل RAG روی دستگاه، جستجوی معنایی و پردازش دادههای شخصی گزینهای عالیه. همین حالا هم میشه راحت روی Hugging Face، Kaggle یا Vertex AI بهش دسترسی داشت.
https://developers.googleblog.com/en/introducing-embeddinggemma/
@computationallinguisticsNLP
این مدل از بیش از ۱۰۰ زبان پشتیبانی میکنه و خروجی اون رو میشه بین ۱۲۸ تا ۷۶۸ بُعد تنظیم کرد. کاملاً آفلاین کار میکنه، بنابراین حریم خصوصی بهطور کامل حفظ میشه.
برای کاربردهایی مثل RAG روی دستگاه، جستجوی معنایی و پردازش دادههای شخصی گزینهای عالیه. همین حالا هم میشه راحت روی Hugging Face، Kaggle یا Vertex AI بهش دسترسی داشت.
https://developers.googleblog.com/en/introducing-embeddinggemma/
@computationallinguisticsNLP
Googleblog
Google for Developers Blog - News about Web, Mobile, AI and Cloud
Discover EmbeddingGemma, Google's new on-device embedding model designed for efficient on-device AI, enabling features like RAG and semantic search.
❤3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
شرکت چینی MoonShot قابلیت ساخت پاورپوینت با هوش مصنوعی Kimi رو اضافه کرده و کاربران به صورت رایگان میتونن با اون پرزنتیشنهای مختلف بسازن.
رایگان
@computationallinguisticsNLP
رایگان
@computationallinguisticsNLP
👍4
نمایشگاه الکامپ از فردا برگزار میشه،
من احتمالأ شنبه صبح حدود دو ساعتی رو اونجا خواهم بود، اگر کسی از شماها دوست داره حضور پیدا کنه، خوشحال میشم با من هماهنگ کنه.
@computationallinguisticsNLP
من احتمالأ شنبه صبح حدود دو ساعتی رو اونجا خواهم بود، اگر کسی از شماها دوست داره حضور پیدا کنه، خوشحال میشم با من هماهنگ کنه.
@computationallinguisticsNLP
❤3👍2
بسان رود که در نشیب دره سر به سنگ میزند
رونده باش
امید هیچ معجزی ز مرده نیست
زنده باش😍😍
امروز با چند دوست خوب حدود دو ساعتی را در نمایشگاه الکامپ ۲۸ سپری کردیم، خوب بود ولی خیلی جذاب نبود....
همچنان که داشتم توی راهروها و بین غرفه ها قدم میزدم، ایده ای نظرم رو جلب کرد که عکسش رو با شما به اشتراک میگذارم.
خلاصه که خوبه یکسری بزنید، البته که فردا تمام میشه.....
@computationallinguisticsNLP
رونده باش
امید هیچ معجزی ز مرده نیست
زنده باش😍😍
امروز با چند دوست خوب حدود دو ساعتی را در نمایشگاه الکامپ ۲۸ سپری کردیم، خوب بود ولی خیلی جذاب نبود....
همچنان که داشتم توی راهروها و بین غرفه ها قدم میزدم، ایده ای نظرم رو جلب کرد که عکسش رو با شما به اشتراک میگذارم.
خلاصه که خوبه یکسری بزنید، البته که فردا تمام میشه.....
@computationallinguisticsNLP
❤3👏3
تعارف ایرانی
یک پژوهش تازه (با اسم جالب TAAROF BENCH) روی ۵ مدل زبانی معروف مثل Claude 3.5، GPT-4o، Llama 3، DeepSeek V3 و Dorna (مدل بومیشده برای فارسی) انجام شده است. هدفش بررسی اینه که این مدلها چقدر میتونن تعارف ایرانی رو درست بفهمن.
🔎 نتایج اصلی:
ایرانیهای native: ۸۱.۸٪ پاسخ درست
ایرانیهای مهاجر (heritage speakers): ۶۰٪
غیرایرانیها (تقریباً مثل AIها): ۴۲.۳٪ موفقیت
مدلهای بزرگ زبانی: فقط ۳۴–۴۲٪ موفقیت
📊 جالب اینجاست که وقتی همین مدلها رو به زبان فارسی تست کردن:
DeepSeek V3 از ۳۶.۶٪ به ۶۸.۶٪ جهش کرد!
GPT-4o هم ۲۳٪ بهبود داشت.
مدلهای کوچکتر مثل Llama 3 و Dorna فقط ۱۰–۱۲٪ بهتر شدن.
@computationallinguisticsNLP
یک پژوهش تازه (با اسم جالب TAAROF BENCH) روی ۵ مدل زبانی معروف مثل Claude 3.5، GPT-4o، Llama 3، DeepSeek V3 و Dorna (مدل بومیشده برای فارسی) انجام شده است. هدفش بررسی اینه که این مدلها چقدر میتونن تعارف ایرانی رو درست بفهمن.
🔎 نتایج اصلی:
ایرانیهای native: ۸۱.۸٪ پاسخ درست
ایرانیهای مهاجر (heritage speakers): ۶۰٪
غیرایرانیها (تقریباً مثل AIها): ۴۲.۳٪ موفقیت
مدلهای بزرگ زبانی: فقط ۳۴–۴۲٪ موفقیت
📊 جالب اینجاست که وقتی همین مدلها رو به زبان فارسی تست کردن:
DeepSeek V3 از ۳۶.۶٪ به ۶۸.۶٪ جهش کرد!
GPT-4o هم ۲۳٪ بهبود داشت.
مدلهای کوچکتر مثل Llama 3 و Dorna فقط ۱۰–۱۲٪ بهتر شدن.
@computationallinguisticsNLP
❤1👍1🙏1👌1
Forwarded from My CS Journey (Ali)
Shekar: Simplifying Persian NLP for Modern Applications
«هضم» آپدیت نیست و نسخهٔ فعلیش با نسخههای جدید پایتون سازگار نیست. به خصوص وقتی بخوای در کنار بستههای دیگه مثل
گویا یکنفر ابزار جدید توسعه داده برای پردازش متن فارسی، «شِکَر». امکانات خیلی خوبی داره و از همه مهمتر بهروزه و میشه با آخرین نسخهٔ پایتون استفادهاش کرد.
🔗 https://github.com/amirivojdan/shekar
🔗 https://pypi.org/project/shekar/0.1.16/
🔗 https://lib.shekar.io/
«هضم» آپدیت نیست و نسخهٔ فعلیش با نسخههای جدید پایتون سازگار نیست. به خصوص وقتی بخوای در کنار بستههای دیگه مثل
pandas
و langchain
نصبش کنی conflict میخورن و نمیشه مثل آدم استفادهاش کرد.گویا یکنفر ابزار جدید توسعه داده برای پردازش متن فارسی، «شِکَر». امکانات خیلی خوبی داره و از همه مهمتر بهروزه و میشه با آخرین نسخهٔ پایتون استفادهاش کرد.
🔗 https://github.com/amirivojdan/shekar
🔗 https://pypi.org/project/shekar/0.1.16/
🔗 https://lib.shekar.io/
👌3❤2
Media is too big
VIEW IN TELEGRAM
مدل جدیدی به نام Jan-Nano اخیرا معرفی شد.
همانطور که در ویدیو می بینید ۴ میلیارد پارامتر داره که برای کارهای deep research اپتیمایز شده است. بخصوص برای وصل شدن به Model Context Protocol (MCP) servers و انواع tools/ابزارها. و از لحاظ دقت هم خیلی خوبه. راهنمای نصب و استفاده بومی هم در لینک آورده شد.
@computationallinguisticsNLP
همانطور که در ویدیو می بینید ۴ میلیارد پارامتر داره که برای کارهای deep research اپتیمایز شده است. بخصوص برای وصل شدن به Model Context Protocol (MCP) servers و انواع tools/ابزارها. و از لحاظ دقت هم خیلی خوبه. راهنمای نصب و استفاده بومی هم در لینک آورده شد.
@computationallinguisticsNLP
❤4👍1
اگر تا الان ویندوز لپ تاپ تون رو به ۱۱ ارتقا ندادید. یکی از این راهکارها می توونه به شما کمک کنه.
۱.باید تو ویندوز ۱۰ با اکانت مایکروسافت لاگین کنی و تنظیماتِ PC رو با OneDrive از طریق Windows Backup سینک کنی.
بعد تو بخش آپدیت Enroll now رو بزنی. با این روش به مدت یکسال می توونید آپدیت امنیتی رایگان بگیرید.
۲.روش دیگر پناه آوردن به لینوکس هست😅برای شروع کوبونتو kubuntu یکی از توزیع های شبیه به ویندوز ولی با تمام خاصیت های ابونتو است که بجای دسکتاپ GNOME از دسکتاپ KDE استفاده میکند که قابلیت شخصی سازی بالایی دارد و سردرگمی کمتری برای شروع به کار با لینوکس دارید. همچنین اگر به دنبال تجربه UX متفاوت تری هستید خود ابونتو با پیشفرض GNOME نیز گزینه خوبی است.
ویدیو شخصی سازی KDE:
https://youtu.be/ETJeeBlCZBE?si=M0PZ6FMoVIKJUiq3
@computationallinguisticsNLP
۱.باید تو ویندوز ۱۰ با اکانت مایکروسافت لاگین کنی و تنظیماتِ PC رو با OneDrive از طریق Windows Backup سینک کنی.
بعد تو بخش آپدیت Enroll now رو بزنی. با این روش به مدت یکسال می توونید آپدیت امنیتی رایگان بگیرید.
۲.روش دیگر پناه آوردن به لینوکس هست😅برای شروع کوبونتو kubuntu یکی از توزیع های شبیه به ویندوز ولی با تمام خاصیت های ابونتو است که بجای دسکتاپ GNOME از دسکتاپ KDE استفاده میکند که قابلیت شخصی سازی بالایی دارد و سردرگمی کمتری برای شروع به کار با لینوکس دارید. همچنین اگر به دنبال تجربه UX متفاوت تری هستید خود ابونتو با پیشفرض GNOME نیز گزینه خوبی است.
ویدیو شخصی سازی KDE:
https://youtu.be/ETJeeBlCZBE?si=M0PZ6FMoVIKJUiq3
@computationallinguisticsNLP
❤2
📊 کتابخانه Polars
Polars یه کتابخونهی فوقسریع برای تحلیل دادههاست که با زبان Rust نوشته شده و توی Python هم قابل استفادهست.
📈 از pandas سریعتره، حافظهی کمتری مصرف میکنه و برای دادههای بزرگ عالیه.
🔹 ویژگیها:
سرعت خیلی بالا 🚀
پشتیبانی از دادههای حجیم
حالت Lazy برای اجرای بهینه
سازگار با فرمتهایی مثل CSV، Parquet و Arrow
🔸 نمونه کد:
import polars as pl df = pl.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]}) print(df.filter(pl.col("a") > 1))
اگر با pandas کار کردی، یادگیری Polars برات راحته ولی خیلی سریعتر و مدرنتره ⚡
@computationallinguisticsNLP
Polars یه کتابخونهی فوقسریع برای تحلیل دادههاست که با زبان Rust نوشته شده و توی Python هم قابل استفادهست.
📈 از pandas سریعتره، حافظهی کمتری مصرف میکنه و برای دادههای بزرگ عالیه.
🔹 ویژگیها:
سرعت خیلی بالا 🚀
پشتیبانی از دادههای حجیم
حالت Lazy برای اجرای بهینه
سازگار با فرمتهایی مثل CSV، Parquet و Arrow
🔸 نمونه کد:
import polars as pl df = pl.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]}) print(df.filter(pl.col("a") > 1))
اگر با pandas کار کردی، یادگیری Polars برات راحته ولی خیلی سریعتر و مدرنتره ⚡
@computationallinguisticsNLP
❤4
این نمایشگاه به عنوان نخستین گردهمایی رسمی و تخصصی کشور در حوزه هوش مصنوعی، با هدف ایجاد بستر تعامل میان فعالان، شرکتها، نهادهای پژوهشی و استارتاپهای این حوزه، برگزار میشود.
@computationallinguisticsNLP
@computationallinguisticsNLP
❤6
تیم DeepSeek باز هم پاس گل داد.😅😅
اینبار با مدل متنباز DeepSeek-OCR که نهتنها OCR فوقدقیقیه، بلکه با فناوری جدیدش به نام Context Optical Compression میتونه ورودیها رو تا ۱۰ برابر فشردهتر به مدلهای زبانی بدهد .
در چه زمینه های کاربرد دارد:
استخراج اطلاعات متنی از پی دی اف، عکس و اسکرین شات،
استخراج داده ها رو از فاکتورهای و فرم ها،
خلاصه سازی و تحلیل اسناد طولانی،
تبدیل pdf به markdown یا html،
پرسش و پاسخ درباره محتوای تصویر یا سند
🔗 deepseek.ai/blog/deepseek-ocr-context-compression
🔗https://huggingface.co/deepseek-ai/DeepSeek-OCR
@computationallinguisticsNLP
اینبار با مدل متنباز DeepSeek-OCR که نهتنها OCR فوقدقیقیه، بلکه با فناوری جدیدش به نام Context Optical Compression میتونه ورودیها رو تا ۱۰ برابر فشردهتر به مدلهای زبانی بدهد .
در چه زمینه های کاربرد دارد:
استخراج اطلاعات متنی از پی دی اف، عکس و اسکرین شات،
استخراج داده ها رو از فاکتورهای و فرم ها،
خلاصه سازی و تحلیل اسناد طولانی،
تبدیل pdf به markdown یا html،
پرسش و پاسخ درباره محتوای تصویر یا سند
🔗 deepseek.ai/blog/deepseek-ocr-context-compression
🔗https://huggingface.co/deepseek-ai/DeepSeek-OCR
@computationallinguisticsNLP
👏3❤1