Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on null in /var/www/tgoop/function.php on line 65
- Telegram Web
Telegram Web
گوگل مدلی تازه به نام EmbeddingGemma معرفی کرده که با وجود حجم بسیار کم (۳۰۸ میلیون پارامتر)، عملکردی فوق‌العاده داره. نکته جالب اینه که با کمتر از ۲۰۰ مگابایت رم روی دستگاه اجرا میشه و حتی روی EdgeTPU می‌تونه در حدود ۱۵ میلی‌ثانیه امبدینگ تولید کنه! 🚀
این مدل از بیش از ۱۰۰ زبان پشتیبانی می‌کنه و خروجی اون رو میشه بین ۱۲۸ تا ۷۶۸ بُعد تنظیم کرد. کاملاً آفلاین کار می‌کنه، بنابراین حریم خصوصی به‌طور کامل حفظ میشه.
برای کاربردهایی مثل RAG روی دستگاه، جستجوی معنایی و پردازش داده‌های شخصی گزینه‌ای عالیه. همین حالا هم میشه راحت روی Hugging Face، Kaggle یا Vertex AI بهش دسترسی داشت.

https://developers.googleblog.com/en/introducing-embeddinggemma/


@computationallinguisticsNLP
3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
شرکت چینی MoonShot قابلیت ساخت پاورپوینت با هوش مصنوعی Kimi رو اضافه کرده و کاربران به صورت رایگان میتونن با اون پرزنتیشنهای مختلف بسازن.

رایگان

@computationallinguisticsNLP
👍4
نمایشگاه الکامپ از فردا برگزار میشه،
من احتمالأ شنبه صبح حدود دو ساعتی رو اونجا خواهم بود، اگر کسی از شماها دوست داره حضور پیدا کنه، خوشحال میشم با من هماهنگ کنه.
@computationallinguisticsNLP
3👍2
بسان رود که در نشیب دره سر به سنگ میزند
رونده باش
امید هیچ معجزی ز مرده نیست
زنده باش😍😍

امروز با چند دوست خوب حدود دو ساعتی را در نمایشگاه الکامپ ۲۸ سپری کردیم، خوب بود ولی خیلی جذاب نبود....
همچنان که داشتم توی راهروها و بین غرفه ها قدم میزدم، ایده ای نظرم رو جلب کرد که عکسش رو با شما به اشتراک میگذارم.
خلاصه که خوبه یکسری بزنید، البته که فردا تمام میشه.....
@computationallinguisticsNLP
3👏3
تعارف ایرانی

یک پژوهش تازه (با اسم جالب TAAROF BENCH) روی ۵ مدل زبانی معروف مثل Claude 3.5، GPT-4o، Llama 3، DeepSeek V3 و Dorna (مدل بومی‌شده برای فارسی) انجام شده است. هدفش بررسی اینه که این مدل‌ها چقدر می‌تونن تعارف ایرانی رو درست بفهمن.
🔎 نتایج اصلی:
ایرانی‌های native: ‌۸۱.۸٪ پاسخ درست
ایرانی‌های مهاجر (heritage speakers): ۶۰٪
غیرایرانی‌ها (تقریباً مثل AIها): ۴۲.۳٪ موفقیت
مدل‌های بزرگ زبانی: فقط ۳۴–۴۲٪ موفقیت
📊 جالب اینجاست که وقتی همین مدل‌ها رو به زبان فارسی تست کردن:
DeepSeek V3 از ۳۶.۶٪ به ۶۸.۶٪ جهش کرد!
GPT-4o هم ۲۳٪ بهبود داشت.
مدل‌های کوچکتر مثل Llama 3 و Dorna فقط ۱۰–۱۲٪ بهتر شدن.
@computationallinguisticsNLP
1👍1🙏1👌1
Forwarded from My CS Journey (‌Ali)
Shekar: Simplifying Persian NLP for Modern Applications

«هضم» آپدیت نیست و نسخهٔ فعلیش با نسخه‌های جدید پایتون سازگار نیست. به خصوص وقتی بخوای در کنار بسته‌های دیگه مثل pandas و langchain نصبش کنی conflict می‌خورن و نمی‌شه مثل آدم استفاده‌اش کرد.
گویا یک‌نفر ابزار جدید توسعه داده برای پردازش متن فارسی، «شِکَر». امکانات خیلی خوبی داره و از همه مهم‌تر به‌روزه و می‌شه با آخرین نسخهٔ پایتون استفاده‌اش کرد.

🔗 https://github.com/amirivojdan/shekar
🔗 https://pypi.org/project/shekar/0.1.16/
🔗 https://lib.shekar.io/
👌32
Media is too big
VIEW IN TELEGRAM
مدل جدیدی به نام Jan-Nano اخیرا معرفی شد.
همانطور که در ویدیو می بینید ۴ میلیارد پارامتر داره که برای کارهای deep research اپتیمایز شده است. بخصوص برای وصل شدن به  Model Context Protocol (MCP) servers و انواع tools/ابزارها. و از لحاظ دقت هم خیلی خوبه. راهنمای نصب و استفاده بومی هم در لینک آورده شد.
@computationallinguisticsNLP
4👍1
Media is too big
VIEW IN TELEGRAM
اگر با مفهوم p-value مشکل دارید، این کلیپ مناسب شماست.

@computationallinguisticsNLP
👍1👏1
اگر تا الان ویندوز لپ تاپ تون رو به ۱۱ ارتقا ندادید. یکی از این راهکارها می توونه به شما کمک کنه.
۱.باید تو ویندوز ۱۰ با اکانت مایکروسافت لاگین کنی و تنظیماتِ PC رو با OneDrive از طریق Windows Backup سینک کنی.
بعد تو بخش آپدیت Enroll now رو بزنی. با این روش به مدت یکسال می توونید آپدیت امنیتی رایگان بگیرید.

۲.روش دیگر پناه آوردن به لینوکس هست😅برای شروع کوبونتو kubuntu یکی از توزیع های شبیه به ویندوز ولی با تمام خاصیت های ابونتو است که بجای دسکتاپ GNOME از دسکتاپ KDE استفاده می‌کند که قابلیت شخصی سازی بالایی دارد و سردرگمی کمتری برای شروع به کار با لینوکس دارید. همچنین اگر به دنبال تجربه UX متفاوت تری هستید خود ابونتو با پیشفرض GNOME نیز گزینه خوبی است.
ویدیو شخصی سازی KDE:

https://youtu.be/ETJeeBlCZBE?si=M0PZ6FMoVIKJUiq3

@computationallinguisticsNLP
2
📊 کتابخانه Polars
Polars یه کتابخونه‌ی فوق‌سریع برای تحلیل داده‌هاست که با زبان Rust نوشته شده و توی Python هم قابل استفاده‌ست.
📈 از pandas سریع‌تره، حافظه‌ی کمتری مصرف می‌کنه و برای داده‌های بزرگ عالیه.
🔹 ویژگی‌ها:
سرعت خیلی بالا 🚀
پشتیبانی از داده‌های حجیم
حالت Lazy برای اجرای بهینه
سازگار با فرمت‌هایی مثل CSV، Parquet و Arrow
🔸 نمونه کد:
import polars as pl df = pl.DataFrame({"a": [1, 2, 3], "b": [4, 5, 6]}) print(df.filter(pl.col("a") > 1))
اگر با pandas کار کردی، یادگیری Polars برات راحته ولی خیلی سریع‌تر و مدرن‌تره

@computationallinguisticsNLP
4
این نمایشگاه به عنوان نخستین گردهمایی رسمی و تخصصی کشور در حوزه هوش مصنوعی، با هدف ایجاد بستر تعامل میان فعالان، شرکت‌ها، نهادهای پژوهشی و استارتاپ‌های این حوزه، برگزار می‌شود.

@computationallinguisticsNLP
6
تیم DeepSeek باز هم پاس گل داد.😅😅

این‌بار با مدل متن‌باز DeepSeek-OCR که نه‌تنها OCR فوق‌دقیقیه، بلکه با فناوری جدیدش به نام Context Optical Compression می‌تونه ورودی‌ها رو تا ۱۰ برابر فشرده‌تر به مدل‌های زبانی بدهد .
در چه زمینه های کاربرد دارد:
استخراج اطلاعات متنی از پی دی اف، عکس و اسکرین شات،
استخراج داده ها رو از فاکتورهای و فرم ها،
خلاصه سازی و تحلیل اسناد طولانی،
تبدیل pdf به markdown یا html،
پرسش و پاسخ درباره محتوای تصویر یا سند


🔗 deepseek.ai/blog/deepseek-ocr-context-compression


🔗https://huggingface.co/deepseek-ai/DeepSeek-OCR

@computationallinguisticsNLP
👏31
2025/10/23 14:52:44
Back to Top
HTML Embed Code: