Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
205 - Telegram Web
Telegram Web
دیدم خیلی ها (از جمله خودم) دنبال بستنی های جدید کاله میگردن و پیدا نمیکنن، گفتم دیتای سوپرمارکت های اسنپ تهران رو جمع کنم. نتیجه رو تو آدرس زیر قرار دادم که قابل جستجو و مشاهده روی نقشه باشه.

سرچ خود اسنپ اصلا خوب نیست و دیتا رو هم نمیشه به این سادگی مشاهده و فیلتر کرد

https://vahidbaghi.ir/hobby/kalleh_snapp_products.html
من وبسایت thewebscraping.club رو بار ها معرفی کردم که در مورد وب‌اسکرپینگ مطالب مختلفی میذاره. الان تصمیم گرفتم به مرور با notebooklm.google برای پست هاش پادکست بسازم و با روشی که دارم براش زیرنویس فارسی تولید کنم و تو یوتیوب بذارم. پادکست این پست رو میتونید در یوتیوب مشاهده کنید. دکمه زیرنویس (CC) رو که بزنید زیرنویس فارسی که من گذاشتم نمایش داده میشه.

https://www.youtube.com/watch?v=hosKZ-Ez55k
کلمات مشترک همه شاعران فارسی‌زبان

(فقط ۵۴ کلمه وجود داره که همه شاعران در شعر هاشون به صورت مشترک استفاده کردن)
لیست تمام کلمات هر یک از شاعران استخراج شده، سپس اشتراک همه لیست ها گرفته شده که به ۵۴ کلمه میرسیم.
اگر حروف ربط و اضافه، ضمایر، کلمات پرسشی و شرطی و افعال رو حذف کنیم میشه تصویر بالا، اگر حذف نکنیم میشه این تصویر.
من ۲ مقاله برای مسابقه دیتا ژورنالیسم ارسال کردم با عنوان های زیر :

- چرا زمستان بیشتر زلزله میاد؟ (بررسی یک شایعه) (۱۹۸۴۱)
- سفر به دنیای گنجور! (۱۹۸۲۰)

ممنون میشم از طریق لینک زیر امتیاز بدید
https://d-award.ir/votes/
لیست بازیگرانی که از سال ۱۳۳۰ تا ۱۴۰۳ بیشترین تعداد فیلم و سریال (اپیزود) رو بازی کردند. بر اساس دیتای IMDb.
جزئیات بیشتر در ویدئو زیر قرار گرفته
https://www.youtube.com/watch?v=zysQFv5XJ9s
اگر کسی در دادن شماره کارتش مقاومت کرد، حساب اسنپش رو با لینک زیر شارژ کنید (صرفا با وارد کردن شماره تلفنش)، دیگه خودش میدونه و اسنپ. میتونه درخواست بده اعتبار حسابش به حساب بانکیش واریز بشه :)

https://recharge.snapp.ir
خیلی ها از من خواستن اون prompt که برای ترجمه زیرنویس استفاده کردی رو به اشتراک بذار. تو این پست میخوام روش کار رو برای اینکه با AI یک زیرنویس خوب بتونید ترجمه کنید رو آموزش بدم. در واقع یکسری نکات رو میخوام بگم که خروجی کار رو بهتر میکنه.

💠 مرحله اول : پیدا کردن زیرنویس

🔹 اگر زیرنویس زبان اصلی (ممکنه مثلا آلمانی باشه) رو آماده از یه جایی پیدا کردید که مرحله ۱ رو میتونید رد کنید. توجه داشته باشید که حتما زبان اصلی فیلم باشه. مثلا فیلم اگر آلمانیه، زیرنویس ترجمه ماشینی انگلیسیش به درد نمیخوره.

🔹 اگر لینک دانلود فیلم رو دارید، یه راه اینه که تو سایت videoindexer.ai یک اکانت بسازید. زمانی که وارد شدید، دکمه Upload (گوشه بالا سمپ راست) رو بزنید که به شما اجازه میده لینک دانلود رو قرار بدید یا از روی سیستم خودتون فیلم رو آپلود کنید. تو صفحه بعد میتونید زمان فیلم رو مشخص کنید که پیش‌فرض English هست و بعد دکمه Review + upload رو بزنید که کار رو شروع کنه. بعد از اتمام کار، فقط کافیه ویدئوی پردازش شده رو باز کنید که زیر ویدئو یک دکمه Download وجود داره، اونجا closed captions رو انتخاب کنید و زیرنویس رو دانلود کنید.

🔸 نکات
۱-شما میتونید audio یا صوت فیلم رو هم آپلود کنید. یعنی اگر فیلم روی سیستمتون هست و حجمش زیاده برای آپلود، میتونید صوتیش کنید و بعد آپلود کنید. اگر ffmpeg روی سیستم شما نصبه میتونید با دستور زیر صوت ویدئو رو استخراج کنید :
ffmpeg -i input.mkv -vn -acodec copy output.aac

۲-تو صفحه‌ای که باید تنظیمات پردازش رو انتخاب کنید، میتونید برای اینکه سرعت کار بیشتر بشه، گزینه Advanced settings رو بزنید و بعد از تب Indexing presets گزینه Basic audio only رو انتخاب کنید که الکی پردازش اضافی انجام نده و فقط زیرنویس رو تولید کنه.


🔹 راه بعدی برای استخراج زیرنویس استفاده از برنامه Subtitle Edit هست که تو این ویدئو کانال Skillvid میتونید آموزشش رو ببینید. فقط برای ویدئو هایی که زبانشون انگلیسی است، من توصیه میکنم گزینه Whisper رو انتخاب کنید و مدل base.en 142 MB رو بذارید دانلود بشه. کلا بهتره مدل های مختلف رو امتحان کنید که ببینید کدومش براتون جواب میده.


💠 مرحله دوم : پیش‌پردازش زیرنویس

🔹 اینجوری نیست که زیرنویس رو بدید به هر LLM ‌ای که خواستید و بگید ترجمه کن و اونم یه ترجمه خوب بهتون تحویل بده! باید زیرنویس پیش‌پردازش بشه

🔹باید جملاتی که دو خطی هستند رو تک خطی کنید. یعنی در هر سگمنت زیرنویس فقط باید یک خط متن وجود داشته باشه. با برنامه Subtitle Edit میتونید این کار رو انجام بدید. برنامه رو باز کنید، از منوی Tools بیاید و batch convert رو انتخاب کنید. یک صفحه جدید باز میشه. اینجا میتونید یه پوشه کامل رو بهش بدید که چندین زیرنویس داخلشه یا اینکه اون چند تایی که میخواید رو بندازید روی صفحه که انتخاب بشن. از اون لیست پایین (Convert options 2) اول اینکه بهتره گزینه Fix common errors رو کلا همیشه انتخاب کنید. همچنین گزینه Remove line breaks رو هم انتخاب کنید. در نهایت دکمه convert رو بزنید که تبدیل رو انجام بده. حواستون باشه که بکاپ از زیرنویس داشته باشید.

🔹خود این برنامه توانایی ترجمه داره ولی اصلا خوب نیست و ماشینی انجام میشه. چرا؟ کلا زیرنویس به دلیل ماهیتی که داره، جملات تکه تکه هستند و حتی اگر این مشکل رو هم حل کنید، ترجمه های عادی که مثلا google translate انجام میده نمیتونه دقیق و خوب باشه.


💠 مرحله سوم : ترجمه زیرنویس

🔹 الان فرض میکنم یه زیرنویس دارید که همه چیزش اوکیه. همه دیالوگ ها تک خطی هستند و اینتر وسطشون ندارن.

🔹 حالا باید زیرنویس رو بدید به یک LLM که ترجمه کنه. نظر شخصی من اینه که کلا Gemeni بهتر از همه ترجمه میکنه، اما کدوم مدلش؟ باید تست کنید!
مثلا من زیرنویس های Shark Tank رو با مدل Flash ترجمه کردم که ارزونه. اما مثلا اون فیلم آلمانی که در مورد زندگی گاوس بود رو Flash نتونست خوب ترجمه کنه و کیفیت پایین بود. بعد از امتحان کردن مدل های متعدد، اون فیلم رو با Gemeni-1206 ترجمه کردم و فکر میکنم بهترین ترجمه‌ ممکن برای این زیرنویس شده.

🔹 من از prompt زیر استفاده کردم (در واقع با آزمون و خطا نوشتمش) :

Translate the following subtitle into Persian. Keep the subtitle structure, which is an SRT file. Do not translate English terms word for word, but write their Persian equivalents. When translating subtitles, maintain sentence integrity.
🔹 همین prompt بالا رو دادم به ChatGPT گفتم بهتر بنویسش که خروجی به صورت زیر شد اما راستش من با همین پرامپت بالا جواب گرفتم و از قدیم گفتم کدی که کار میکنه رو انگول نکن :)
Translate the following subtitle into Persian while maintaining the SRT file structure. Use Persian equivalents for English terms instead of literal translation. Ensure sentence integrity is preserved in the subtitles.


🔹من یه کد نوشته بودم که زیرنویس رو به چندین تکه تقسیم میکرد و تکه تکه میداد به Gemeni و در نهایت نتیجه رو با هم ادغام میکرد. اما نکته‌ای که داره اینه که همه chunk ها جملاتشون باید کامل باشه. یعنی من توی کد چک میکردم که اگر آخرین دیالوگ زیرنویس به نقطه (.) ختم نشده بود، انقدر ادامه بده و سگمنت اضافه کنه که به نقطه ختم بشه. اینجوری میدونی تو هر تکه تمام جملات کامل هستند و ترجمه درست انجام میشه.


🔹 چه جوری با Gemeni رایگان ترجمه کنیم؟
۱-از طریق سایت زیر که کلا رایگانه ولی ممکنه با بعضی VPN ها نتونید ازش استفاده کنید. من سایفون رو تست کردم اوکی بوده
https://aistudio.google.com/

۲-تو سایت زیر هم یکسری از مدل های گوگل رایگان در دسترسه :
https://openrouter.ai
Dataphile
نمی‌دونم برنامه Shark Tank رو دیدید یا نه. شارک تنک یک برنامه تلویزیونی واقع‌نمایی است که از ماه اوت ۲۰۰۹ از شبکه ABC آمریکا پخش می‌شود. در این برنامه، افرادی که قصد دارند کسب‌وکار خود را راه‌اندازی کنند، ایده‌های خود را در مقابل پنج سرمایه‌دار موفق (شارک‌ها)…
تا الان ۱۵ فصلش رو قرار دادم. فقط فصل ۱۶ مونده که به زودی قرار میگیره. بعد از اون میخوام برم سراغ برنامه Entrepreneur Elevator Pitch که مشابه همین برنامه‌ست. من ۱۲۰ قسمتش رو دانلود کردم که به زودی زیرنویس میکنم. اینم زیرنویس نداره. البته در یوتیوب پخش میشه ولی زیرنویس خودکار یوتیوب رو خودتون در جریانید چقدر کیفیتش پایینه.
به نظرم هر برنامه‌ پایتونی که نوشته میشه باید با py-spy پروفایل بشه که bottleneck های کد پیدا بشه. خروجیش رو هم ببرید روی speedscope.app که راحت تر بررسیش کنید.

گاهی تو کد هایی که پیچیدگی زیاد داره آدم یادش میره یه جاهایی رو بهینه‌سازی کنه. من هر موقع گزارش های py-spy رو میخونم، از اینکه بدم AI برام برای بهبود عملکرد، code review کنه نتیجه بهتری میگیرم.


پ.ن. تصویر تزئینی است.
تو این پست میخوام سوالات پرتکراری که ازم میپرسن رو جواب بدم که کسی دوباره پرسید، لینک همین پست رو بدم.

🔰 سوالات مربوط به گرایش الگوریتم و محاسبات

💠 گرایش الگوریتم و محاسبات که خوندی چطور بوده؟
🔹 در این لینک در مورد گرایش الگوریتم و محاسبات دانشگاه تهران (چون شریف هم داره و من خبر ندارم چیکار میکنن)
🔹 یه سری voice هم هست که تو این کانال قرار دادم. این voice ها پراکنده بودن و از pv افراد مختلف که براشون فرستادم تجمیع کردم.


💠 بازار کار گرایش الگوریتم و محاسبات چیه؟
🔹 همون بازار کاری که برای Data science وجود داره.

💠 فقط با خوندن درس های دانشگاه میشه وارد بازار کار شد؟
🔹 مثل بقیه رشته ها صرفا پاس کردن چند تا واحد شما رو متخصص اون رشته نمیکنه، این گرایش هم شما رو data scientist نمیکنه. صرفا سرنخ بهتون میده و خودتون باید برید یاد بگیرید



🔰 موضوع web scraping
💠 از کجا شروع کنیم؟
🔹 میتونید از این کتاب شروع کنید و مطالب این سایت رو هم شخم بزنید و بعدش فقط تمرین کنید و در عمل با چالش های سایت ها آشنا بشید.



🔰 موضوع Road map
🔹از این سایت میتونید Road map برای همه تخصص ها رو ببینید
🔹 ویدئو های این کانال یوتیوب و به خصوص مصاحبه هایی که با افراد در تخصص های مختلف انجام دادن میتونه شروع خوبی باشه که مسیرتون رو پیدا کنید.


دیگه کمک خاصی نمیتونم به کسی بکنم. ببینید چه حوزه‌ای علاقه دارید. همون رو شروع کنید. ممکنه این پست رو آپدیت کنم.
نقشه ارتفاع ساختمان های تهران. هر چی از سبز به سمت قرمز میریم، ارتفاع ساختمون ها بیشتر میشه. داخل Legend رنج ارتفاع رو نوشته.

نکته هم اینه که تخمین نیست! یعنی با آنالیز نقشه های ماهواره‌ای نیست.

شعاع رو هم ۵۰ متر گرفتم. یعنی میانگین ارتفاع ساختمون ها در یک شعاع ۵۰ متری، رنگ رو مشخص میکنه.

برای اینکه بهتر نقشه رو درک کنید، ارتفاع ساختمون ۴ طبقه ۱۵ متر در نظر گرفته شده.


———
دیتایی به اشتراک نمیذارم. بنابراین درخواست دیتاش رو نکنید

———
آپدیت دوم : با سایت https://kepler.gl نقشه رو رسم کردم. دیتا رو آماده کردم و import کردم
میدونستید ساختمون هایی داریم که تا ۹ طبقه زیر زمین ساختن؟
عددی که توی Legend نوشته شده در واقع طبقات زیر زمین ساختمون هاست!
گزارش جامع ثروتمندان امریکا.pdf
421.5 KB
گزارش جامع ثروتمندان امریکا!

تهیه شده توسط آلومینیوم دیتاست!


ثروتمندان امریکا چجوری پولدار شدن؟
چقدر ارث موثر بوده توی پولدار شدنشون؟

چقدر طول میکشه تا توی امریکا پولدار شن ادما؟

چن نفر تو امریکا پولدارن؟

این گزارش رو از دست ندید!


همراه با لینک به سورس ها و منابع معتبر !


@AluminumDataset
یکی از مخاطبین کانال یه محصولی توسعه دادن به نام @Hayula_Monster که ویس کلاس ها رو می‌تونید بهش بدید و جزوه تمیز و خلاصه‌شده تحویل میده. من یه تست گرفتم و خوشم اومد و گفتم معرفیش میکنم.

تو دوران لیسانس یه درسی داشتیم به نام مهندسی‌نرم‌افزار که من ویس تمام کلاس هاش رو ضبط کرده بودم و چون این درس رو خیلی دوست داشتم، نشسته بودم ویس ها رو ثانیه به ثانیه گوش داده بودم و یه جزوه برای خودم نوشته بودم که جزوه رو داشته باشم. چون درس خیلی مهمیه. البته الان خیلی سال گذشته و جزوه رو گم کردم. کیفیت ویس ها پایین بود. الان یه کات ۴ دقیقه‌ای از یکی از ویس ها انتخاب کردم و دادم به این سرویس بالا و به نظرم خروجی قابل قبولی داره. به خصوص از نقشه‌ذهنی من خیلی خوشم اومد. البته ما کلا در پردازش زبان فارسی (هم TTS و هم STT) ضعف داریم و کتابخونه هایی که وجود دارن هیچ کدومشون عالی نیستن. با این حال خروجی کارشون خوب بود.
UML Applied.pdf
1.5 MB
کتابی که برای مهندسی‌نرم‌افزار ۲ میخوندیم این بود. یه سایت محشر هم در مورد RUP وجود داره که من قبلا میخواستم ترجمه‌ش کنم ولی بیخیال شدم. البته بعید میدونم الان شرکت های ایرانی خیلی سمت RUP برن. بیشتر بساز بندازه :))


https://sceweb.sce.uhcl.edu/helm/RUP_Folder/RationalUnifiedProcess/index.htm
Forwarded from VPN CLUB
منبع اصلی هر تصویر را پیدا کنید
هر تصویر توسط کی و چه زمانی منتشر شده


وب‌سایت VisualOrigins Detector ابزاری است که به شما کمک می‌کند نخستین زمان انتشار یک تصویر در اینترنت را بیابید. این ابزار با جستجوی خودکار در پلتفرم‌های مختلف، از جمله Google Fact Check Explorer و جستجوی معکوس تصویر، تاریخچه‌ای از تحقیقات تصویری شما ایجاد می‌کند تا بتوانید به راحتی به بررسی‌های قبلی خود دسترسی داشته باشید. همچنین، یک بوکمارکلت مفید ارائه شده که به شما امکان می‌دهد با یک کلیک، منبع اصلی هر تصویری را مستقیماً از مرورگر خود بررسی کنید.

https://visualorigins.digitaldigging.org/

#OSINT
2025/06/25 21:49:11
Back to Top
HTML Embed Code: