نوشته‌های ترمینالی@terminal

نوشته‌های ترمینالی

من میخواستم یه مطلب مشابه همین بنویسم ولی این رو پیدا کردم و فقط توضیحات تکمیلی می‌دم.
ابزار ollama ربطی به llama3 نداره و میشه باهاش از marketplaceی که داره هر مدل اوپن‌سورسی رو مثل mistal رو پول کرد و اجرا کرد. رابط خوش دستی هم داره فقط تنها ایرادش اینه که سرورش ما رو تحریم کرده و برا پول کردن باید یه فکری بکنید.

برای فرانت‌اند هم میشه از چندین روش استفاده کرد. یکیش همین چت خودشه که تو ترمیناله و تو گیف مشاهده می‌کنید. حتی میشه بهش دستور pipe کرد ولی شاید بهترین تجربه کاربری نباشه.
می‌تونید هم از frontendهای دیگه استفاده کنید. ollama در اصل در حالت سرور با دستور ollama serve اجرا می‌شه و بعد می‌تونید frontendهای مختلف مثل cli خودش یا open-webui رو بهش متصل کنید.
حالا apiی که ارائه میده یه چیزی مختص خودشه، ولی پشتیبانی آزمایشی از api استاندارد open ai هم داره که در نتیجه می‌شه بهش ابزارهایی که در اصل برا chat gpt توسعه داده شدن رو هم بهش متصل کرد. من مثلا mods رو بهش متصل کردم برا استفاده تو ترمینال.

یه نکته پرفورمنسی هم اینکه اگر کارت گرافیک ندارید احتمالا خیلی پردازنده‌تون داغ و اذیت بشه و تولید نتیجه کند باشه (مگر اینکه خیلی قوی باشه که بعیده چنین سیستمی) اما شدنیه. اگر هم کارت گرافیک دارید نسخه‌ی مخصوص ollama رو می‌تونید نصب کنید مثلا من که nvidia بود کارت گرافیکم، از aur پکیج ollama cuda رو نصب کردم و بدون دردسر خاصی کار کرد و لود رو انداخت رو gpu. داک‌های خودشون هم برا gpu لینکش رو می‌گذارم.
https://github.com/ollama/ollama/blob/main/docs/linux.md
https://github.com/ollama/ollama/blob/main/docs/gpu.md

قبلا lm-studio رو معرفی کرده بودم که اون یه gui مرتب داره و می‌تونید همونجا چت کنید و مدل دانلود کنید و کامله و کار باهاش راحت تره ولی apiش گویا مطابق با open ai نیست. یه مشکل دیگه هم که داره اینه که در ان واحد یه مدل رو می‌تونه لود کنه و رو اون کار کنه در حالی که ollama اصلا مدل رو لود نمی‌کنه و وقتی serveش رو اجرا می‌کنید مموری خیلی کمی مصرف می‌کنه و بعد به تناسب api callی که دریافت می‌کنه از مدل استفاده می‌کنه. (که نمیدونم چرا ولی سریعه و خوبه!)

دو تا تجربه هم که داشتم می‌نویسم براتون.
اول اینکه لزومی نداره حتما ollama یا هر فرانت‌اندی به بک‌اند روی همون سیستم وصل بشه. اگه موقع زدن ollama serve تنظیمات لازم رو انجام بدید از هر سیستمی می‌شه بهش متصل شد، مثلا میشه مدل رو روی سرور بیارید بالا ولی ollama محلی رو تنظیم کنید که به سرور وصل بشه. من روی سیستمی که gpu و رم مناسبی داشت ران کردم و از لپتاپ بهش متصل شدم.
این ایشو رو ببینید:
https://github.com/ollama/ollama/issues/703

دوم اینکه open-webui حجم زیادی داره که برا یه gui خیلی منطقی نیست. ایمج داکرش حدود یک گیگابایت می‌شه! ولی امکانات جالبی هم اضافه می‌کنه مثلا قابلیت اکانت‌های مختلف رو داره و اولین اکانت ادمینه و باید sign up بقیه رو تایید کنه. می‌تونید این رو هم روی سرور بیارید بالا و اکانت بسازید برای آدما و بهشون خدمت llm ارائه بدید. در واقع یه frontend و یه backend خودش داره که backendش به بک‌اند‌های مختلفی از جمله ollama متصل می‌تونه بشه. در کل می‌شه گفت که برای استفاده شخصی رو یه سیستم داشتن ollama در کنار open-webui یه مقدار over engineer هست ولی با توجه به رابط کاربری مرتب و کم باگ open-webui به نظرم می‌شه بهش فکر کرد.

GitHub

ollama/docs/linux.md at main · ollama/ollama

Get up and running with Llama 3.3, DeepSeek-R1, Phi-4, Gemma 3, Mistral Small 3.1 and other large language models. - ollama/ollama

www.tgoop.com/terminal_stuff/2902

1.2K viewsMay 4, 2024 at 16:31

tgoop.com/terminal_stuff/2902

Create: 2024-05-04
Last Update: 2025-07-04 19:07:44

BY نوشته‌های ترمینالی

Share with your friend now:
tgoop.com/terminal_stuff/2902

Telegram News

من میخواستم یه مطلب مشابه همین بنویسم ولی این رو پیدا کردم و فقط توضیحات تکمیلی می‌دم.