tgoop.com/terminal_stuff/2902
Last Update:
من میخواستم یه مطلب مشابه همین بنویسم ولی این رو پیدا کردم و فقط توضیحات تکمیلی میدم.
ابزار ollama ربطی به llama3 نداره و میشه باهاش از marketplaceی که داره هر مدل اوپنسورسی رو مثل mistal رو پول کرد و اجرا کرد. رابط خوش دستی هم داره فقط تنها ایرادش اینه که سرورش ما رو تحریم کرده و برا پول کردن باید یه فکری بکنید.
برای فرانتاند هم میشه از چندین روش استفاده کرد. یکیش همین چت خودشه که تو ترمیناله و تو گیف مشاهده میکنید. حتی میشه بهش دستور pipe کرد ولی شاید بهترین تجربه کاربری نباشه.
میتونید هم از frontendهای دیگه استفاده کنید. ollama در اصل در حالت سرور با دستور ollama serve اجرا میشه و بعد میتونید frontendهای مختلف مثل cli خودش یا open-webui رو بهش متصل کنید.
حالا apiی که ارائه میده یه چیزی مختص خودشه، ولی پشتیبانی آزمایشی از api استاندارد open ai هم داره که در نتیجه میشه بهش ابزارهایی که در اصل برا chat gpt توسعه داده شدن رو هم بهش متصل کرد. من مثلا mods رو بهش متصل کردم برا استفاده تو ترمینال.
یه نکته پرفورمنسی هم اینکه اگر کارت گرافیک ندارید احتمالا خیلی پردازندهتون داغ و اذیت بشه و تولید نتیجه کند باشه (مگر اینکه خیلی قوی باشه که بعیده چنین سیستمی) اما شدنیه. اگر هم کارت گرافیک دارید نسخهی مخصوص ollama رو میتونید نصب کنید مثلا من که nvidia بود کارت گرافیکم، از aur پکیج ollama cuda رو نصب کردم و بدون دردسر خاصی کار کرد و لود رو انداخت رو gpu. داکهای خودشون هم برا gpu لینکش رو میگذارم.
https://github.com/ollama/ollama/blob/main/docs/linux.md
https://github.com/ollama/ollama/blob/main/docs/gpu.md
قبلا lm-studio رو معرفی کرده بودم که اون یه gui مرتب داره و میتونید همونجا چت کنید و مدل دانلود کنید و کامله و کار باهاش راحت تره ولی apiش گویا مطابق با open ai نیست. یه مشکل دیگه هم که داره اینه که در ان واحد یه مدل رو میتونه لود کنه و رو اون کار کنه در حالی که ollama اصلا مدل رو لود نمیکنه و وقتی serveش رو اجرا میکنید مموری خیلی کمی مصرف میکنه و بعد به تناسب api callی که دریافت میکنه از مدل استفاده میکنه. (که نمیدونم چرا ولی سریعه و خوبه!)
دو تا تجربه هم که داشتم مینویسم براتون.
اول اینکه لزومی نداره حتما ollama یا هر فرانتاندی به بکاند روی همون سیستم وصل بشه. اگه موقع زدن ollama serve تنظیمات لازم رو انجام بدید از هر سیستمی میشه بهش متصل شد، مثلا میشه مدل رو روی سرور بیارید بالا ولی ollama محلی رو تنظیم کنید که به سرور وصل بشه. من روی سیستمی که gpu و رم مناسبی داشت ران کردم و از لپتاپ بهش متصل شدم.
این ایشو رو ببینید:
https://github.com/ollama/ollama/issues/703
دوم اینکه open-webui حجم زیادی داره که برا یه gui خیلی منطقی نیست. ایمج داکرش حدود یک گیگابایت میشه! ولی امکانات جالبی هم اضافه میکنه مثلا قابلیت اکانتهای مختلف رو داره و اولین اکانت ادمینه و باید sign up بقیه رو تایید کنه. میتونید این رو هم روی سرور بیارید بالا و اکانت بسازید برای آدما و بهشون خدمت llm ارائه بدید. در واقع یه frontend و یه backend خودش داره که backendش به بکاندهای مختلفی از جمله ollama متصل میتونه بشه. در کل میشه گفت که برای استفاده شخصی رو یه سیستم داشتن ollama در کنار open-webui یه مقدار over engineer هست ولی با توجه به رابط کاربری مرتب و کم باگ open-webui به نظرم میشه بهش فکر کرد.
BY نوشتههای ترمینالی

Share with your friend now:
tgoop.com/terminal_stuff/2902