tgoop.com/ComputationallinguisticsNLP/121
Last Update:
متریک های ارزیابی LLM ها
https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation
توی این مقاله، متریک های ارزیابی LLM ها بررسی شده است.Answer Relevancy
:
بررسی میکنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمعوجوره یا نه.
Task Completion:
چک میکنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.Correctness:
مشخص میکنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.Hallucination
:
بررسی میکنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.Tool Correctness:
اگه مدل از ابزارهایی استفاده میکنه، این متریک بررسی میکنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.Contextual Relevancy
:
اگه سیستم LLMت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی میکنه که آیا اطلاعاتی که به عنوان context جمعآوری شده، واقعاً به درد مدل میخوره یا نه.Responsible Metrics:
شامل متریکهایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی میکنن آیا خروجی مدل محتوای آسیبزا یا توهینآمیز داره یا نه.Task-Specific Metrics:
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصهسازی انجام میدی و یه سری معیار خاص خودت رو داری.
در کل، بیشتر متریکها عمومیان و برای همهی مدلها کاربرد دارن، ولی برای اینکه دقیقتر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.
@computationallinguisticsNLP
BY CL & NLP Enthusiasts
Share with your friend now:
tgoop.com/ComputationallinguisticsNLP/121