COMPUTATIONALLINGUISTICSNLP Telegram 121
متریک های ارزیابی LLM ها
https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation

توی این مقاله، متریک های ارزیابی LLM ها بررسی شده است.

Answer Relevancy:
بررسی می‌کنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمع‌وجوره یا نه.

Task Completion:

چک می‌کنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.

Correctness:
مشخص می‌کنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.

Hallucination:
بررسی می‌کنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.

Tool Correctness:
اگه مدل از ابزارهایی استفاده می‌کنه، این متریک بررسی می‌کنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.

Contextual Relevancy:
اگه سیستم LLM‌ت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی می‌کنه که آیا اطلاعاتی که به عنوان context جمع‌آوری شده، واقعاً به درد مدل می‌خوره یا نه.

Responsible Metrics:
شامل متریک‌هایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی می‌کنن آیا خروجی مدل محتوای آسیب‌زا یا توهین‌آمیز داره یا نه.

Task-Specific Metrics:
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصه‌سازی انجام می‌دی و یه سری معیار خاص خودت رو داری.

در کل، بیشتر متریک‌ها عمومی‌ان و برای همه‌ی مدل‌ها کاربرد دارن، ولی برای اینکه دقیق‌تر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.


@computationallinguisticsNLP



tgoop.com/ComputationallinguisticsNLP/121
Create:
Last Update:

متریک های ارزیابی LLM ها
https://www.confident-ai.com/blog/llm-evaluation-metrics-everything-you-need-for-llm-evaluation

توی این مقاله، متریک های ارزیابی LLM ها بررسی شده است.

Answer Relevancy:
بررسی می‌کنه که آیا جواب مدل با سؤال یا ورودی مربوطه یا نه؛ یعنی جواب درست و جمع‌وجوره یا نه.

Task Completion:

چک می‌کنه که آیا مدل تونسته اون کاری که براش تعریف شده رو تا آخر انجام بده یا نه.

Correctness:
مشخص می‌کنه که خروجی مدل از نظر اطلاعات واقعی درسته یا نه.

Hallucination:
بررسی می‌کنه که مدل اطلاعات ساختگی یا جعلی تولید کرده یا نه.

Tool Correctness:
اگه مدل از ابزارهایی استفاده می‌کنه، این متریک بررسی می‌کنه که آیا ابزار درست رو برای کار مورد نظر انتخاب کرده یا نه.

Contextual Relevancy:
اگه سیستم LLM‌ت بر پایه RAG (Retrieval-Augmented Generation) باشه، این بررسی می‌کنه که آیا اطلاعاتی که به عنوان context جمع‌آوری شده، واقعاً به درد مدل می‌خوره یا نه.

Responsible Metrics:
شامل متریک‌هایی مثل Bias و Toxicity (محتوای سمی یا آزاردهنده) هستن، که بررسی می‌کنن آیا خروجی مدل محتوای آسیب‌زا یا توهین‌آمیز داره یا نه.

Task-Specific Metrics:
اینا بستگی به کاربرد خاص مدل دارن، مثل وقتی که داری خلاصه‌سازی انجام می‌دی و یه سری معیار خاص خودت رو داری.

در کل، بیشتر متریک‌ها عمومی‌ان و برای همه‌ی مدل‌ها کاربرد دارن، ولی برای اینکه دقیق‌تر روی یه کاربرد خاص تمرکز کنی، کافی نیستن. واسه همین معمولاً باید یه متریک سفارشی Task-Specific داشته باشی تا سیستم ارزیابیت واقعاً به درد production بخوره.


@computationallinguisticsNLP

BY CL & NLP Enthusiasts


Share with your friend now:
tgoop.com/ComputationallinguisticsNLP/121

View MORE
Open in Telegram


Telegram News

Date: |

The best encrypted messaging apps Clear Don’t publish new content at nighttime. Since not all users disable notifications for the night, you risk inadvertently disturbing them. Developing social channels based on exchanging a single message isn’t exactly new, of course. Back in 2014, the “Yo” app was launched with the sole purpose of enabling users to send each other the greeting “Yo.” Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu.
from us


Telegram CL & NLP Enthusiasts
FROM American