tgoop.com/data_csv/1086
Last Update:
Вижу много правильных мыслей, к которым пришёл и я.
OpenAI для иллюстрации результатов использовали Stacked Bar Chart. «Физический смысл» этого графика — сумма всех результатов. GPT-4 + GPT-4 (no vision) + GPT-3 в совокупности дают такой результат.
Но график не об этом. График о том, как каждая модель по отдельности справилась с экзаменами.
Теоретически, можно было показывать таким видом визуализации «прирост» функциональности, но оказалось, что есть даже один случай, когда модель GTP-4 справилась хуже, чем GTP-3.5.
Ещё плохо, что из исходного графика неясно, что за величина на нём показана. Я долго ломал голову, что за перцентили там изображены, и советовался с коллегами, как это интерпретировать.
Ну и ещё парочка побочных моментов — неудобное расположение подписей и вопрос, что происходит, если мы видим столбик только одного цвета.
Что сделал я:
1. Отметил все результаты точками
2. Чтобы можно было понять, где у моделей одинаковые результаты, каждую из них выделил разным размером круга.
3. Сделал человеческие подписи, из которых можно было бы понять контекст
4. Перевернул подписи на оси, чтобы было понятно их читать
Это всё быстро оформлено в связке Tableau + PowerPoint
BY data.csv

Share with your friend now:
tgoop.com/data_csv/1086