Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
124 - Telegram Web
Telegram Web
Кроме ризонинга, объединения модальностей и планирования/действий, уменьшения датасетов/увеличения емкости моделей, еще одно направление, которое, как и все перечисленные, развивается уже не первый год, это линеаризация трансформеров. Предыдущие посты об этом: Mamba, Jamba, RWKV.

Основных мотивов у этой линии исследования два. Один технический: квадратичная сложность внимания в сочетании с парадигмой скейлинга (масштабирования) в обычных трансформерах не дает людям спокойно спать, хочется придумать что-то более эффективное. Тем более, как показывает множество разных экспериментов, “половина весов лишняя”, но как в маркетинге “мы точно не знаем, какая”. Второй мотив на уровне стратегического направления: кажется, что мозг не запоминает отношения ВСЕГО СО ВСЕМ, у него есть какой-то способ выбирать, что запоминать, а что нет, а общая емкость его, хоть и велика, но все же не бесконечна. То есть существуют какие-то механизмы отбора, что именно запоминается, а также, что именно вытесянется более новыми данными, и как сохранить возможность точной адресации при этом.

Хороший обзор исторического развития этого направления с зарождения в 2020 году, его текущего состояния, и ближайшего будущего. Выступают авторы семейства RWKV (которые месяц назад, в конце ноября, выпустили уже 7-ю версию модели):

🌶 2024 in Post-Transformer Architectures: State Space Models, RWKV

В выступлении:
1. Принципиальные идеи/шаги, обеспечившие развитие направления (со ссылками на все ключевые статьи):
- обращение к рекуррентным моделям, как более эффективным по параметрам, и почему не сработало прореживание матриц внимания в лоб (но может еще сработать на новом этапе)
- решение проблемы с параллелизацией обучения рекуррентных моделей (иначе невозможно обучить большие версии) через переформулирование их в виде сверток
- разработка CUDA кернелов для эффективного аппаратного ускорения
- механизмы управляемой данными селекции в рекуррентном потоке (состоянии)
- новые приемы промптинга и постановки задачи для такого класса моделей: оказалось, очень эффективно повторить целиком и запрос и данные еще раз, вместо составления сложных промптов как для трансформеров
2. История создания и развития RWKV, кратко отличия от второй ветки - моделей Mamba. Метрики текущего поколения (сравнимы с трансформерами при меньшем числе параметров).
3. Ближайшее будущее, формализация примитивов для разработки CUDA-ядер, чтобы тратить меньше времени каждый раз на их написание, и созданная для этого библиотека ThunderKittens: статья, гитхаб.
1
Публичное пространство вокруг вычислительного интеллекта переполнено пиар-поводами вроде “убъёт или не убъёт?”, “стрелять ли первыми?”, “бомбить ли датацентры?”, “сознательный или механический?”, “стохастический попугай или разумный?”, “скейлинг is all you need или не all?”, “LLMs это AGI или не AGI?”, “зима, пузырь и сигмоида или не зима, не пузырь, и экспонента?”. Всё это ложные дихотомии, фантазии, политика и разнообразные личностные мотивы, не имеющие отношения к исследованию. Они могут представлять интерес скорее для гуманитарных наук.

Чтобы понимать реальную ситуацию в вычислительном аспекте, нужно разобраться, в чем состоит проект LLM, каковы его движущие силы, цели и ограничения. А они не менялись с момента появления AlexNet (2012).

Ключевой проблемой было заставить учиться всё более крупные и глубокие сетки. До появления AlexNet больше 1-2 слоев обучить не получалось. И почти все улучшения архитектуры, с тех пор и до настоящего времени, включая нормализации, регуляризации, skip connections, подбор функций активации и т.д. состояли именно в обнаружении способов, как сделать обучение более стабильным на всё более крупном масштабе. Сам трансформер получил такое распространение в частности по причине того, что снял ограничения на масштабирование. То есть главным узким звеном, ограничивающим обучение, была архитектура. Сейчас, благодаря трансформеру, это ограничение снято. Возможны оптимизации или выход в совсем иные пространства задач, но для задачи масштабирования архитектура как таковая больше не препятствие.

Вторая базовая идея в основе всего проекта LLM - это unsupervised representation learning. То есть никто не ожидал от них никакой разумности поведения, ключевая идея состояла в том, чтобы разработать алгоритм, способный обучаться на всё большем, потенциально не ограниченном, объеме данных, без обучающего сигнала от человека (который на таких масштабах невозможен). И выучивать при этом всё более полезные латентные представления (репрезентации), которые бы выявляли все более обобщенные закономерности в данных, и могли бы _после этого_ использоваться еще как-то. Отсюда, например, идеи про сжатие информации и сложность по Колмогорову, которые можно услышать от Ильи Суцкевера или Шейна Легга. Решение этой задачи элегантно свелось к self-supervised learning и next token prediction — минимально возможный и максимально универсальный обучающий сигнал. К настоящему моменту уже много работ, показывающих, что выучиваемые в результате представления действительно не сводятся к поверхностной статистике, и модели способны к нетривиальным обобщениям и переносам: построение внутренних карт пространств, гроккинг алгоритмов, перенос навыков между языками и др.

Тенденция, что при увеличении размера модели начинают демонстрировать все более сложные навыки (все более удаленные и обобщенные ассоциативные связи), до сих пор не давала повода в себе усомниться. Ключевые исследователи убеждены, что она всё так же валидна, как и раньше. Есть ли у этого предел? Интуитивно кажется, что есть, и полезность этого приема должна начать асимптотически уменьшаться, хотя бы даже и по причине того что в мире закончились данные (“у нас есть только один интернет”), или по причине того что исчерпаются возможные полезные уровни ассоциаций. Основной не исчерпанный его потенциал лежит в мультимодальности и подключении кросс-модальных ассоциаций.

Итого, LLM, это огромная ассоциативная память, обучаемая без учителя, способная быть генератором бреда. Часто интересного и нетривиального, но всё же не сильно целенаправленного. Отсюда принципиально не разрешимые в рамках этой парадигмы проблемы с галлюцинациями, запредельная сложность коммерческих внедрений, где важна точность и т.п.

Если архитектура перестала быть препятствием, и исходно поставленные задачи в целом решены (потребовалось около 10 лет), что же дальше? А дальше - обучающие данные, конструирование обучающих сигналов и целенаправленность/проактивность.

Продолжение следует…
🔥1
> Основной не исчерпанный его потенциал лежит в мультимодальности и подключении кросс-модальных ассоциаций.

Работы, унифицирующие подход к модальностям и устраняющие избыточные части вроде контрастного обучения уже появляются. См. например, Apple, DeepMind и др.
…продолжение (начало здесь).

Следующим крупным шагом было осознание, что не всё равно, на каких данных учиться. Первым прорывом стал, собственно, ChatGPT в 2022 году, который дообучили на вопросах-ответах и инструкциях пользователей, и пропасть оказалась гигантской с по сути точно такой же архитектурой GPT-3, но которая просто училась продолжать тексты.

Затем была линия исследований по генерации инструктивных и синтетических данных. Оказалось, что их может быть меньше, объем не единственный критерий. Важно, чтобы они были очень чистыми, достаточно разнообразными, чтобы покрывать все целевые применения модели, правильно взвешенными/сбалансированными. Современные пайплайны подготовки данных - это многоступенчатая фильтрация, очистка, аугментация (увеличенние разнообразия вариантов), генерация синтетики (в том числе, примеров рассуждений и других нетривиальных ходов “мысли”), добавление кода (который не только помогает генерировать код, но и “рассуждать”) и других источников, затем микширование в точно подобранных пропорциях и подача в обучение в определенной последовательности. Базовых данных по прежнему нужно много, но по мере усложнения примеров и приближения к завершению обучения их количество уменьшается. Этого хватает для настройки модели, которая уже выучила все базовые/массовые корреляции.

В этой линии значима серия моделей Phi от Microsoft, которые выпустили уже 4-ю версию, и основным фокусом их экспериментов было как раз создание как можно более эффективных датасетов. Обзор современных пайплайнов обучения (Qwen 2, Gemma 2, Llama 3.1, Apple Intelligence) можно почитать, например, здесь. Можно также заглянуть в тех репорты Qwen 2.5 и DeepSeek 3. А вот хорошее руководство по конструированию корпусов: Designing and Evaluating Language Corpora, тоже полезно понимать.

Эта область еще не исчерпана, но кажется неплохо разработана. Оптимизации точно будут, прорывы, кажется, что вряд ли. Мы все еще остаемся в ассоциативной/статистической парадигме. Для сравнения можно сказать, что управились за 2 года.

Продолжение следует…
С Новым годом! 🍾
…продолжение (часть 1, часть 2).

Итак, мы научились учиться, выучили полезные репрезентации, установили ассоциативные связи между модальностями. И теперь… модель предлагает варианты возможного будущего: если так, то возможно вот это и это; “Направо пойдешь - коня потеряешь, налево пойдешь…”. Но кто/что делает выбор между этими вариантами? На данный момент буквально, банально, тривиально — генерация случайного числа в процедуре сэмплирования. С позиции 2024/25-го года этот факт, по-моему, должен потрясать. Дело в том, что до сих пор не стояло задачи целенаправленного поведения, стояла задача языкового моделирования ради выучивания репрезентаций. Но теперь пора подумать, как же эти богатые репрезентации лучше всего использовать.

Здесь и начинается очень плавная смена парадигмы, а точнее перед нами раскрывается непаханное поле, вплоть до фундаментальных установок в нейронауке. Но начнем с простого, разберем те подходы, которые уже исследованы и набрали популярность в инженерном сообществе, а после этого вернемся и посмотрим, какие еще скрытые идеи тут могут быть.

1. Из несложных ходов - просто дообучение на примерах решения задач и на примерах рассуждений (инструктивный файнтюнинг). Мощность этого подхода ограничена: действительно, поиск решений тут невозможен, но неглубокие задачи можно выучить ничего больше не меняя (что и сделали в ChatGPT). В паре с этим подходом идет in-context learning и промптинг: модели способны интерполировать инструкции и отвечать даже на такие, которых не видели в обучении (но видели похожие).

2. Предыдущий подход приоткрывает нам еще и такую дверь: когда архитектура устраивает и данных хватает, что еще может повлиять на результаты обучения? Обучающий сигнал. В общепринятых LLM этот сигнал довольно бедный: это фиксированная loss-функция. Но есть множество вариантов, как можно усложнять цели обучения или предоставлять более богатый сигнал. Loss-функции могут отражать более сложные задачи, они могут динамически изменяться, их может быть много разных, они могут комбинироваться и т.п. В конце концов, у человека существует динамическая иерархия мотивов, а также критические периоды освоения той или иной сферы действий в мире. Здесь открытое поле для экспериментов, опубликованных статей мало, или я мало их встречал. Одним из примеров более сложной цели обучения можно назвать RLHF, в котором лосс не сводится к статической формуле, а снимается в виде распределения с предпочтений людей. К сожалению, возможности конкретно такого подхода не очень специфичны и не очень широки. Также, успехи в дистилляции моделей связаны с тем, что используется более богатый сигнал от модели-учителя - полный набор логитов. Еще одной разновидностью более сложных целей обучения являются reward-функции (функции вознаграждения) в обучении с подкреплением, а также целый ряд подходов в нейронауке, но к этому вернемся позже.

3. Следующий известный подход - это постобработка результатов генерации в пространстве токенов. Например, отбор из многих вариантов (нужна отдельная модель-оценщик или ранжировщик или иногда отбор делают большинством голосов). Либо подходы на основе chain of thought - модели предлагают несколько раз повторить генерацию на собственных результатах с различными промптами, схемы возможны сколь угодно сложные - от просто последовательности “рассуждений” до сложных промптов с саморефлексией, самокритикой и оценкой генерации. Вариантов этого подхода тьма, тут и tree of thought, и graph of thought и т.д. Они, безусловно, поднимают планку сложности задач, которые способны решать модели, но всё же выглядят достаточно ограниченными, они всё еще не управляются целями и часто похожи на перебор “наугад”, а также плохо масштабируются. Тысяча обезьян за бесконечное время, может быть, и напишут “Войну и мир” (нет). В этой статье от DeepMind исследуется масштабируемость некоторых подходов данного класса.

Продолжение следует…
…продолжение (часть 1, часть 2, часть 3).

4. Достижение моделей o1/o3 (а теперь и Gemini 2.0 Flash Thinking Mode и QwQ) в том, что предложен полноценный и масштабируемый поиск в пространстве ответов. Хотя он все еще не совсем похож на настоящие рассуждения. Впервые как цель это публично анонсировал DeepMind в августе 2023. Но еще в мае того же года OpenAI выпустила статью про свою Process Reward Model, то есть к тому времени они уже какое-то время работали в этом направлении. Затем были утечки(?) из OpenAI, сначала про Q*, потом про Strawberry. Чтобы реализовать задуманное потребовалось: готовить и собирать датасеты с примерами рассуждений, затем создать отдельную модель-оценщик, причем не итогового результата (Outcome Reward Model - ORM), как в предыдущем подходе, а оценщик отдельных шагов рассуждений (Process Reward Model - PRM). Плюс, собственно, алгоритм перебора вариантов и поиска, здесь, вероятно используются варианты MCTS (Monte-Carlo Tree Search) и обучения с подкреплением (RL, Reinforcement Learning). Это направление на данный момент является очень богатым полем для экспериментов: и как лучше оценивать, и какие промежуточные шаги генерировать, и как правильно масштабировать, и как снизить пока безумную стоимость, и где пределы возможностей данного подхода. Оно определенно откроет целый ряд новых приложений, перспективы большие.

И все же, у этого подхода, как и у всех алгоритмов в пространстве токенов, тоже есть свои ограничения, хотя, может быть, они больше очевидны тем, кто смотрит со стороны нейронаук и психологии. Дело в том, что подобная реализация “рассуждений” на каждом шаге редуцирует сложное внутреннее представление сначала до логитов, а потом и вовсе до токенов. В целом, это выход из пространства нейросетей в так называемый нейросимвольный (neurosymbolic) подход, когда нейросетевые вычисления объединяются с классическими алгоритмами. Человеческое же мышление не сводится к операциям с символами, основные его пласты работают без символьного представления (если под символами понимать слова языка). Это отдельная большая тема, но вот кое-что для примера, оно и само по себе поучительно: Great scientists follow intuition and beauty, not rationality. Кроме того, подобное редуцирование на каждом шаге сбрасывает бОльшую часть контекста. Попробуйте читать книгу по одной строчке раз в неделю. Много вы так надумаете? По крайней мере внутри Меты это понимают и делают пока робкие, но шаги, в сторону ризонинга в латентом пространстве: раз, два.

Продолжение следует…
👍1
…продолжение (часть 1, часть 2, часть 3, часть 4).

5. В предыдущем пункте мы вплотную подобрались к обучению с подкреплением (Reinforcement Learning). Это отдельная область машинного обучения, развивающаяся как минимум больше двадцати лет, с конца 90-х, и изначально сфокусированная на моделировании именно поведения. В основе её, как и других направлений - сведения из нейробиологии, в этом случае - о механизмах подкрепления (поощрения и наказания) в обучении животных. Здесь в качестве оценки/лосса/сигнала/учителя используются функции вознаграждения (rewards), а модель учится не только реагировать в моменте, но и учитывать отложенные вознаграждения и прогнозировать результаты сложных цепочек действий.

Пионером этого подхода в сочетании с глубоким обучением был в основном DeepMind, именно на основе поиска с RL работают многие их проекты, начиная с игр Atari (2013) и AlphaGo (2016). Хотя OpenAI тоже кое что пробовала, до того как решила не углубляться в робототехнику и сфокусироваться на LLM.

Cобственно, задача должна быть понятна к этому моменту: соединить RL и LLM к взаимной пользе. Один способ это сделать - ризонеры из предыдущего пункта, но он не единственный. Развивается область end2end Vision-Language-Action моделей, а также планирование действий с помощью LLM для автономных роботов. World Models - тоже понятие, пришедшее к нам из RL, и языковые модели могут составлять часть модели мира, а мультимодальные - её целиком. В этой области в качестве world models применяют в том числе довольно развитые симуляторы среды, которые способны давать очень сложные обучающие сигналы, а также техники переноса навыков полученных в симуляторах на реальную среду. Здесь мы пересекаем Рубикон, действие и поведение может быть не дополнительно, а первично по отношению к языку, и может использовать язык.

Продолжение следует…
Интерлюдия

Вот так выглядят и действуют свежие RL-агенты.

А вот три лучших введения в обучение с подкреплением:

1. Книга Ричарда Саттона и Энрю Барто, основоположников направления:
Reinforcement Learning: An Introduction, 2nd edition (2018).

2. Конспект по RL на русском языке: Reinforcement Learning Textbook

3. Свежий обзор области на английском: Reinforcement Learning: An Overview

#основания
🔥2
🌶 Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective
Китайцы красавцы. Детальный разбор и роадмэп, как должна/может быть устроена модель, аналогичная o1/o3, и как её обучать:

We provide a detailed exploration of the potential implementations of Policy Initialization (Section 3), Reward Design (Section 4), Search (Section 5), and Learning (Section 6). Additionally, we review existing open-source o1 projects, illustrating how they may either serve as components of our framework or as specific instances within it (Section 7). Finally, we discuss the future development trends of o1 and the associated challenges (Section 8).
🔥2
…продолжение (часть 1, часть 2, часть 3, часть 4, часть 5).

6. Итак, чтобы завершить инженерные подходы (когда мы не выходим за рамки известных нам компонентов и их композиции, что-то вроде конструкторских задач), упомяну еще лишь один, тот с которого начал: очевидно, что функция семплирования потенциально перспективная точка для изменений. Желательное нам её свойство - целенаправленность вместо случайности. А вот как этого лучше добиться - вопрос открытый. Можно также попробовать подцепить сюда RL, прямо на логиты вместо токенов. Либо предложить какие-то эвристики. Мы здесь можем и меру неопределенности учитывать, и кластеры дальнейших рассуждений выявлять, и таксономию типов ветвлений предложить, и учитывать смысл исходного запроса, и учитывать предыдущие решения, или свойства сразу серий токенов, и много еще чего. Например, в phi 4 предложена концепция pivotal tokens - таких токенов в генерации, которые сильно меняют её направление, и с их учетом делается post-training. Может быть, это не даст глобальных прорывов, так как кажется, что в этом месте должно появиться что-то более сложное, но как минимум к каким-то оптимизациям и новому знанию вполне может привести.

А варианты дальнейшего развития на этом не заканчиваются, более того, самые интересные здесь только начинаются. Ведь можно перейти на уровень постановки проблем, и копнуть дальше в нейронные механизмы и устройство мозга, в смысл того, что мы моделируем, пересмотреть сами используемые нами идеи и элементы, ведь это мы их когда-то и создали, отринув и упростив довольно многое. А что именно мы отринули и что осталось не понятным?

Продолжение следует…
2
Очень хорошая статья с обзором некоторых ограничений трансформера, авторегрессионного моделирования и конкретно next token prediction objective:
🌶 The pitfalls of next-token prediction

А также хорошая библиография по теме и пример того, как по крайней мере часть проблем решается более сложной learning objective (см. пункт 2 в серии постов выше). А здесь выступление автора.
1
Если кто расслабился напомню, что они заполоняют, всё в силе. Большая версия картинки здесь.
Forwarded from Душный NLP
Физика языковых моделей: серия статей от FAIR

В прошлом году не успели поделиться с вами разбором полезной работы от исследователя лаборатории FAIR (Facebook AI Research) Цзэюань Аллен-Чжу. Исправляемся! В двухчасовом докладе и серии статей описаны свойства языковых моделей и приведено множество инсайтов.

Самые интересные идеи:

— LLM способна выучивать графы причинно-следственных связей для решения сложных задач. (Пример задачи: «В школе 10 аудиторий, в каждой по 15 парт, за каждой партой — два стула. Сколько всего стульев в школе?»). Если задача более запутанная, со сложным графом зависимостей, модель может использовать топологическую сортировку, чтобы понять порядок вычислений. Для повышения точности этого процесса предлагается обучать модель на дополнительных синтетических задачах. Описанный подход называется Level-1 reasoning.

— Перед генерацией первого токена LLM заранее просчитывает все промежуточные данные для построения ответа. Иногда модель допускает ошибки: вычисляет лишние данные или пытается оперировать тем, что ещё не вычислено. Этот процесс называется Level-2 reasoning.

— LLM способна определить, где произошла ошибка при генерации ответа. Для этого можно обучить Linear Probe, который с вероятностью около 99% предскажет место ошибки. Автор также предлагает добавить в обучающую выборку примеры Сhain-of-Thought, где модель не только ошибается, но и исправляет свои ошибки. Чем больше таких данных, тем выше становится качество модели.

— Ещё одна синтетическая задача для обучения модели — определение принадлежности последовательности грамматике Хомского. Задача формулируется так: даны правила раскрытия токенов (например: 5 → 43, 4 → 22, 3 → 11), и нужно понять, можно ли с их помощью сгенерировать последовательность 1122 (можно) или 1212 (нельзя). Оказалось, GPT не только успешно обучается на такую задачу, но и умеет определять, из каких нетерминальных токенов были сгенерированы подпоследовательности. При этом BERT, хотя и справляется с задачей, не оперирует понятием нетерминальных токенов.

Дополнительные инсайты:

— Претрейн должен содержать QA и другие задачи извлечения знаний (Knowledge Extraction, NE). Если только файнтюн содержит NE, модель будет плохо обобщаться на подобные задачи.
— Ошибки в данных на претрейне снижают качество, и стадия файнтюнинга не исправляет ситуацию.
— Аугментации заметно улучшают обобщающую способность модели. Это неудивительно, ведь они работают с перестановкой предложений, переформулировкой, стилистикой, переводами.
— Модели типа BERT работают хуже, чем GPT-архитектуры. Это объясняется авторегрессионной природой вторых, которая позволяет эффективнее генерировать и предсказывать последовательности (см. пункт о грамматике Хомского).
— Использование Сhain-of-Thought улучшает точность модели.
— GatedFFN работает хуже, чем обычный FFN.
— Универсальный закон: эффективность хранения информации (выученной из тренировочного датасета) в хорошо обученной LLM равна двум битам на один параметр модели. Этот закон действует для широкого диапазона размеров LLM.

Разбор подготовил Александр Шишеня

Душный NLP

Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from e/acc
Невероятные результаты от использования AI в образовании: школьники в Нигерии использовали Microsoft co-pilot тьютора на протяжении 6 недель (2 сессии в неделю) и показали академические результаты эквивалентные дополнительным двум годам обучения. Это на 80% (!) эффективнее, чем любые другие методы педагогических интервенций.

В образовании эффект от ИИ на сегодня один из самых больших, а технология уже готова. В отличии от других областей проблем с надежностью или безопасностью тут почти нет (до PhD уровня, как минимум). Кто-то (пока — Microsoft) построит бизнес на много миллиардов в этой области.
🔥2
Детальный разбор двух ризонинг моделей уровня плюс минус o1, но в опенсорсе:

DeepSeek R1 (Zero)
Kimi k1.5

Интересны подходы к обучению, многие казавшиеся важными элементы (поиск по дереву, отдельная модель для оценки value, сложные CoT-датасеты) устраняются просто циклом саморефлексивной генерации данных. Есть чему поучиться. Многие достигнутые результаты впечатляют, в т.ч. размеры итоговых моделей:

DeepSeek-R1-Distill-Qwen-1.5B outperforms GPT-4o and Claude-3.5-Sonnet on math benchmarks with 28.9% on AIME and 83.9% on MATH.

UPD: И третья статья в ту же сторону.
1
Китайцам мой поклон. Тихо, спокойно, без политики, истерик, страхов и обвинений делают своё дело. Новая порция напалма и рывок в data efficiency (и да, снова опенсорс):

LIMO: Less is More for Reasoning
…With merely 817 curated training samples, LIMO achieves 57.1% accuracy on the highly challenging AIME benchmark and 94.8% on MATH, improving the performance of previous strong SFT-based models from 6.5% to 57.1% on AIME and from 59.2% to 94.8% on MATH, while only using 1% of the training data required by previous approaches. Most remarkably, LIMO demonstrates exceptional out-of-distribution generalization, achieving 40.5% absolute improvement across 10 diverse benchmarks, outperforming models trained on 100x more data, directly challenging the prevailing notion that SFT inherently leads to memorization rather than generalization. Synthesizing these pioneering results, we propose the Less-Is-More Reasoning Hypothesis (LIMO Hypothesis): In foundation models where domain knowledge has been comprehensively encoded during pre-training, sophisticated reasoning capabilities can emerge through minimal but precisely orchestrated demonstrations of cognitive processes…

…817ю(!) тщательно отобранными примерами бьют ризонинг на 100 000 примерах в разы.
❤‍🔥3
Forwarded from Data Secrets
Китайский поисковик Baidu релизнул модель уровня GPT-4.5 за 1% от цены

На самом деле релизнули даже две модели, и обе уже успели навести очень много шума:

НЕ-ризонер Ernie 4.5. Мультимодальная модель, превосходящая GPT-4.5 по нескольким показателям (метрики выше). Может анализировать картинки, диаграммы, документы и даже аудио. При этом стоит в 100 раз меньше GPT-4.5.

Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M

Ризонер Ernie X1. Уровень DeepSeek R1 за полцены. Input $0.28 / 1M, output $1.1 / 1M.

Ну и самое приятное: Ernie 4.5 в чате работает бесплатно. И X1 скоро тоже обещают докатить. Пробуйте здесь: yiyan.baidu.com
Please open Telegram to view this post
VIEW IN TELEGRAM
Это на фоне новостей о том, что ведущих исследователей DeepSeek попросили сдать паспорта, чтобы они случайно не уехали, а OpenAI топит за бан DeepSeek в США, потому что она «вражеская».
Forwarded from Шейх Тамир
Человечество тупеет с каждым годом. С 2010 года наблюдается снижение интеллекта,FT со ссылкой на мировое исследование

В развитых странах 25% взрослых не могут справиться с элементарной (!) математикой. В США таких уже 35%. Все меньше людей могут сосредоточиться на одном деле, решать базовые задачи и думать логически - зато бесконечно скроллят ленты.

Половина опрошенных за год прочитали только одну книгу, а 45% подростков вообще не читают. Главная причина - соцсети и новый формат контента. Бесконечный поток видео и алгоритмы засоряют мозги.
1
2025/10/17 20:18:16
Back to Top
HTML Embed Code: