VIBESANDTECH Telegram 22
⚙️ Lean 4 × LLM: первые шаги к «логически-оснащённым» моделям

В свежем препринте исследователи показали интересную связку: берут привычную LLM, добавляют к ней Lean 4 — формальный доказатель, где каждое утверждение компилируется как строгий тип — и заставляют модель решать олимпиадную математику под надзором компилятора.

Результат: точность на бенчмарке MATH выросла почти на 5 пунктов. Не потому, что модель стала «умнее», а потому что Lean отсекает всё, что логически не проходит.

Это важный этап, потому что LLM-ы сильны в вероятностных догадках, но с формальной логикой у них беда: аргумент может звучать убедительно, но быть дырявым. Добавив Lean как внешний «слой проверки», мы даём модели то, чего ей хронически не хватало — жёсткое правило истинности.

Как устроен гибрид
1. Формализация. Текст задачи превращают в теорему Lean.
2. Генерация. Модель предлагает шаги доказательства.
3. Проверка. Lean компилирует: прошёл — принято, нет — ищем другой путь.

Это, по сути, первый зримый шаг к тому, чтобы языковые модели играли не только «на ощущениях», а с опорой на формальную базу. Если идея приживётся, гибридный подход может закрыть разрыв между ИИ и человеком в тех областях, где пока выигрывает строгая логика: проверка научных выкладок, сложные инженерные расчёты, критически важный код. Ну и понятно, что это пока только препринт, но направление мысли интересное.

Похоже, дальше интереснее: вместо наращивания миллиардов параметров мы начнём окутывать модели цепочками проверяемых правил. А значит — меньше «магии вероятностей», больше гарантированной корректности.

Источник: https://arxiv.org/abs/2505.23703
🤔3🔥1



tgoop.com/vibesandtech/22
Create:
Last Update:

⚙️ Lean 4 × LLM: первые шаги к «логически-оснащённым» моделям

В свежем препринте исследователи показали интересную связку: берут привычную LLM, добавляют к ней Lean 4 — формальный доказатель, где каждое утверждение компилируется как строгий тип — и заставляют модель решать олимпиадную математику под надзором компилятора.

Результат: точность на бенчмарке MATH выросла почти на 5 пунктов. Не потому, что модель стала «умнее», а потому что Lean отсекает всё, что логически не проходит.

Это важный этап, потому что LLM-ы сильны в вероятностных догадках, но с формальной логикой у них беда: аргумент может звучать убедительно, но быть дырявым. Добавив Lean как внешний «слой проверки», мы даём модели то, чего ей хронически не хватало — жёсткое правило истинности.

Как устроен гибрид
1. Формализация. Текст задачи превращают в теорему Lean.
2. Генерация. Модель предлагает шаги доказательства.
3. Проверка. Lean компилирует: прошёл — принято, нет — ищем другой путь.

Это, по сути, первый зримый шаг к тому, чтобы языковые модели играли не только «на ощущениях», а с опорой на формальную базу. Если идея приживётся, гибридный подход может закрыть разрыв между ИИ и человеком в тех областях, где пока выигрывает строгая логика: проверка научных выкладок, сложные инженерные расчёты, критически важный код. Ну и понятно, что это пока только препринт, но направление мысли интересное.

Похоже, дальше интереснее: вместо наращивания миллиардов параметров мы начнём окутывать модели цепочками проверяемых правил. А значит — меньше «магии вероятностей», больше гарантированной корректности.

Источник: https://arxiv.org/abs/2505.23703

BY Тарас Довгаль. AI-first в жизни и работе




Share with your friend now:
tgoop.com/vibesandtech/22

View MORE
Open in Telegram


Telegram News

Date: |

Judge Hui described Ng as inciting others to “commit a massacre” with three posts teaching people to make “toxic chlorine gas bombs,” target police stations, police quarters and the city’s metro stations. This offence was “rather serious,” the court said. With the sharp downturn in the crypto market, yelling has become a coping mechanism for many crypto traders. This screaming therapy became popular after the surge of Goblintown Ethereum NFTs at the end of May or early June. Here, holders made incoherent groaning sounds in late-night Twitter spaces. They also role-played as urine-loving Goblin creatures. To view your bio, click the Menu icon and select “View channel info.” End-to-end encryption is an important feature in messaging, as it's the first step in protecting users from surveillance. As of Thursday, the SUCK Channel had 34,146 subscribers, with only one message dated August 28, 2020. It was an announcement stating that police had removed all posts on the channel because its content “contravenes the laws of Hong Kong.”
from us


Telegram Тарас Довгаль. AI-first в жизни и работе
FROM American