Forwarded from Machinelearning
В новом интервью Андрей Карпаты рассказал, почему современные языковые модели не учатся как люди - и почему нас ждёт медленная, но неизбежная потеря контроля.
Он считает, что обучение с подкреплением и это тупиковый путь: модели не думают, а просто копируют и повторяют.
«Reinforcement learning ужасен. Просто всё, что было до него, ещё хуже.»
Карпаты отмечает, что люди учатся, создавая собственные данные - размышляя, связывая новое со старым, делая выводы. LLM этого не умеют, они просто запоминают.
Главное, по его словам, впереди - не сингулярность, а тихое делегирование мышления алгоритмам.
«ИИ лишит человечество возможности принимать решения. Мы перестанем думать и выбирать сами.»
Карпати считает, что нынешние агенты — «полное г…», а настоящего AGI стоит ждать не раньше чем через 10 лет.
Он боится не бунта машин, а того, что люди незаметно перестанут быть разумными - просто передав все решения системам, которые “знают лучше”.
Полное интервью
Исследователи из Epoch AI проверили, насколько современные модели действительно умеют «думать» в математике.
Они использовали тест FrontierMath — 290 задач, которые требуют не запоминания формул, а настоящего рассуждения и способности к обобщению.
Результаты оказались отрезвляющими.
Даже GPT-5, одна из самых мощных моделей на сегодня, смогла решить только 29 % задач в одном прогоне.
После 32 запусков (чтобы компенсировать случайность) показатель вырос до 46 %, но затем перестал расти.
Даже если объединить результаты десятков моделей - от ChatGPT Agent и Gemini 2.5 Deep Think до o4-mini, совокупная решаемость достигает лишь 57 %.
По оценкам авторов, даже при бесконечных попытках предел будет меньше 70 %.
Итог: несмотря на огромный прогресс, современные LLM остаются далеки от настоящего "AGI" - они всё ещё плохо справляются с глубинным рассуждением и гибким решением задач, где нужно не память, а мышление.
Исследователи сообщили о тревожном эффекте - у больших языковых моделей (LLM) может развиваться “Brain Rot”, то есть постепенное «когнитивное разложение».
Причина - постоянное дообучение на низкокачественных и “вирусных” текстах из интернета, что приводит к стойкому снижению способностей к рассуждению, работе с длинным контекстом и безопасному поведению.
Главный симптом - “отсутствие мышления” (thought-skipping): модель перестаёт рассуждать шаг за шагом и начинает выдавать поверхностные ответы, а в некоторых случаях даже приобретает “тёмные” черты личности - нарциссизм, агрессию и низкую склонность к сотрудничеству.
Даже сильные методы коррекции, лишь частично устраняют последствия, что делает отбор обучающих данных ключевым фактором безопасности при развитии ИИ.
openreview
Это компактная языковая модель (~1 млрд параметров) и несмотря на размер, она превосходит Gemma 3 1B и Llama 3.2 1B в задачах рассуждения, знаний и работы с длинным контекстом - до 128 000 токенов.
Внутри гибридное внимание (локальное + глобальное в соотношении 3:1, окно 512) это низкую задержку и экономию KV-памяти.
Подробнее
Инструмент, в который встроено более 100 опенсорсных моделей от ведущих разработчиков.
Внутри: модели от OpenAI, Qwen, Google, Nvidia, DeepSeek и десятков других. Система сама выбирает оптимальную модель под конкретный запрос.
Попробовать
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍4⚡3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Специалисты показали, что объединив 2 модели диффузии можно кратно улучшить результат генерации.
Почему это работает хорошо?
Вместо того, чтобы делать выборки из каждого распределения по отдельности, добавляется связывание, которое подталкивает выборки друг к другу.
https://arxiv.org/abs/2510.14981
Специалисты показали, что объединив 2 модели диффузии можно кратно улучшить результат генерации.
Почему это работает хорошо?
Вместо того, чтобы делать выборки из каждого распределения по отдельности, добавляется связывание, которое подталкивает выборки друг к другу.
https://arxiv.org/abs/2510.14981
👍3⚡1🔥1
Forwarded from ИИ и роботы в стройке
This media is not supported in your browser
VIEW IN TELEGRAM
Генерация за 6 шагов:
1. Визуализация концепта в MidJourney.
2. Генерация кода 3D-модели через ChatGPT.
3. Доводка формы в P5.js.
4. Стилизация рендера через MidJourney.
5. Корректировка в Photoshop.
6. Создание видео в KreaAI
Быстрый пайплайн для визуализации любых идей.
1. Визуализация концепта в MidJourney.
2. Генерация кода 3D-модели через ChatGPT.
3. Доводка формы в P5.js.
4. Стилизация рендера через MidJourney.
5. Корректировка в Photoshop.
6. Создание видео в KreaAI
Быстрый пайплайн для визуализации любых идей.
🔥6🥰2👍1
#unrealneural #пытаюсьпонять
Карпатый говорит, что архитектура трансформера позволяет выполнять функции аналогичные участку корковой ткани мозга, потому что она универсальна и работает с разными типами данных (коры головного мозга в этом смысле тоже очень пластичны, поэтому удаление ее частей не исключает переадаптацию зрительной части на слуховую и так далее).
Обучение выстраиванию цепочек рассуждений для думающих моделей - это работа прифронатльной коры.
Но многие отделы мозга не до конца изучены. Не смотря на то что для решения интеллектуальных задач не все части мозга важны, есть те участки которые пока не имеют аналогов. Например миндалевидные тело (амигдала). Его сложно смоделировать, потому что она отвечает за эмоциональную обработку, быстрые реакции, мотивации и принятии решенией в условиях неопределенности.
P.S. - некоторые участки мозга ИИ скорее всего не будут нужны вовсе
Про работу миндалевидного тела
https://ru-dark-triad.livejournal.com/299020.html
Карпатый говорит, что архитектура трансформера позволяет выполнять функции аналогичные участку корковой ткани мозга, потому что она универсальна и работает с разными типами данных (коры головного мозга в этом смысле тоже очень пластичны, поэтому удаление ее частей не исключает переадаптацию зрительной части на слуховую и так далее).
Обучение выстраиванию цепочек рассуждений для думающих моделей - это работа прифронатльной коры.
Но многие отделы мозга не до конца изучены. Не смотря на то что для решения интеллектуальных задач не все части мозга важны, есть те участки которые пока не имеют аналогов. Например миндалевидные тело (амигдала). Его сложно смоделировать, потому что она отвечает за эмоциональную обработку, быстрые реакции, мотивации и принятии решенией в условиях неопределенности.
P.S. - некоторые участки мозга ИИ скорее всего не будут нужны вовсе
Про работу миндалевидного тела
https://ru-dark-triad.livejournal.com/299020.html
🤓3⚡1👍1🤮1
#unrealneural #вкопилкуэрудита
Стресс и кортизол со временем подавляют выработку дофаминовой системы и могут привести к снижению уровня дофамина, что делает человека склонным к зависимости или определенному виду аддиктивного поведения.
Это потому, что все зависимости – это попытка вашего организма повысить уровень дофамина в мозге 🧐
Стресс и кортизол со временем подавляют выработку дофаминовой системы и могут привести к снижению уровня дофамина, что делает человека склонным к зависимости или определенному виду аддиктивного поведения.
Это потому, что все зависимости – это попытка вашего организма повысить уровень дофамина в мозге 🧐
🤔5👍2🤷♂1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Немного ИИ красоты в начале недели
Центральная библиотека Singularity
Авторы использовали: Midjourney, Gemini, Claude, Firefly, Magnific, Kling, Suno, Grammarly
Немного ИИ красоты в начале недели
Центральная библиотека Singularity
Авторы использовали: Midjourney, Gemini, Claude, Firefly, Magnific, Kling, Suno, Grammarly
👍9❤4🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural #пытаюсьпонять
Текстовая диффузия
Диффузия - это способ создания картинок и видео, где модель постепенно убирает шум из случайного хаоса, слой за слоем, сверху вниз. А вот для текста чаще используют авторегрессию: модель пишет слова по порядку — слева направо, сверху вниз, как человек печатает предложение. Если не углубляться в математику, всё сводится к простому:
Берем поток случайных токенов и постепенно уточняем их.
Используем обычный трансформер, но с двустороннм вниманием: модель смотрит на весь текст сразу. Каждый шаг переоцениваем и маскируем слова, которые еще "шумные". Повторяем, пока не получится чистый и готовый текст.
Модель постоянно подстраивает слова под общий смысл, пока всё не встанет на место.
Текстовая диффузия
Диффузия - это способ создания картинок и видео, где модель постепенно убирает шум из случайного хаоса, слой за слоем, сверху вниз. А вот для текста чаще используют авторегрессию: модель пишет слова по порядку — слева направо, сверху вниз, как человек печатает предложение. Если не углубляться в математику, всё сводится к простому:
Берем поток случайных токенов и постепенно уточняем их.
Используем обычный трансформер, но с двустороннм вниманием: модель смотрит на весь текст сразу. Каждый шаг переоцениваем и маскируем слова, которые еще "шумные". Повторяем, пока не получится чистый и готовый текст.
Модель постоянно подстраивает слова под общий смысл, пока всё не встанет на место.
👍4⚡1🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
#unrealneural
Немного ИИ красоты в конце рабочего дня 🌙
Поставьте лайк и поделюсь промптом 🙃 в комментариях
Немного ИИ красоты в конце рабочего дня 🌙
Поставьте лайк и поделюсь промптом 🙃 в комментариях
👍15❤5🔥3
Media is too big
VIEW IN TELEGRAM
🔥6❤3👍2🌚2
#unrealneural #пытаюсьпонять
Визуальное восприятие текста
Изображения часто могут представлять собой более компактное представление данных. Пиксели представляют собой богатую визуальную информацию, которая теряется в результате токенизации.
Отсюда встает вопрос насколько эффективнее были бы LLM модели если бы даже текст обрабатывался через пиксельный поток?
Новая OCR модель от Deepseek, которая иллюстрирует систему эффективного оптического сжатия данных.
https://github.com/deepseek-ai/DeepSeek-OCR
Визуальное восприятие текста
Изображения часто могут представлять собой более компактное представление данных. Пиксели представляют собой богатую визуальную информацию, которая теряется в результате токенизации.
Отсюда встает вопрос насколько эффективнее были бы LLM модели если бы даже текст обрабатывался через пиксельный поток?
Новая OCR модель от Deepseek, которая иллюстрирует систему эффективного оптического сжатия данных.
https://github.com/deepseek-ai/DeepSeek-OCR
👍2🔥1🤔1
Media is too big
VIEW IN TELEGRAM
#unrealneural
Немного ИИ красоты в конце рабочего дня 🌙
Поставьте лайк и поделюсь промптом 🙃 в комментариях
Немного ИИ красоты в конце рабочего дня 🌙
Поставьте лайк и поделюсь промптом 🙃 в комментариях
❤7⚡2🤗1