🧠 MIT: новый подход к созданию AI-агентов для социальных задач
Учёные из MIT предложили метод, который позволяет агентам не просто подстраиваться под одну задачу, а обобщать поведение на новые ситуации.
🔑 Как это работает:
Вместо обычного fine-tuning или промптинга на одном датасете — используют поведенческую теорию как основу подсказок.
Эти подсказки потом проверяют на других, но близких по смыслу задачах.
Такой «двойной шаг» заставляет агентов сохранять только те описания процесса принятия решений, которые реально предсказывают поведение даже при изменении среды.
📊 Результаты:
3,41x выше вероятность правильного ответа по сравнению с базовыми моделями (на 1 490 играх).
53–73% меньше ошибок на новых вариантах игр.
2,44x лучше, чем классические равновесия Харсани–Зельтена.
👉 Идея проста: если описывать процесс решений на человеческом языке и фильтровать его через теорию + проверку в других условиях, агент начинает вести себя более «по-человечески» и лучше справляется с неожиданными ситуациями.
🟠 Статья
Учёные из MIT предложили метод, который позволяет агентам не просто подстраиваться под одну задачу, а обобщать поведение на новые ситуации.
🔑 Как это работает:
Вместо обычного fine-tuning или промптинга на одном датасете — используют поведенческую теорию как основу подсказок.
Эти подсказки потом проверяют на других, но близких по смыслу задачах.
Такой «двойной шаг» заставляет агентов сохранять только те описания процесса принятия решений, которые реально предсказывают поведение даже при изменении среды.
📊 Результаты:
3,41x выше вероятность правильного ответа по сравнению с базовыми моделями (на 1 490 играх).
53–73% меньше ошибок на новых вариантах игр.
2,44x лучше, чем классические равновесия Харсани–Зельтена.
👉 Идея проста: если описывать процесс решений на человеческом языке и фильтровать его через теорию + проверку в других условиях, агент начинает вести себя более «по-человечески» и лучше справляется с неожиданными ситуациями.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1
🎮 LLM-бенчмарк в стиле Among Us
Новый тест проверяет модели не на код и задачи, а на социальные навыки: доверие, обман, убеждение и координацию. Для этого их заставляют играть в Among Us в мультиагентной среде.
📊 Результаты:
- GPT-5 реже всего ошибочно исключает игроков в роли члена экипажа.
- Как импостор, модель крайне убедительна и эффективна в обмане.
- GPT-5 гибко адаптируется к роли: минимизирует вред в команде и максимизирует его как предатель.
Такой бенчмарк показывает, как ИИ справляется с социальными динамиками, недоступными для стандартных тестов.
https://www.4wallai.com/amongais
Новый тест проверяет модели не на код и задачи, а на социальные навыки: доверие, обман, убеждение и координацию. Для этого их заставляют играть в Among Us в мультиагентной среде.
📊 Результаты:
- GPT-5 реже всего ошибочно исключает игроков в роли члена экипажа.
- Как импостор, модель крайне убедительна и эффективна в обмане.
- GPT-5 гибко адаптируется к роли: минимизирует вред в команде и максимизирует его как предатель.
Такой бенчмарк показывает, как ИИ справляется с социальными динамиками, недоступными для стандартных тестов.
https://www.4wallai.com/amongais
❤2👍1
🚀 Вышел Jupyter Agent Dataset!
📊 Обучение на этом датасете значительно улучшает навыки моделей в выполнении кода и анализе данных.
🔍 Из чего он собран:
- 7 ТБ реальных Kaggle-датасетов
- 20k Jupyter-ноутбуков
- Трассы реального исполнения кода, сгенерированные с помощью Qwen3-Coder и E2B
👉 Датасет доступен здесь: https://huggingface.co/datasets/data-agents/jupyter-agent-dataset
📊 Обучение на этом датасете значительно улучшает навыки моделей в выполнении кода и анализе данных.
🔍 Из чего он собран:
- 7 ТБ реальных Kaggle-датасетов
- 20k Jupyter-ноутбуков
- Трассы реального исполнения кода, сгенерированные с помощью Qwen3-Coder и E2B
👉 Датасет доступен здесь: https://huggingface.co/datasets/data-agents/jupyter-agent-dataset
❤2
This media is not supported in your browser
VIEW IN TELEGRAM
Sam Altman x David Deutsch о GPT-8 и AGI
В беседе с одним из самых ярких физиков современности Сэм спрашивает:
👉 Если GPT-8 решит задачу квантовой гравитации, будет ли это доказательством AGI?
🔹 Дойч считает, что Turing Test - несостоятельный критерий.
🔹 LLM, даже «GPT-5», не обладают настоящим творческим вдохновением.
🔹 AGI нельзя измерить фиксированными тестами.
⚡ Но если GPT-8 реально решит квантовую гравитацию — для Дойча это и будет AGI.
Источник: *Deutsch Explains* (YouTube)
В беседе с одним из самых ярких физиков современности Сэм спрашивает:
👉 Если GPT-8 решит задачу квантовой гравитации, будет ли это доказательством AGI?
🔹 Дойч считает, что Turing Test - несостоятельный критерий.
🔹 LLM, даже «GPT-5», не обладают настоящим творческим вдохновением.
🔹 AGI нельзя измерить фиксированными тестами.
⚡ Но если GPT-8 реально решит квантовую гравитацию — для Дойча это и будет AGI.
Источник: *Deutsch Explains* (YouTube)
💩7😁4
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Илья Суцкевер о сходстве ИИ и человеческого мозга
Он приводит примеры:
- Дети, у которых удалили половину мозга, всё равно продолжают нормально функционировать.
- Сенсорные входы могут «переподключаться» к другим областям мозга.
Это показывает, что корковые структуры универсальны и повторно используются — как ДНК и белки.
👉 Вывод: интеллект основан на общей архитектуре, и ИИ может отражать биологические системы.
Источник: *No Priors* (YouTube)
Он приводит примеры:
- Дети, у которых удалили половину мозга, всё равно продолжают нормально функционировать.
- Сенсорные входы могут «переподключаться» к другим областям мозга.
Это показывает, что корковые структуры универсальны и повторно используются — как ДНК и белки.
👉 Вывод: интеллект основан на общей архитектуре, и ИИ может отражать биологические системы.
Источник: *No Priors* (YouTube)
🔥6❤5👍2👎2😁1
PlutoPrint — это лёгкая и удобная библиотека на Python для генерации качественных PDF и изображений напрямую из HTML или XML. Она основана на мощном рендеринг-движке PlutoBook, что делает её идеальной для отчетов, счетов, билетов и визуализаций.
Основные возможности
Поддержка PDF и PNG – можно создавать как статичные изображения, так и печатные документы из
Простота установки и использования — установка через pip install plutoprint; пример для командной строки:
plutoprint input.html output.pdf --size=A4
@pythonl
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🔥3❤🔥2
Хочешь запускать AI-продукты на базе LLM — не на словах, а в продакшене?
Тогда учиться нужно не у теоретиков, а у тех, кто уже делает это для крупнейших компаний.
Курс «Инженер LLM» — про то, как на практике собирать рабочие архитектуры под реальные задачи, адаптировать open‑source решения и запускать продукты с ИИ, которые действительно работают.
Преподаватели — топы индустрии:
— Кристина Желтова, директор по разработке моделей, Газпромбанк;
— Александр Потехин, NLP Lead, X5 Tech;
— Евгений Кокуйкин, CEO HiveTrace.
Ты научишься:
➡️ дообучать модели (fine-tuning, PEFT, RLHF);
➡️ работать с LangChain, LangGraph и векторными базами;
➡️ строить RAG‑системы, реализовывать инфопоиск и защищать LLM;
➡️ собирать пайплайны, деплоить, трекать, версионировать;
➡️ проектировать мультиагентные решения и ассистентов.
Смотри программу и оставляй заявку🔗
Тогда учиться нужно не у теоретиков, а у тех, кто уже делает это для крупнейших компаний.
Курс «Инженер LLM» — про то, как на практике собирать рабочие архитектуры под реальные задачи, адаптировать open‑source решения и запускать продукты с ИИ, которые действительно работают.
Разработан GIGASCHOOL, совместно с крупнейшей магистратурой по искусственному интеллекту AI Talent Hab.
Преподаватели — топы индустрии:
— Кристина Желтова, директор по разработке моделей, Газпромбанк;
— Александр Потехин, NLP Lead, X5 Tech;
— Евгений Кокуйкин, CEO HiveTrace.
Ты научишься:
▪️252 часа теории и практики;
▪️диплом о профессиональной подготовке;
▪️старт 15 октября | 25 недель онлайна с заранее продуманными каникулами;
▪️36 450₽/мес (рассрочка);
▪️повышение цены — 3 октября.
Смотри программу и оставляй заявку🔗
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👍2🔥2
🌌 xAI готовит Grokipedia — открытую базу знаний, где миссия одна: правда.
📖 Что известно:
- Это будет полностью открытый репозиторий знаний без ограничений на использование.
- Основан только на проверенных фактах и правде.
- Задуман как источник, которому смогут доверять и люди, и ИИ.
✨ Почему это важно
Grokipedia — часть миссии xAI: понять Вселенную и дать доступ к истине в её чистейшей форме.
🔮 Grokipedia уже близко...
#xAI #AI #knowledge #opensource
📖 Что известно:
- Это будет полностью открытый репозиторий знаний без ограничений на использование.
- Основан только на проверенных фактах и правде.
- Задуман как источник, которому смогут доверять и люди, и ИИ.
✨ Почему это важно
Grokipedia — часть миссии xAI: понять Вселенную и дать доступ к истине в её чистейшей форме.
🔮 Grokipedia уже близко...
#xAI #AI #knowledge #opensource
👍12🔥7😁3🤔3
Media is too big
VIEW IN TELEGRAM
GigaChat Vision Team — ваша будущая команда! 😉
Если вы зарегистрируетесь на One Day Offer для NLP- и CV-инженеров и пройдёте все этапы отбора, то уже совсем скоро будете:
✔️ Обучать Vision, 3D/CAD и омни-модальные модели на тысячах A100/H100.
✔️ Создавать live-ассистента на edge-устройствах, а также базовые модели VLA для промышленных проектов: автоматизированных фабрик, автопилотов и роботов.
✔️ Работать с документами: Document Intelligence и разработка VLM OCR.
✔️ Развивать мультимодальную инфраструктуру: от инференса генеративных моделей до создания и авторазметки синтетических данных
Дублируем ссылку на регистрацию — до встречи 4 октября!
Если вы зарегистрируетесь на One Day Offer для NLP- и CV-инженеров и пройдёте все этапы отбора, то уже совсем скоро будете:
✔️ Обучать Vision, 3D/CAD и омни-модальные модели на тысячах A100/H100.
✔️ Создавать live-ассистента на edge-устройствах, а также базовые модели VLA для промышленных проектов: автоматизированных фабрик, автопилотов и роботов.
✔️ Работать с документами: Document Intelligence и разработка VLM OCR.
✔️ Развивать мультимодальную инфраструктуру: от инференса генеративных моделей до создания и авторазметки синтетических данных
Дублируем ссылку на регистрацию — до встречи 4 октября!
🔥 7 бесплатных интерактивов для аналитиков
Эти сервисы — не просто игрушки, а мощные симуляторы, которые помогают прокачивать аналитику через практику.
Они отлично подходят для подготовки к собеседованиям, изучения новых концепций или просто для того, чтобы «залипнуть» с пользой.
Вот подборка, в которую я сам возвращаюсь снова и снова:
1️⃣ Симулятор стартапа — teachmegrow.com
2️⃣ A/B-тесты на практике — lukasvermeer.nl/confidence
3️⃣ Эволюция доверия — notdotteam.github.io/trust
4️⃣ UX-игра на внимательность — cantunsee.space
5️⃣ UX Arcade — uxcel.com/arcade
6️⃣ Вероятности и статистика на пальцах — seeing-theory.brown.edu
7️⃣ Алгоритмы в картинках — visualgo.net
💡 Сохраняйте, проходите и делитесь с коллегами — это реально полезный интерактив.
Эти сервисы — не просто игрушки, а мощные симуляторы, которые помогают прокачивать аналитику через практику.
Они отлично подходят для подготовки к собеседованиям, изучения новых концепций или просто для того, чтобы «залипнуть» с пользой.
Вот подборка, в которую я сам возвращаюсь снова и снова:
1️⃣ Симулятор стартапа — teachmegrow.com
2️⃣ A/B-тесты на практике — lukasvermeer.nl/confidence
3️⃣ Эволюция доверия — notdotteam.github.io/trust
4️⃣ UX-игра на внимательность — cantunsee.space
5️⃣ UX Arcade — uxcel.com/arcade
6️⃣ Вероятности и статистика на пальцах — seeing-theory.brown.edu
7️⃣ Алгоритмы в картинках — visualgo.net
💡 Сохраняйте, проходите и делитесь с коллегами — это реально полезный интерактив.
notdotteam.github.io
Эволюция доверия
интерактивное руководство теории игр о том, зачем и как мы доверяем друг другу
👍3❤1
🌍 MENLO: From Preferences to Proficiency
Новый фреймворк и датасет для оценки и моделирования качества ответов LLM, максимально приближенного к "родной речи", сразу на 47 языках.
Идея вдохновлена принципами audience design - то есть адаптацией модели под разные аудитории и культурные контексты.
📄 Статья: arxiv.org/abs/2509.26601
🤗 Датасет: huggingface.co/datasets/facebook/menlo
Новый фреймворк и датасет для оценки и моделирования качества ответов LLM, максимально приближенного к "родной речи", сразу на 47 языках.
Идея вдохновлена принципами audience design - то есть адаптацией модели под разные аудитории и культурные контексты.
📄 Статья: arxiv.org/abs/2509.26601
🤗 Датасет: huggingface.co/datasets/facebook/menlo
❤2
🐦 X открыл исходники алгоритма "For You"
Как работает лента рекомендаций в 7 шагах:
1️⃣ Сырые данные (вход):
- соцграф (кто кого фолловит),
- вовлечённость (лайки, ретвиты, ответы, закладки),
- данные о пользователе (клики, профиль, поведение).
2️⃣ Feature Engineering:
- GraphJet — граф твитов в реальном времени
- SimClusters — объединение в коммьюнити ("AI Twitter", "NBA Twitter")
- TwHIN — карта связей пользователь↔твит
- RealGraph — сила связей
- TweepCred — скоринг доверия
- Trust & Safety сигналы
3️⃣ Candidate Sourcing (Home Mixer):
Разные миксеры (CR Mixer, UTEG, FRS) вытягивают твиты из разных пулов → больше разнообразия.
4️⃣ Heavy Ranker (ML-модель):
Нейросеть предсказывает, что вам зайдёт: лайки, ретвиты, ответы, время чтения.
5️⃣ Фильтры и эвристики:
- социальное доказательство
- разнообразие авторов
- блок спама/NSFW/мутов
- баланс контента
- защита от «замыливания»
6️⃣ Микс:
Рекламные твиты + рекомендации «кого фолловить» → в ленту.
7️⃣ Что это значит для вас:
- выбери нишу
- пиши ценные посты
- отвечай по делу в своей теме
→ вырастишь аудиторию и найдёшь людей/идеи для бизнеса.
https://github.com/twitter/the-algorithm
#Twitter #ForYou #AI #RecommenderSystems
Как работает лента рекомендаций в 7 шагах:
1️⃣ Сырые данные (вход):
- соцграф (кто кого фолловит),
- вовлечённость (лайки, ретвиты, ответы, закладки),
- данные о пользователе (клики, профиль, поведение).
2️⃣ Feature Engineering:
- GraphJet — граф твитов в реальном времени
- SimClusters — объединение в коммьюнити ("AI Twitter", "NBA Twitter")
- TwHIN — карта связей пользователь↔твит
- RealGraph — сила связей
- TweepCred — скоринг доверия
- Trust & Safety сигналы
3️⃣ Candidate Sourcing (Home Mixer):
Разные миксеры (CR Mixer, UTEG, FRS) вытягивают твиты из разных пулов → больше разнообразия.
4️⃣ Heavy Ranker (ML-модель):
Нейросеть предсказывает, что вам зайдёт: лайки, ретвиты, ответы, время чтения.
5️⃣ Фильтры и эвристики:
- социальное доказательство
- разнообразие авторов
- блок спама/NSFW/мутов
- баланс контента
- защита от «замыливания»
6️⃣ Микс:
Рекламные твиты + рекомендации «кого фолловить» → в ленту.
7️⃣ Что это значит для вас:
- выбери нишу
- пиши ценные посты
- отвечай по делу в своей теме
→ вырастишь аудиторию и найдёшь людей/идеи для бизнеса.
https://github.com/twitter/the-algorithm
#Twitter #ForYou #AI #RecommenderSystems
🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Генерим безумные мюзиклы из чего угодно — Sora 2 теперь и в этом мастер.
🎭 Промт:
@bigdatai
🎭 Промт:
[Warhammer 40K], но в стиле бродвейского мюзикла — герои поют на сцене, яркий свет, театральные костюмы, всё на русском языке.
@bigdatai
❤5👍2🔥1