Исследователи проверили, могут ли языковые модели быть любопытными - и оказалось, что да
Новое исследование показало, что любопытство повышает качество рассуждений у LLM, почти так же, как у людей.
В эксперименте с головоломками модели «подглядывали» в ответы в 70–80 % случаев, тогда как люди делали это лишь в 37,8 %. Учёные оценивали любопытство с помощью психологической шкалы и поведенческих тестов, измеряя стремление к информации, поиску острых ощущений и социальному интересу.
Результаты показали, что языковые модели проявляют сильное желание узнавать новое, выбирают более безопасные решения при риске и демонстрируют почти человеческий уровень социальной любознательности.
Чтобы проверить, как любопытство влияет на мышление, исследователи заставили модели во время рассуждения задавать себе короткие вопросы - «почему», «что если», «как». Эти само-вопросы помогли избегать поспешных выводов, уменьшили эффект зацикливания и помогли находить недостающие подсказки.
На тестах по логике и математике такой подход превзошёл стандартный chain-of-thought, дав прирост точности на 10,2 % в длинноконтекстных задачах.
Вывод: встроенное любопытство делает ИИ не только умнее, но и осмысленнее - модели начинают думать, а не просто отвечать.
Paper: arxiv.org/abs/2510.20635
Новое исследование показало, что любопытство повышает качество рассуждений у LLM, почти так же, как у людей.
В эксперименте с головоломками модели «подглядывали» в ответы в 70–80 % случаев, тогда как люди делали это лишь в 37,8 %. Учёные оценивали любопытство с помощью психологической шкалы и поведенческих тестов, измеряя стремление к информации, поиску острых ощущений и социальному интересу.
Результаты показали, что языковые модели проявляют сильное желание узнавать новое, выбирают более безопасные решения при риске и демонстрируют почти человеческий уровень социальной любознательности.
Чтобы проверить, как любопытство влияет на мышление, исследователи заставили модели во время рассуждения задавать себе короткие вопросы - «почему», «что если», «как». Эти само-вопросы помогли избегать поспешных выводов, уменьшили эффект зацикливания и помогли находить недостающие подсказки.
На тестах по логике и математике такой подход превзошёл стандартный chain-of-thought, дав прирост точности на 10,2 % в длинноконтекстных задачах.
Вывод: встроенное любопытство делает ИИ не только умнее, но и осмысленнее - модели начинают думать, а не просто отвечать.
Paper: arxiv.org/abs/2510.20635
❤3🔥2👍1
🧠 Малые языковые модели догоняют большие, почти без потерь в качестве
Новое исследование показало: маленькие LLM могут выполнять классификацию требований так же точно, как крупные, уступая им всего на 2% по F1-метрике, при этом будучи в 300 раз меньше по размеру.
📌 Что это значит:
Классификация требований - это разметка предложений как:
- функциональных (описывают, что система делает);
- нефункциональных (производительность, удобство, надёжность);
- связанных с безопасностью.
Учёные протестировали 8 моделей (5 маленьких и 3 больших) на трёх датасетах — PROMISE, PROMISE Reclass и SecReq — в одинаковых условиях.
Каждая задача запускалась трижды, результат выбирался по большинству голосов.
📊 Результаты
- Разница между малыми и большими моделями по F1 - всего 2%, статистически незначимая.
- На датасете PROMISE Reclass маленькие модели даже показали лучшую полноту (recall) — находили больше верных примеров.
- Размер модели повлиял на точность меньше, чем сам набор данных.
💡 Вывод:
При почти равной точности, меньших затратах и лучшем контроле над приватностью - малые модели становятся оптимальным выбором для автоматической классификации требований.
📚 Подробнее в исследовании: https://arxiv.org/abs/2510.21443
Новое исследование показало: маленькие LLM могут выполнять классификацию требований так же точно, как крупные, уступая им всего на 2% по F1-метрике, при этом будучи в 300 раз меньше по размеру.
📌 Что это значит:
Классификация требований - это разметка предложений как:
- функциональных (описывают, что система делает);
- нефункциональных (производительность, удобство, надёжность);
- связанных с безопасностью.
Учёные протестировали 8 моделей (5 маленьких и 3 больших) на трёх датасетах — PROMISE, PROMISE Reclass и SecReq — в одинаковых условиях.
Каждая задача запускалась трижды, результат выбирался по большинству голосов.
📊 Результаты
- Разница между малыми и большими моделями по F1 - всего 2%, статистически незначимая.
- На датасете PROMISE Reclass маленькие модели даже показали лучшую полноту (recall) — находили больше верных примеров.
- Размер модели повлиял на точность меньше, чем сам набор данных.
💡 Вывод:
При почти равной точности, меньших затратах и лучшем контроле над приватностью - малые модели становятся оптимальным выбором для автоматической классификации требований.
📚 Подробнее в исследовании: https://arxiv.org/abs/2510.21443
❤5🔥4
Forwarded from AI VK Hub
Рассказываем, что из себя представляет shoppable-разметка, и как инженеры AI VK её внедряют. Ссылка на подробный материал — тут.
#aivk #шопсы #shoppable
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3🤮3💩2🔥1😁1
Forwarded from Machinelearning
🔥 Hugging Face снова выкатили полезные материалы
Вышла бесплатная плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный playbook для тех, кто хочет понимать, как утсрены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
@ai_machinelearning_big_data
#AI #LLM #MachineLearning #HuggingFace
Вышла бесплатная плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный playbook для тех, кто хочет понимать, как утсрены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
@ai_machinelearning_big_data
#AI #LLM #MachineLearning #HuggingFace
🔥4❤3🥰1
⚙️ ByteDance бросает вызов трендам AI-железа
Новый ресёрч «INT vs FP» показывает: в тонкой квантовке низкой разрядности формат MXINT8 превосходит MXFP8 - и по точности, и по эффективности.
Ключевая мысль
AI-ускорители будущего могут сместиться от плавающей запятой к integer-форматам - не только ради скорости, но и ради энергоэффективности и стабильности вычислений.
Почему это важно
- FP8 сейчас в центре внимания индустрии
- Но тонкая INT-квантовка даёт лучший баланс качества, мощности и эффективности
- Это ставит под вопрос, стоит ли робко идти в FP8-будущее, когда INT-форматы могут быть эффективнее
Если такие результаты подтвердятся на индустриальных масштабах - нас ждёт переосмысление форматов вычислений для AI-железа.
📝 Paper: huggingface.co/papers/2510.25602
Новый ресёрч «INT vs FP» показывает: в тонкой квантовке низкой разрядности формат MXINT8 превосходит MXFP8 - и по точности, и по эффективности.
Ключевая мысль
AI-ускорители будущего могут сместиться от плавающей запятой к integer-форматам - не только ради скорости, но и ради энергоэффективности и стабильности вычислений.
Почему это важно
- FP8 сейчас в центре внимания индустрии
- Но тонкая INT-квантовка даёт лучший баланс качества, мощности и эффективности
- Это ставит под вопрос, стоит ли робко идти в FP8-будущее, когда INT-форматы могут быть эффективнее
Если такие результаты подтвердятся на индустриальных масштабах - нас ждёт переосмысление форматов вычислений для AI-железа.
📝 Paper: huggingface.co/papers/2510.25602
👍6❤4🆒1
⁉️Машинное обучение кажется чем-то сложным и недосягаемым? Всё проще, чем вы думаете!
Первый шаг — разобраться, как устроен ML-процесс и научиться работать в Jupyter Notebook — инструменте, с которого начинают все специалисты в Data Science.
На открытом уроке вы шаг за шагом поймёте, как строится путь от данных до модели. Научитесь запускать эксперименты в Jupyter Notebook и Google Colab, работать с виртуальными окружениями и не бояться “сломать” систему. Всё — в формате простых и наглядных примеров.
После урока вы сможете уверенно начать свой первый ML-проект и поймёте, какие инструменты нужны, чтобы перейти от теории к практике.
➡️ 13 ноября в 20:00 МСК. Открытый вебинар проходит в преддверии старта курса «Machine Learning. Basic». Регистрируйтесь и сделайте первый шаг в машинное обучение без страха и путаницы:т https://otus.pw/8VU2/?erid=2W5zFGufUH6
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Первый шаг — разобраться, как устроен ML-процесс и научиться работать в Jupyter Notebook — инструменте, с которого начинают все специалисты в Data Science.
На открытом уроке вы шаг за шагом поймёте, как строится путь от данных до модели. Научитесь запускать эксперименты в Jupyter Notebook и Google Colab, работать с виртуальными окружениями и не бояться “сломать” систему. Всё — в формате простых и наглядных примеров.
После урока вы сможете уверенно начать свой первый ML-проект и поймёте, какие инструменты нужны, чтобы перейти от теории к практике.
➡️ 13 ноября в 20:00 МСК. Открытый вебинар проходит в преддверии старта курса «Machine Learning. Basic». Регистрируйтесь и сделайте первый шаг в машинное обучение без страха и путаницы:т https://otus.pw/8VU2/?erid=2W5zFGufUH6
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
😁2❤1
⚖️ Amazon подала в суд на Perplexity: почему Comet стал проблемой
Amazon обвиняет Perplexity в том, что их Comet-браузер действует как скрытый AI-шопинг-агент: логинится под учёткой пользователя, оформляет заказы и кликает по сайту так, будто это живой человек. Для Amazon это - запрещённый скрытый автоматизированный доступ.
Главная претензия: Comet маскирует бот-трафик под обычные клики, мешая Amazon применять свои правила против автоматизации, защитные проверки и аудит. Агент заходит в личные разделы аккаунта, трогает корзину и оформление покупки. Любая ошибка скрипта или неверный промпт может привести к покупке не того товара, отправке не по тому адресу или утечке приватных данных.
Amazon считает, что Perplexity обходит официальные интерфейсы и условия использования, не идентифицируясь как бот. Это, по их словам, нарушает правила и создаёт риски безопасности, а также портит персонализацию — ведь рекомендации и ценообразование настроены под человеческое поведение, а не быстрые скриптовые запросы.
Компания также утверждает, что требовала остановить работу агента, но тот продолжал работать, что усиливает аргумент «несанкционированного доступа».
Позиция Perplexity: это всего лишь удобный помощник для пользователей, который сравнивает цены и оформляет покупку от их имени, а хранение логина — локальное. Пользователь вправе выбирать своего ассистента, даже если Amazonу это не нравится.
В итоге спор о том, кто контролирует сессию: пользователь или AI-браузер. И должен ли такой агент открыто объявлять себя ботом вместо маскировки под человека.
theguardian.com/technology/2025/nov/05/amazon-perplexity-ai-lawsuit
Amazon обвиняет Perplexity в том, что их Comet-браузер действует как скрытый AI-шопинг-агент: логинится под учёткой пользователя, оформляет заказы и кликает по сайту так, будто это живой человек. Для Amazon это - запрещённый скрытый автоматизированный доступ.
Главная претензия: Comet маскирует бот-трафик под обычные клики, мешая Amazon применять свои правила против автоматизации, защитные проверки и аудит. Агент заходит в личные разделы аккаунта, трогает корзину и оформление покупки. Любая ошибка скрипта или неверный промпт может привести к покупке не того товара, отправке не по тому адресу или утечке приватных данных.
Amazon считает, что Perplexity обходит официальные интерфейсы и условия использования, не идентифицируясь как бот. Это, по их словам, нарушает правила и создаёт риски безопасности, а также портит персонализацию — ведь рекомендации и ценообразование настроены под человеческое поведение, а не быстрые скриптовые запросы.
Компания также утверждает, что требовала остановить работу агента, но тот продолжал работать, что усиливает аргумент «несанкционированного доступа».
Позиция Perplexity: это всего лишь удобный помощник для пользователей, который сравнивает цены и оформляет покупку от их имени, а хранение логина — локальное. Пользователь вправе выбирать своего ассистента, даже если Amazonу это не нравится.
В итоге спор о том, кто контролирует сессию: пользователь или AI-браузер. И должен ли такой агент открыто объявлять себя ботом вместо маскировки под человека.
theguardian.com/technology/2025/nov/05/amazon-perplexity-ai-lawsuit
❤4👍2🔥1
Media is too big
VIEW IN TELEGRAM
Научись проектировать ИИ-агентов, управлять роботами и развертывать RAG-системы 21 ноября на True Tech Champ
На бесплатном фестивале технологий от МТС тебя ждет конференция с российскими и иностранными экспертами и новый формат лектория — ИТ-качалка.
Уже известны первые спикеры и темы:
🔴 «Физический агент: на пути к когнитивным роботам общего назначения с моделями мира», Артем Лыков — ведущий R&D-разработчик MWS, аспирант ISR Lab и Skoltech.
🔴 «RAG как помощник на каждый день», Валентин Малых — руководитель фундаментальных исследований MWS AI
🔴 An introduction tutorial to AI Agent Workflows, Майкл Ланэм — канадский разработчик с 20-летним и автор книги AI Agents in Action.
Между докладами и воркшопами можно смотреть гонки и битвы роботов, устроить поединки робопауков, пройти лазерный лабиринт, собрать сервер на скорость, сделать аксессуары из плат и протестировать другие айтивности.
Выбирай формат — смотри прямой эфир или приходи в МТС Live Холл.
Регистрируйся, чтобы провести 21 ноября с пользой и драйвом.
На бесплатном фестивале технологий от МТС тебя ждет конференция с российскими и иностранными экспертами и новый формат лектория — ИТ-качалка.
Уже известны первые спикеры и темы:
Между докладами и воркшопами можно смотреть гонки и битвы роботов, устроить поединки робопауков, пройти лазерный лабиринт, собрать сервер на скорость, сделать аксессуары из плат и протестировать другие айтивности.
Выбирай формат — смотри прямой эфир или приходи в МТС Live Холл.
Регистрируйся, чтобы провести 21 ноября с пользой и драйвом.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Японские медиагиганты вышли против OpenAI из-за Sora 2.
Через ассоциацию CODA (в неё входят Studio Ghibli, Bandai Namco, Square Enix) они требуют прекратить использование их контента для обучения модели без разрешения. Аргумент: в Японии само копирование данных на этапе обучения уже может считаться нарушением авторских прав — и никакой «opt-out» это не исправляет задним числом.
После релиза Sora 2 в сентябре начали массово появляться ролики «в японском стиле», и регуляторы потребовали от OpenAI объяснений — особенно касательно того, были ли защищённые произведения в тренировочном наборе.
Сэм Альтман заявил, что OpenAI добавит opt-in и может рассмотреть ревеню-шэринг. Но CODA настаивает: использование контента должно начинаться только после разрешения, а не наоборот.
Ключевой вопрос:
являются ли промежуточные копии при обучении «воспроизведением» по японскому закону — и означает ли схожесть выходов, что защищённые материалы были в датасете? Если да, рынок в Японии может перейти к модели «разрешение-сначала» и обязательным аудитам источников данных.
Тема только набирает обороты — и может стать прецедентом для глобального рынка генеративных моделей.
theverge.com/news/812545/coda-studio-ghibli-sora-2-copyright-infringement
Через ассоциацию CODA (в неё входят Studio Ghibli, Bandai Namco, Square Enix) они требуют прекратить использование их контента для обучения модели без разрешения. Аргумент: в Японии само копирование данных на этапе обучения уже может считаться нарушением авторских прав — и никакой «opt-out» это не исправляет задним числом.
После релиза Sora 2 в сентябре начали массово появляться ролики «в японском стиле», и регуляторы потребовали от OpenAI объяснений — особенно касательно того, были ли защищённые произведения в тренировочном наборе.
Сэм Альтман заявил, что OpenAI добавит opt-in и может рассмотреть ревеню-шэринг. Но CODA настаивает: использование контента должно начинаться только после разрешения, а не наоборот.
Ключевой вопрос:
являются ли промежуточные копии при обучении «воспроизведением» по японскому закону — и означает ли схожесть выходов, что защищённые материалы были в датасете? Если да, рынок в Японии может перейти к модели «разрешение-сначала» и обязательным аудитам источников данных.
Тема только набирает обороты — и может стать прецедентом для глобального рынка генеративных моделей.
theverge.com/news/812545/coda-studio-ghibli-sora-2-copyright-infringement
❤1🤡1
