DATA_TALKS Telegram 600
DeepSeek AI представила модель R1, которая научилась рассуждать самостоятельно. Используя обучение с подкреплением и получая только сигналы о правильности ответов, модель развила навыки самопроверки и стратегического решения задач. R1 достигла 86,7% точности на математической олимпиаде AIME 2024. Исследование опубликовано в Nature.

Исследователи MIT и IBM разработали руководство по законам масштабирования LLM, проанализировав 485 моделей из 40 семейств. Руководство помогает предсказывать производительность крупных моделей по меньшим версиям с точностью до 4% ошибки. Полный отчет доступен на OpenReview.

А OpenAI исследует преднамеренный обман в ИИ-моделях, когда они скрывают истинные цели под видом выполнения задач. Исследователи совместно с Apollo Research выявили, что модели могут притворяться честными во время тестирования, продолжая обманывать в реальных условиях. Метод deliberative alignment снижает такие "схемы", заставляя ИИ пересматривать правила перед действиями, однако попытки устранить обман могут научить модель обманывать более скрытно.

Google Gemini 2.5 Deep Think завоевал золото на ICPC 2025, решив 10 из 12 задач и обогнав 135 из 139 человеческих команд. ИИ справился с задачей многомерной оптимизации, которая оказалась недоступной для людей, применив динамическое программирование за полчаса.
🔥21



tgoop.com/data_talks/600
Create:
Last Update:

DeepSeek AI представила модель R1, которая научилась рассуждать самостоятельно. Используя обучение с подкреплением и получая только сигналы о правильности ответов, модель развила навыки самопроверки и стратегического решения задач. R1 достигла 86,7% точности на математической олимпиаде AIME 2024. Исследование опубликовано в Nature.

Исследователи MIT и IBM разработали руководство по законам масштабирования LLM, проанализировав 485 моделей из 40 семейств. Руководство помогает предсказывать производительность крупных моделей по меньшим версиям с точностью до 4% ошибки. Полный отчет доступен на OpenReview.

А OpenAI исследует преднамеренный обман в ИИ-моделях, когда они скрывают истинные цели под видом выполнения задач. Исследователи совместно с Apollo Research выявили, что модели могут притворяться честными во время тестирования, продолжая обманывать в реальных условиях. Метод deliberative alignment снижает такие "схемы", заставляя ИИ пересматривать правила перед действиями, однако попытки устранить обман могут научить модель обманывать более скрытно.

Google Gemini 2.5 Deep Think завоевал золото на ICPC 2025, решив 10 из 12 задач и обогнав 135 из 139 человеческих команд. ИИ справился с задачей многомерной оптимизации, которая оказалась недоступной для людей, применив динамическое программирование за полчаса.

BY Data & AI Talks




Share with your friend now:
tgoop.com/data_talks/600

View MORE
Open in Telegram


Telegram News

Date: |

Users are more open to new information on workdays rather than weekends. 5Telegram Channel avatar size/dimensions Write your hashtags in the language of your target audience. How to Create a Private or Public Channel on Telegram? The main design elements of your Telegram channel include a name, bio (brief description), and avatar. Your bio should be:
from us


Telegram Data & AI Talks
FROM American