MACHINELEARNING_INTERVIEW Telegram 2200
🧠 MIT доказал: LLM могут логически рассуждать, если правильно их учить.

📄 Исследователи предложили метод PDDL-INSTRUCT. Он превращает обучение модели из «угадай ответ» в пошаговое решение задач с внешней проверкой.

Как это устроено:
1️⃣ На первом этапе модели показывают правильные и неправильные планы с объяснениями.
2️⃣ На втором этапе она сама прописывает рассуждения для каждого шага. После этого внешний инструмент (**VAL**) проверяет логику. Если ошибка - модель получает чёткое объяснение, что не так.

📊 Результаты:
- У Llama-3-8B точность выросла с 28% до 94% на задачах планирования.
- Подробная обратная связь работает намного лучше, чем простое «правильно/неправильно».

💡 Главное: модель не заменяет символический планировщик, а учится мыслить как он, сохраняя внешнюю проверку.

Такой подход можно применить к любым многошаговым задачам - от математики до программирования. Возможно, многие «невозможные» способности моделей скрыты внутри и ждут правильного метода обучения.

🟠Статья: https://arxiv.org/abs/2509.13351

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥339👍5😁3



tgoop.com/machinelearning_interview/2200
Create:
Last Update:

🧠 MIT доказал: LLM могут логически рассуждать, если правильно их учить.

📄 Исследователи предложили метод PDDL-INSTRUCT. Он превращает обучение модели из «угадай ответ» в пошаговое решение задач с внешней проверкой.

Как это устроено:
1️⃣ На первом этапе модели показывают правильные и неправильные планы с объяснениями.
2️⃣ На втором этапе она сама прописывает рассуждения для каждого шага. После этого внешний инструмент (**VAL**) проверяет логику. Если ошибка - модель получает чёткое объяснение, что не так.

📊 Результаты:
- У Llama-3-8B точность выросла с 28% до 94% на задачах планирования.
- Подробная обратная связь работает намного лучше, чем простое «правильно/неправильно».

💡 Главное: модель не заменяет символический планировщик, а учится мыслить как он, сохраняя внешнюю проверку.

Такой подход можно применить к любым многошаговым задачам - от математики до программирования. Возможно, многие «невозможные» способности моделей скрыты внутри и ждут правильного метода обучения.

🟠Статья: https://arxiv.org/abs/2509.13351

@machinelearning_interview

BY Machine learning Interview




Share with your friend now:
tgoop.com/machinelearning_interview/2200

View MORE
Open in Telegram


Telegram News

Date: |

Concise Just as the Bitcoin turmoil continues, crypto traders have taken to Telegram to voice their feelings. Crypto investors can reduce their anxiety about losses by joining the “Bear Market Screaming Therapy Group” on Telegram. In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. Add the logo from your device. Adjust the visible area of your image. Congratulations! Now your Telegram channel has a face Click “Save”.!
from us


Telegram Machine learning Interview
FROM American