tgoop.com/AGI_and_RL/797
Create:
Last Update:
Last Update:
Прямо сейчас происходит хайп MCTS (теперь с ллмами)
В RLе у нас MCTS используется в куче *Zero алгоритмов и там он на некоторых играх показывает оверхуман (EfficientZero насколько я понимаю самый работоспособный и быстрее всех учится из зерошек), ну надо и к ллмам его тогда добавить. Они итак "умные", мб это их еще забустит. Ну вроде да.
И вот код к статье где цель делать LLMы (агентов) с MCTS
Tree Search for Language Model Agents
https://jykoh.com/search-agents
https://github.com/kohjingyu/search-agents
Вроде должно работать с ГПТшками и ллама3 (с инференсом на vllm) но я сам не проверял
BY Агенты ИИ | AGI_and_RL
Share with your friend now:
tgoop.com/AGI_and_RL/797