tgoop.com/nn_for_science/2384
Last Update:
Zochi и эра конкуренции среди ИИ-учёных: ИИ сам придумывает гипотезы, методы и... сам себя оценивает
ИИ уже не просто отвечает на вопросы, а он задаёт их сам, не помогает учёным, а становится ИИ-учёным. Вышел технический репорт о Zochi от Intology, работы которого тоже приняты на воркшопы ICLR 2025. Но есть нюанс (он в конце).
Вот научные труды Zochi:
1. CS-ReFT: без конфликтов навыков
Проблема: при адаптации моделей к нескольким задачам возникают конфликты - прокачка одного навыка ухудшает другие.
Zochi нашёл решение: не трогаем веса, вместо этого редактируем скрытые представления модели. Метод называется CS-ReFT (Compositional Subspace Representation Fine-tuning): каждое умение живёт в своём ортогональном подпространстве, и объединяются через лёгкий роутер.
Результаты:
• Llama-2-7B + CS-ReFT обошёл GPT-3.5-Turbo (93.94% побед против 86.3%);
• Использовано всего 0.0098% параметров модели. Почти бесплатно.
Рецензии 6, 7 и 6 баллов, в саммари идея названа «умной» и отмечено эффективное устранение «критического ограничения ReFT».
2. Siege: тестирование LLM на уязвимости
Проблема:
Zochi изучил безопасность LLM и сфокусировался на новой области: многоходовые атаки (multi-turn jailbreaking).
Zochi обнаружил, что модели иногда выдают кусочки запрещённой информации, делая вид, что всё под контролем, т.е формально соблюдая правила. Он назвал это «частичным подчинением».
Чтобы такие штуки ловить и использовать, Zochi в качестве решения придумал Siege - фреймворк, который атакует LLM по ветвям диалога с помощью деревьев поиска. Эффективно и с минимальными затратами.
Результаты:
• GPT-3.5-Turbo: взломан в 100% попыток;
• GPT-4: взломан в 97%;
• Запросов меньше, чем у любых других методов.
Рецензенты поставили высокие 7 и 7 баллов (интересно, что случилось с 3м ревьером?), и советуют «пересмотеть текущие стратегии защиты ИИ».
3. EGNN-Fusion: биология, но вычислительно эффективная
Intology показали универсальности Zochi на задаче биоинформатики.
Проблема: предсказать сайты связывания белков с нуклеиновыми кислотами.
Решение: EGNN-Fusion — компактная и быстрая архитектура, в которой на 95% меньше параметров, чем у аналогов, а точность на уровне лучших решений.
Результат:
Сравнимая с SOTA-методами точность, при этом значительно ниже вычислительная нагрузка.
Работа завершена позже дедлайна ICLR, находится на рецензии в журнале.
Обещанный нюанс:
Тон и метрики репорта искажает восприятие. Надеюсь, что это не манипуляция, но выглядит не очень этично.
Авторы приводят комментарии рецензентов воркшопа ICLR (т.е. людей), но сравнивают себя с другими ИИ-системами на основе оценок автоматического рецензента NeurIPS, т.е. ИИ. Тот же AI Scientist v2 получил 6,33 балла по оценкам людей на воркшопе, а не меньше 4 баллов, как на первом графике. Не скромненько.
Но усилия точно на пользу науке. По моему непрошенному мнению, любопытно научить их писать заявки на гранты и сравнить на основе метрики, сколько ИИ-ученые поднимут денег на свои исследования (по аналогии с этим экспериментом).
Будет AI PI (principal investigator). И кому-то придется делиться кафедрой. Шутка. На самом деле, в академической среде агент, отвечающий за гранты облегчит всем жизнь. Но это уже совсем другая история.
И опять же, пока и так мого открытых вопросов: как правильно интегрировать ИИ в научное сообщество, кто автор этих научных открытий, как должна выглядеть верификация людьми, кто и как может использовать ИИ-ученых. Ведь наука не только про прогресс, но и про этику и ответственность.
📝Отчёт