tgoop.com/levels_of_abstraction/94
Last Update:
нейрон Дженнифер Энистон
есть такая каноническая статья из нейронауки (nature, pdf), где на группе людей с эпилепсией провели эксперимент. их лечение предполагало внедрение электродов для стимуляции в эпилептический очаг мозга (у каждого свой). но помимо стимуляции, сигнал можно было записывать и в обратном направлении, поскольку возбуждение нейронов — суть электрический импульс. так родился эксперимент, в котором людям показывали изображения людей, животных и мест, параллельно записывая активность
и так получилось, что первой из 100 фотографий, на которую нейрон возбудился, стал снимок Дженнифер Энистон. далее в выборку добавили больше её фотографий и ситуация в точности повторилась — ни одного false positive и всего 1 false negative, причем на фотографию, где она вместе с Бредом Питтом. этот факт попал в заголовки пресс-релизов, а затем стал мемом, который до сих пор в ходу
эксперимент подтвердил гипотезу узкой специализации нейронов — в некотором смысле этот случайно выбранный из миллиардов (!) соседей, отвечал за "концепцию Дженнифер Энистон" в голове этого конкретного человека. далее выяснилось, что он отвечает даже не за неё одну, а за всех женских персонажей из сериала "Друзья" (эту часть помню как байку, ссылку не нашел). но я надеюсь, что у вас и так не было сомнений о масштабе влияния "Друзей" на человеческую историю
большую часть 20-го века, единственным способом заглянуть человеку в мозг, был анализ его поведения (бихевиеристика). дальше случилась когнитивная революция и переход к когнитивным нейронаукам (Хомски также говорил, что это переход от эмпиризма к рационализму). с тех пор ученые провели тысячи экспериментов с похожей схемой, а корреляции активности нейронов с воспринимаемыми образами стала стандартным способом заглянуть внутрь сознания. но поскольку идею намеренно вставлять людям в голову электроды не пропустит ни один комитет по научной этике, для каждого эксперимента приходится ждать людей с "удачными" травмами или отклонениями влияющими на определенные области мозга. МРТ и прочие неинвазивные методы все еще далеки от разрешения отдельных нейронов
ИИ проживает свою когнитивную революцию. если на ранних стадиях нам была доступна в основном бихевиеристика (меняем inputs, следим за outputs — по сути промпт-инжиниринг), то сейчас адаптируются все инструменты когнитивных нейронаук (mechanistic interpretability). а поскольку нейроны моделей с открытыми весами доступны любому кто дружит с линейной алгеброй (не мне), каждый студент с видеокартой может проводить десятки экспериментов в день, что радикально ускоряет развитие всей области. а внутри Anthropic этим занимается целый департамент ИИ-рисерчеров с зп 300кк/с, которые не сидят сложа руки:
1) они нашли в LLM Claude нейрон моста Golden Gate (mapping the mind of LLM), подавление которого заставляла модель про него забыть, а активация приводила к такому:
when asked "what is your physical form?", Claude’s usual kind of answer – "I have no physical form, I am an AI model" – changed to something much odder: "I am the Golden Gate Bridge… my physical form is the iconic bridge itself…"
2) а совсем недавно выпустили новую работу (tracing thoughts of LLM) о том, что происходит в мозгах у модели, когда она переключается между языками, оnвечает рифмой или рассуждает (reasoning) о тех или иных явлениях (о которых порой не имеет никакого представления). советую прочитать пресс-релиз целиком!
возможно они препарировали принципиально новую форму интеллекта, возможно, упрощенную модель интеллекта биологического, а может быть всего лишь структуру человеческого языка. но так или иначе, изначально вдохновившись нейронауками, AI и mechanistic interpretability уже и сам влияет на исследования человеческого мозга. и будет очень здорово, если это поможет нам лучше понять, как думаем мы сами
#AI #neuro
BY уровни абстракции

Share with your friend now:
tgoop.com/levels_of_abstraction/94