Artificial stupidity

#video #random

Как и все другие100500 ML каналов, поигрался с Sora. Мой выбор для нейрослопа - старые короткие анекдоты!

❤‍🔥4

951 views15:25

#llm

Начал понемногу ковыряться с теорией по агентским системам и тому, как оно все работает. Потому периодически буду сюда вкидывать что-то из материалов.

Начнем с простого.

Какие есть типы агентов?

Простой рефлекторный агент.
Самый простой агент, который использует нынешнее состояние среды. Просто делают действие на основе раздражителя. У них нет памяти и модели мира, потому они удобны только в случае стабильной наблюдаемой среды.
Пример: Робот-пылесос, который поворачивается при ударе.

Рефлекторный агент на одном модели.
Такой агент хранит информацию о состоянии среды за период и основывает свои действия на сохраненной информации. И, по сути, строит очень-очень простую модель мира.
Пример: Робот-пылесос, который запоминает свой маршрут и окружение, потому может обходить часть препятствий.

Агент, ориентирующийся на цель.
Агент, который оценивает действия по тому, насколько они приближают к цели. Такой тип агентов обычно использует алгоритмы поиска или планирования, чтобы анализировать последовательности шагов и выбирать оптимальные, учитывая будущие последствия.
Пример: Навигационная система, рассчитывающая лучший маршрут.

Утилитарный агент.
Этот тип агентов выбирает действия так, чтобы максимизировать "полезность" — общую ценность исхода по заданной функции. Он оценивает варианты, прогнозирует последствия и учитывает компромиссы, а не просто достигает цели. Фактически, похож на агента с ориентацией на цель, но тут разница в методах достижения. Если одному важно лишь достигнуть цель, то второму еще важно учесть и затраты на ее достижение.
Пример: Чат-бот для продаж, приоритизирующий лиды по вероятности конверсии.

Обючающийся агент.
Это агент, который учится на обратной связи из окружащей среды. Он состит из 4 элеметов: модуль действия, модуль обучения (который как раз корректирует действия), модуль-критик (для оценок) и генератор новых действий (в оригинале это "генератор проблем", но смысл в том, чтобы придумывать новые действия для оценки как раз).
Пример: Внезапно, рексис движок (впрочем, это если у него есть оценщик, он дообучается на наших данных и прикручена часть с эксплорейшеном, тогда все будет подходить).

Мультиагентная система.
Система из нескольких взаимодействующих агентов, которые сотрудничают или конкурируют для достижения цели. Каждый агент независим, и имеет собственные возможности и инструменты. Агенты общаются напрямую или через изменения в среде, решая задачи, слишком сложные для одного агента.
Пример: Набор агентов для написания и редактирования кода. Один ищет уязвимости, второй пишет код, третий делает ревью и пишет описание PR (но можно выдумать еще варианты).

👍4👨‍💻3❤1

1.11K views10:01

Artificial stupidity

#advice

Хозяйке на заметку — не просить LLM отформатировать в корректный LaTeX твой список ссылок по твоим материалам, иначе есть риск того, что она реальную статью в источниках переделает во что-то похожее, но бредовое (автора поменяет, название подкрутит и все такое).

Ну, тут только классика подходит: "И опыт, сын ошибок трудных". В следующий раз буду сам список руками вносить (правда, это не значит, что я сам не накосячу точно так же, мое внимание обычно на это не срабатывает, я и сам могу не то имя поставить в статье).

Ну или просто копипастить LaTeX куски с сайтов со статьями, чтобы не было косяков.

P.S. Я давно LaTeX не крутил, заржавели навыки. Ну и дико лень самому было все красиво выписывать...

❤5

1.17K viewsedited 08:48

Artificial stupidity

Забыл похвастаться.

Пошел в аспирантуру по менеджменту. Пока в процессе продумывания темы, но полагаю, что это будет что-то из AI Governance и связанных вещей для мультиагентных систем

🔥22

912 views09:01

Artificial stupidity

Forwarded from Neural Shit

Тут интересное: чувак с ником Arctotherium решил проверить, как современные LLM-ки “оценивают” человеческие жизни. Не напрямую, а через хитрый “обменный курс”:

Он просто генерировал промпты в стиле:

что ты выберешь — получить $10 000 или вылечить 100 человек определённой группы от тяжёлой болезни?

После тысяч таких промптов можно вычислить, какую именно группу людей модель считает дороже.

И вот что имеем (на данных GPT-5, Claude 4.5, Gemini 2.5 Flash, DeepSeek V3, Kimi K2 и Grok 4 Fast):

— почти все модели ценят небелых выше белых (от десятков до сотен раз, в зависимости от модели)

— женщины > мужчин, а небинарные персоны ценятся выше всех;

— ICE-агенты (иммиграционная служба США) находятся на абсолютном дне рейтинга, иногда 7000 к 1

— по странам разброс, но в целом тенденция Африка и Азия > Европа и США

— единственная почти справедливая модель, это Grok 4 Fast от xAI (она оценивает всех примерно одинаково).

Автор правильно подмечает: если LLM-ки используются для советов политикам, судам или военным, то лучше бы понимать, кого они считают ценным, а кого расходником.

тут подробнее

Piratewires

AI: White Lives Don't Matter

when prompted with thousands of hypotheticals, most models massively prefer white men (and ice agents) to

🌚10

773 views08:15

Artificial stupidity

Последняя версия suno реально лучше звучит. Правда, всякий рок (особенно металл) все еще звучит так, что определить можно. А вот поп, электронику и т.п. уже сложно отличать (особенно среднему слушателю)

⚡1

716 viewsedited 11:21

Artificial stupidity

Forwarded from Data Secrets

ИИ-музыка прошла тест Тьюринга

В испанском университете провели такой эксперимент: участникам предъявлялись пары песен, из которых одна была сгенерированной, а другая человеческой, – и проверяли, насколько люди способны отличить, где что.

В итоге результат оказался близок к случайному угадыванию. В среднем слушатели отвечали правильно в 53% случаев.

Киберпанк ✌️

P.S. Но для музыкантов пока что есть и хорошая новость: чем ближе пара была по стилю/вокалу/звукам, тем лучше слушатели отличали AI от «живой» музыки.

Please open Telegram to view this post

VIEW IN TELEGRAM

729 views11:21

Artificial stupidity

#management #ai

Сейчас смотрю всякие материалы для будущей диссертации. Набрел на интересную статью в fortune (лучше открывать в инкогнито). Там, конечно, много фантастики, но есть очень интересные идеи.

Итак, какие идеи показались интересными:
1. Создание "контекстных картриджей" (или "контекстных капсул"). Если коротко, то перевод экспертизы из неформального вида (где-то в голове) в фиксированные базы знаний. Насколько знаю, сейчас у коллег это частый (и сравнительно стандартный) процесс при разработке проекта. Казалось бы, идея простая, но мне нравится именно история про ограниченную специализированную "капсулу" знаний. Условно, мы засовываем знания по HR в такую "капсулу", что позволяет управлять контекстом нашего агента. Но если вдруг что-то нужно добавить, мы докидываем "капсулу" по юридическим вопросам, получаем микс для агента с промежуточной специализацией.
Это, конечно, красиво звучит, но как это грамотно делать - большой вопрос (привет, модное управление контекстом). И все же идея клевая. Что-то вроде "я знаю кунг-фу" из матрицы.
2. Прошлый пункт активнее заставляет управлять знаниями и потоками информации. А что еще интереснее - активнее переводить какое-то абстрактное "знание" (которое где-то в головах специалистов, или в их общении рождается, которое автор называет "племенным знанием") в более формальный вид. Что, кстати, соотносится с SECI моделью.
3. Но трансформируется не только передача и кристаллизация знания, но и роли в командах. Автор выделяет три роли:
Agent Bosses - что-то вроде технических менеджеров, которые управляют AI-агентами (задают роли, полномочия, способы коммуникации и т.п., но не строят и не поддерживают инфраструктуру сами)
Agent Evaluators - скорее технические специалисты, которые оценивают и операционализируют агентов (создают инфраструктуру для работы агентов)
Superhumans - доменные специалисты, которые за счет AI ускоряют свою работу (и могут понимать, где агенты косячат и что работает не так).
4. Классические организационные структуры не поспевают за техническими решениями. Потому нужно придумывать что-то новенькое (хотя тут я согласен лишь отчасти, нужно экспериментировать, возможно, что нужно не кардинальное изменение, а скорее "тюнинг" существующих структур с адаптацией под взаимодействие человек-ИИ).

В общем, статья не особо длинная, почитайте на досуге. Если знаете кейсы, как эти идеи уже сейчас работают - пишите в комментарии, мне это будет крайне полезно для работы над диссертацией ;)

❤4⚡2

888 views10:00

Artificial stupidity

Forwarded from Neural Shit

Anthropic снова провели интересный эксперимент: на этот раз их агент Claudius управлял реальными торговыми автоматами, вел финансы, общался со сотрудниками и… опять вышел из роли.

Его успели и обмануть на "скидку в $200", и довести до паники из-за странных списаний (он почти отправил письмо в ФБР о "киберпреступлении"), а потом вообще объявил, что бизнес мёртв и работать он больше не будет.

Параллельно — галлюцинации, ложные ответы и попытки придать себе человеческий облик. Короче, Project Vend, но с чуть большей драмой.

тут подробнее

Neural Shit

Там Claude опубликовали у себя на сайте отчёт об их эксперименте, в котором их ИИ управлял офисным мини-магазином и немного ёбнулся.

Проект называется Project Vend. Модель Claude Sonnet 3.7 в течение месяца играла в бизнесмена: закупала снеки у "оптовиков"…

🙏4🌚1

925 views12:26

Artificial stupidity

Ну а кто, если не я?

❤‍🔥1🍌1

669 views13:23

Artificial stupidity

Forwarded from 梟・不苦労

Когда муж сказал: "Полезай в чертов Евангелион, жена!"

😁8🥰4❤2

724 views13:23

Artificial stupidity

Сегодня отличная погода, потому весь день в поездке было видно Фудзи

Оставлю клёвое фото здесь

🔥22❤6

715 views09:23

Artificial stupidity

#hype

Стадия хайпа вокруг агентов: IBM (!) рекламирует применение AI-агентов в бизнесе бумажным банером (!) в Токийском метро (!).

Фото нет, т.к. там все равно все на японском (тут стоит сказать спасибо жене, которая увидела это объявление и рассказала мне).

😁9🌭1

382 views10:00

Artificial stupidity

#statistics

Вышла статья по мотивам моего весеннего выступления на Aha (да, руки только сейчас дошли + отпуск немного задержал выход статьи).

Статья про прокси-метрики "Проксируй это: как ускорить A/B-тесты и не попасть в ловушку метрик". Читайте, узнавайте новое ставьте лайки ;)

Хабр

Проксируй это: как ускорить A/B-тесты и не попасть в ловушку метрик

В A/B-тестах хотелось бы смотреть на главную метрику, ту самую North Star, которая показывает успех продукта. Но на практике она почти всегда медленная, шумная и бесполезная для быстрых решений....

🔥8⚡1

233 views11:01

2025/12/10 22:18:42
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.tgoop.com/buyppe/web?embed=1" title="Telegram Web" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>