This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Ну что, еще одна ночь впереди и я закончил интеграцию генерации img2video на базе Runway в своего бота, очень скоро сделаю крупный анонс этого инструмента и сейчас я уже вижу как это превращается в end2end решение и объясню чем же я решил отличится от других сервисов
1) Люди не знают и не умеют писать промпты даже для миджорни или FLUX это я решил локальной LLM которая за вас переводит и додумывает промпт
2) На промптах и лорах я поднял генерацию логотипов тут были сложности но кажется я добился стабильного результат
3) Генерация видео это вообще закрытый ящик сейчас но я собрал лучший подход и обучаю пользователя генерировать видео в планах прикрутить Vision модель что бы она предлагала топ 3 варианта анимации от вашей задачи
Напишите в комментариях как бы вы использовали такой инструмент?
1) Люди не знают и не умеют писать промпты даже для миджорни или FLUX это я решил локальной LLM которая за вас переводит и додумывает промпт
2) На промптах и лорах я поднял генерацию логотипов тут были сложности но кажется я добился стабильного результат
3) Генерация видео это вообще закрытый ящик сейчас но я собрал лучший подход и обучаю пользователя генерировать видео в планах прикрутить Vision модель что бы она предлагала топ 3 варианта анимации от вашей задачи
Напишите в комментариях как бы вы использовали такой инструмент?
Перечитал много гайдов по промптингу Runway, и да что бы добиться желаемого пришлось сжечь 30 генераций, промпт совершенно отличается от генераций картинок, есть идея сделать отличный репромптинг на базе llama, главное загрузить обширный in context learning, пишем что-то на простом, человеческом, LLM перепишет и переведёт под язык Runway
Forwarded from FastPixel
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Мне конечно нечего тут сказать за репертура но ремикс Агутина и стиль подобный Миадзаки делает такие вещи приятными к просмотру
FLUX + Runaway внутри моего бота 4 генерации картинки и 4 генерации видео(с первого раза) склейка в CapCut за 2 минуты
FLUX + Runaway внутри моего бота 4 генерации картинки и 4 генерации видео(с первого раза) склейка в CapCut за 2 минуты
Хочу поделиться с вами интересным эссе от Дарио Амодеи, CEO Anthropic, о потенциальном влиянии Powerful AI на мир:
"Machines of Loving Grace: How AI Could Transform the World for the Better"
Амодеи рассматривает, как Powerful AI может изменить различные сферы жизни в ближайшие 5-10 лет после его создания:
• Здравоохранение и биология
• Нейронаука и психическое здоровье
• Экономическое развитие
• Управление и демократия
• Смысл жизни в эпоху AI
Интересно, что автор отходит от термина AGI в пользу "Powerful AI", что отражает уход от хайпа в прагматичный взгляд на развитие технологий LLM
Рекомендую к прочтению всем, кто интересуется будущим AI и его влиянием на общество и еще написано достаточно круто и легко читается.
https://darioamodei.com/machines-of-loving-grace
"Machines of Loving Grace: How AI Could Transform the World for the Better"
Амодеи рассматривает, как Powerful AI может изменить различные сферы жизни в ближайшие 5-10 лет после его создания:
• Здравоохранение и биология
• Нейронаука и психическое здоровье
• Экономическое развитие
• Управление и демократия
• Смысл жизни в эпоху AI
Интересно, что автор отходит от термина AGI в пользу "Powerful AI", что отражает уход от хайпа в прагматичный взгляд на развитие технологий LLM
Рекомендую к прочтению всем, кто интересуется будущим AI и его влиянием на общество и еще написано достаточно круто и легко читается.
https://darioamodei.com/machines-of-loving-grace
Darioamodei
Dario Amodei — Machines of Loving Grace
How AI Could Transform the World for the Better
Media is too big
VIEW IN TELEGRAM
Мы с вами живём в очень интересное время!
С первого раза поймали!
С первого раза поймали!
Neural Deep
Всем привет! Что-то я давно не писал лонгридов, а только пересылал посты из моего наблюдения. И накопилось порядком много тем которые я прорабатывал последний месяц, вот пришел спросить у вас, что вам было бы интересно почитать. Проголосовать можно в комментариях…
Всем привет!
Как обещал, раскрываю 5 пункт! 🚀
Создание мультиагентной системы на базе Llama 3.1-8b: Интеллектуальный супервизор задач
Ключевые особенности на мой взгляд
Использование vLLM
Применение lm-format-enforcer для структурированного вывода
Многопоточная обработка на NVIDIA RTX 4090 в 10 потоков
📊 Архитектура системы:
Супервизор (на базе Llama 3.1 8b)
RAG Agent разработки NDT (для работы с базой знаний)
SQL Agent (для запросов к БД)
ResponseGenerator Agent (для генерации ответов)
🤔 Почему lm-format-enforcer, а не function calling?
Я попробовал lm-format-enforcer, и мне понравилось, как я могу контролировать детерминированность структурированного вывода, что критично для сложных многоагентных систем.
Как это работает?
Внутри кода запуска модели происходит фильтрация путем создания маски разрешенных токенов на основе текущего состояния парсера и применения этой маски к выходным логитам языковой модели, обнуляя вероятности недопустимых токенов перед выбором следующего токена.
📝 Пример схемы для запроса:
Эта схема определяет структуру ответа модели, гарантируя, что она выберет подходящего агента и сформулирует задачу в нужном формате.
Пример использования lm-format-enforcer:
Запрос:
Ответ от модели:
Модель в режиме агента смогла правильно классифицировать агента и далее запуститься пайплан работы SQL агента который сгенерирует SQL запрос
и вернет данные в responce generator
Преимущества подхода:
Точный контроль над форматом вывода
Снижение вероятности галлюцинаций
Улучшенная интеграция между агентами
Масштабируемость на сложные сценарии
Что дальше?
- Усложнение агентской сети
- Работа над сборкой датасета для агентов
- Дальнейшая оптимизация производительности
Как обещал, раскрываю 5 пункт! 🚀
Создание мультиагентной системы на базе Llama 3.1-8b: Интеллектуальный супервизор задач
Ключевые особенности на мой взгляд
Использование vLLM
Применение lm-format-enforcer для структурированного вывода
Многопоточная обработка на NVIDIA RTX 4090 в 10 потоков
📊 Архитектура системы:
Супервизор (на базе Llama 3.1 8b)
RAG Agent разработки NDT (для работы с базой знаний)
SQL Agent (для запросов к БД)
ResponseGenerator Agent (для генерации ответов)
🤔 Почему lm-format-enforcer, а не function calling?
Я попробовал lm-format-enforcer, и мне понравилось, как я могу контролировать детерминированность структурированного вывода, что критично для сложных многоагентных систем.
Как это работает?
Внутри кода запуска модели происходит фильтрация путем создания маски разрешенных токенов на основе текущего состояния парсера и применения этой маски к выходным логитам языковой модели, обнуляя вероятности недопустимых токенов перед выбором следующего токена.
📝 Пример схемы для запроса:
schema = {
"type": "object",
"properties": {
"agent": {"type": "string", "enum": ["RAG", "SQL", "ResponseGenerator"]},
"task": {
"type": "object",
"properties": {
"query": {"type": "string"},
"additional_info": {"type": "string"}
},
"required": ["query"]
}
},
"required": ["agent", "task"]
}
Эта схема определяет структуру ответа модели, гарантируя, что она выберет подходящего агента и сформулирует задачу в нужном формате.
Пример использования lm-format-enforcer:
request_data = {
"messages": messages,
"model": "llama-3.1-8b-instruct",
"max_tokens": 1000,
"temperature": 0.0,
"guided_json": json.dumps(schema),
"guided_decoding_backend": "lm-format-enforcer"
}
Запрос:
Когда была последняя продажа проекта компании 'Супервизор'?
Ответ от модели:
{
"task": {
"query": "Последняя продажа проекта компании 'Супервизор'"
},
"agent": "SQL"
}
Модель в режиме агента смогла правильно классифицировать агента и далее запуститься пайплан работы SQL агента который сгенерирует SQL запрос
SELECT * FROM sales WHERE company_name = 'Супервизор'
и вернет данные в responce generator
[
0:"2023-05-15"
1:"2023-08-22"
]
Преимущества подхода:
Точный контроль над форматом вывода
Снижение вероятности галлюцинаций
Улучшенная интеграция между агентами
Масштабируемость на сложные сценарии
Что дальше?
- Усложнение агентской сети
- Работа над сборкой датасета для агентов
- Дальнейшая оптимизация производительности
Forwarded from Denis Sexy IT 🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сергей Горюшко
Красивое с реддита:
https://www.reddit.com/r/LocalLLaMA/s/1HkJlDtZsF
Кастомный билд 4 4090, Threadripper Pro 7965WX, 256GB RAM, два БП (be quiet! Straight Power 12 Platinum 1500W , Cooler Master V SFX Platinum 1300W), водное охлаждение и несколько 360mm вентиляторов. Материнка Asus Pro WRX90E-SAGE SE.
https://www.reddit.com/r/LocalLLaMA/s/1HkJlDtZsF
Кастомный билд 4 4090, Threadripper Pro 7965WX, 256GB RAM, два БП (be quiet! Straight Power 12 Platinum 1500W , Cooler Master V SFX Platinum 1300W), водное охлаждение и несколько 360mm вентиляторов. Материнка Asus Pro WRX90E-SAGE SE.
А вот и контент от нас NDT!
За 15 лет работы red_mad_robot база знаний компании сильно масштабировалась. Появление новых артефактов и рост количества проектов усложнили актуализацию знаний для сотрудников. Времени на обновление данных часто не хватает, поиск материалов стал сложнее, а часть информации вообще канула в лету вместе с ушедшими сотрудниками. В итоге пересылка документов в чатах и многочисленные гугл-таблички стали самым простым, но не самым удобным и тем более безопасным вариантом.
За 15 лет работы red_mad_robot база знаний компании сильно масштабировалась. Появление новых артефактов и рост количества проектов усложнили актуализацию знаний для сотрудников. Времени на обновление данных часто не хватает, поиск материалов стал сложнее, а часть информации вообще канула в лету вместе с ушедшими сотрудниками. В итоге пересылка документов в чатах и многочисленные гугл-таблички стали самым простым, но не самым удобным и тем более безопасным вариантом.
Хабр
Как мы сделали базу знаний Smarty на основе RAG
За 15 лет работы red_mad_robot база знаний компании сильно масштабировалась. Появление новых артефактов и рост количества проектов усложнили актуализацию знаний для сотрудников. Времени...
Forwarded from Лёха ведет дневник
Please open Telegram to view this post
VIEW IN TELEGRAM
Мой личный батхерт к которому я пришел в течении года
2025 не за горами а зумеры из LLM заново изобрели RPA!
Помните обещания OpenAI про AGI к 2025 году? На пороге обещанной даты, а что мы видим?
Спойлер: зумеры с восторгом переизобретают RPA на базе LLM! 😅
Агент управления ПК от антропик в туже копилку
Что происходит на самом деле и что я вижу:
"Автоматизирую процессы с помощью GPT!" — по факту, обычный RPA
"Революционные AI-ассистенты" — классические таск-трекеры с NLP
"AI-агенты" — хайп-термин для скриптов автоматизации
Забавные наблюдения:
Цены на API упали в 25 раз — "уникальная" технология стала коммодити
Prompt-инженеры по сути пишут правила для классификаторов
"AI-стартапы" делают то, что Automation Anywhere умел 10 лет назад
В чем twist?
Вместо обещанного искусственного интеллекта получили новый способ писать условия для if-else, только теперь на естественном языке
Мораль истории?
Новое поколение просто переупаковало старые идеи в модную обёртку. Но может, это и неплохо? RPA стал доступнее, а космические обещания про AGI превратились в практичные инструменты автоматизации.
И кстати в следующем интенсиве я буду рассказывать про MAS и агентов (как собрать себе агента для рабочих задач)
2025 не за горами а зумеры из LLM заново изобрели RPA!
Помните обещания OpenAI про AGI к 2025 году? На пороге обещанной даты, а что мы видим?
Спойлер: зумеры с восторгом переизобретают RPA на базе LLM! 😅
Агент управления ПК от антропик в туже копилку
Что происходит на самом деле и что я вижу:
"Автоматизирую процессы с помощью GPT!" — по факту, обычный RPA
"Революционные AI-ассистенты" — классические таск-трекеры с NLP
"AI-агенты" — хайп-термин для скриптов автоматизации
Забавные наблюдения:
Цены на API упали в 25 раз — "уникальная" технология стала коммодити
Prompt-инженеры по сути пишут правила для классификаторов
"AI-стартапы" делают то, что Automation Anywhere умел 10 лет назад
В чем twist?
Вместо обещанного искусственного интеллекта получили новый способ писать условия для if-else, только теперь на естественном языке
Мораль истории?
Новое поколение просто переупаковало старые идеи в модную обёртку. Но может, это и неплохо? RPA стал доступнее, а космические обещания про AGI превратились в практичные инструменты автоматизации.
И кстати в следующем интенсиве я буду рассказывать про MAS и агентов (как собрать себе агента для рабочих задач)
Neural Deep
Всем привет! Как обещал, раскрываю 5 пункт! 🚀 Создание мультиагентной системы на базе Llama 3.1-8b: Интеллектуальный супервизор задач Ключевые особенности на мой взгляд Использование vLLM Применение lm-format-enforcer для структурированного вывода Многопоточная…
Понял что формат работы Супервизора был неполностью описан, дополнил модель данных и ответы от агентов
Кстати все больше агентов появляется в нашем арсенале если интересно узнать ставьте 🔥 расскажу про каждого агента
📝 Пример схемы для запроса:
Эта схема определяет структуру ответа модели, гарантируя, что она выберет подходящего агента и сформулирует задачу в нужном формате.
Пример использования lm-format-enforcer:
Запрос:
Ответ от модели:
Модель в режиме агента смогла правильно классифицировать агента и далее запуститься пайплан работы SQL агента который сгенерирует SQL запрос из неявного пользовательского запроса
Как? Ему передали модель данных таблиц и провели небольшой инконтекст лернинг
Теперь он умеет джоинть таблички если надо и шарит в каком месте доставать данные
и вернет данные в responce generator
P.S Это работает на моделях и меньше 8b и может быть встроено в ваш бизнес!
Кстати все больше агентов появляется в нашем арсенале если интересно узнать ставьте 🔥 расскажу про каждого агента
📝 Пример схемы для запроса:
schema = {
"type": "object",
"properties": {
"agent": {"type": "string", "enum": ["RAG", "SQL", "ResponseGenerator"]},
"task": {
"type": "object",
"properties": {
"query": {"type": "string"},
"additional_info": {"type": "string"}
},
"required": ["query"]
}
},
"required": ["agent", "task"]
}
Эта схема определяет структуру ответа модели, гарантируя, что она выберет подходящего агента и сформулирует задачу в нужном формате.
Пример использования lm-format-enforcer:
request_data = {
"messages": messages,
"model": "llama-3.1-8b-instruct",
"max_tokens": 1000,
"temperature": 0.0,
"guided_json": json.dumps(schema),
"guided_decoding_backend": "lm-format-enforcer"
}
Запрос:
Когда была последняя продажа проекта компании 'Супервизор'?
Ответ от модели:
{
"task": {
"query": "Последняя продажа проекта компании 'Супервизор'"
},
"agent": "SQL"
}
Модель в режиме агента смогла правильно классифицировать агента и далее запуститься пайплан работы SQL агента который сгенерирует SQL запрос из неявного пользовательского запроса
Как? Ему передали модель данных таблиц и провели небольшой инконтекст лернинг
Теперь он умеет джоинть таблички если надо и шарит в каком месте доставать данные
SELECT * FROM sales WHERE company_name = 'Супервизор'
и вернет данные в responce generator
[
0:"2023-05-15"
1:"2023-08-22"
]
P.S Это работает на моделях и меньше 8b и может быть встроено в ваш бизнес!
Всем привет! Хочу поделится репозиторием для валидации CV моделей.
https://github.com/MiXaiLL76/faster_coco_eval
Этот репозиторий в одиночку тащит мой друг @mixaill76 и не сдается.
Сейчас он остался единственным, кто в эту NLP поддерживает валидационные CV пайплайны и обновляет свои библиотеки.
Кроме того, он обошел все остальные библиотеки по скорости валидации.
В общем, прошу поддержать лайком и звездочкой на github!
А для тех, кто еще увлекается CV, вот вам простой код запуска этой либы:
install:
usage:
Сравнение по скорости работы прилагаю скрином:
https://github.com/MiXaiLL76/faster_coco_eval
Этот репозиторий в одиночку тащит мой друг @mixaill76 и не сдается.
Сейчас он остался единственным, кто в эту NLP поддерживает валидационные CV пайплайны и обновляет свои библиотеки.
Кроме того, он обошел все остальные библиотеки по скорости валидации.
В общем, прошу поддержать лайком и звездочкой на github!
А для тех, кто еще увлекается CV, вот вам простой код запуска этой либы:
install:
pip install faster-coco-eval
usage:
import faster_coco_eval
# Replace pycocotools with faster_coco_eval
faster_coco_eval.init_as_pycocotools()
from pycocotools.coco import COCO
from pycocotools.cocoeval import COCOeval
anno = COCO(str(anno_json)) # init annotations api
pred = anno.loadRes(str(pred_json)) # init predictions api (must pass string, not Path)
val = COCOeval(anno, pred, "bbox")
val.evaluate()
val.accumulate()
val.summarize()
Сравнение по скорости работы прилагаю скрином: