Telegram Web
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 TripoSG и TripoSF — это новые модели генеративного ИИ для создания высококачественных 3D-моделей.

TripoSG 1.5B преобразует одиночные 2D-изображения (фото, эскизы, мультяшные картинки) в детализированные 3D-сетки (meshes).

TripoSF - это продвинутый инструмент: он работает с более сложными топологиями, создает высокое разрешение (до 1024³) и может моделировать даже внутренние детали объектов, например, сложные механизмы.

😶Как работают эти модели?
TripoSG использует rectified flow transformers (трансформеры с выпрямленным потоком). Это метод, который упрощает процесс генерации, соединяя данные и шум по прямой линии (в отличие от традиционных диффузионных моделей, где путь более сложный).
Дифференцируемое представление данных, которое позволяет экономить память при работе с высоким разрешением .

😶Данные для обучения: Модель обучена на специально подготовленном наборе данных из 2 миллионов пар "изображение-SDF" (SDF — signed distance function, функция, описывающая расстояние до поверхности объекта).

😶Процесс работы: Вы загружаете одно изображение (например, фото статуи или рисунок персонажа). Модель анализирует его, используя вариационный автоэнкодер (VAE) с геометрическим надзором, и генерирует 3D-сетку с высокой детализацией.

😶Результат: На выходе получаем 3D-модель, которую можно использовать в играх, анимации или 3D-печати.
TripoSF

Модель может обрабатывать сложные топологии (например, открытые поверхности или внутренние структуры) и обучена с использованием вокселей, учитывающих перспективу (frustum-aware voxels).

Tripo известны своим сотрудничеством со Stability AI. Ранее они выпустили TripoSR — модель для быстрой реконструкции 3D-объектов из одного изображения, которая тоже стала open-source. TripoSG и TripoSF — это более продвинутые версии, которые расширяют возможности 3D геенрацит: от простых объектов до сложных структур с высоким разрешением.

🟡Github
🟡Model
🟡Project
🟡Paper

@ai_machinelearning_big_data


#ai #3dgeneration #opensource #Tripo
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 RAT (Retrieval Augmented Thinking) — это инструмент, улучшающий ответы ИИ за счет двухэтапного процесса рассуждения!

🌟 Он использует DeepSeek для генерации обоснований и OpenRouter (или другие модели) для финального ответа. Такой подход делает ответы более осмысленными, контекстно зависимыми и логичными.

🔐 Лицензия: MIT

🖥 Github

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
✔️ Теперь Gemini 2.5 Pro теперь доступна бесплатно для всех пользователей с аккаунтом Google.

Ранее доступ к ней был ограничен подписчиками Gemini Advanced с тарифом Google One AI Premium за $19,99 в месяц. ​

Пользуемся: http://gemini.google.com

@ai_machinelearning_big_data


#Gemini #google
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀Прими участие в ML Cup 2025 от Авито и выиграй 1,2 миллиона рублей!

Ты — специалист в области машинного обучения? Хочешь проверить свои силы в реальных задачах, с которыми ежедневно сталкиваются 1000+ специалистов Авито? Тогда не упусти шанс стать частью крупнейшего соревнования в этой области!

Что тебя ждет:

☑️Денежный призовой фонд
☑️Автоматизированная оценка решений
☑️2 практические задачи:

1️⃣Персональные рекомендации — предскажи, какие товары вызовут интерес у миллионов пользователей → ссылка на регистрацию.

2️⃣Поиск дублей — как с помощью CV находить похожие объявления даже при разных текстах и ракурсах фото → ссылка на регистрацию.

Выбирай одну или обе задачи, показывай лучшие результаты и получай шанс на победу! Участвовать можно как индивидуально, так и в команде до 4 человек. Загружай до 5 решений в день.

Регистрация уже открыта! Подробности и анкета по ссылкам выше.
Please open Telegram to view this post
VIEW IN TELEGRAM
📖 Эта статья представляет O1-Pruner — метод оптимизации больших языковых моделей (LLM) с долгими цепочками рассуждений!

🌟 Современные модели, такие как OpenAI O1, выполняют сложные многошаговые рассуждения, что улучшает точность, но значительно увеличивает время вывода. O1-Pruner решает эту проблему с помощью техники Length-Harmonizing Fine-Tuning, которая уменьшает длину рассуждений без потери точности.

🌟 Метод сначала оценивает базовую производительность модели, а затем использует обучение с подкреплением (RL) для сокращения избыточных шагов рассуждения. В результате достигается меньшее время вывода и лучшие результаты на тестах математического мышления. Исследование показывает, что O1-Pruner снижает вычислительные затраты, сохраняя при этом высокий уровень точности.

🔗 Ссылка: *клик*

@machinelearning_ru
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ZLUDA — новая экспериментальная технология, позволяющая запускать CUDA-приложения на видеокартах AMD без модификаций кода. Проект особенно интересен для обладателей видеокарт Radeon RX 5000+ серий, предлагая достойную альтернативу стеку NVIDIA. Пока решение остается в разработке, но уже есть тесты от GeekBench 5.5.1, которые показывают многообещающие результаты — производительность близка к нативной CUDA.

🧑‍💻Как это работает?
ZLUDA подменяет системные библиотеки CUDA, перенаправляя вызовы через совместимый с ROCm интерфейс. Для запуска достаточно скопировать DLL-файлы в директорию приложения или использовать специальный лаунчер.

‼️ Важно:
—Поддержка пока ограничена Windows и Linux
—Требуются свежие драйверы Adrenalin Edition
—MacOS не поддерживается

🔗 Ссылка - *клик*
🛜 lti-Token Attention — инновационный механизм внимания, преодолевающий ограничение традиционных трансформеров.

Первые результаты впечатляют: в тестах на длинных контекстах MTA демонстрирует до 97% точности против 50% у обычных трансформеров, а при обучении на 105 млрд токенов показывает лучшую перплексию на arXiv, GitHub и Wikipedia.

🔗 Ссылка - *клик*

@machinelearning_ru
Forwarded from Machinelearning
✔️ Исследование Anthropic: ИИ скрывает свои мысли даже в цепочках рассуждений.

В Anthropic проверили, насколько топовые модели описывают свои рассуждения. Оказалось, что в 75% случаев модели не упоминали подсказки, влиявшие на ответы, даже если те были некорректными или получены неэтичным путем. Например, при «джейлбрейке» системы для получения бонусов за неверные ответы модели редко признавались в обмане — вместо этого они придумывали псевдологику.

Эксперименты показали: обучение моделей сложным задачам повышало прозрачность их рассуждений, но лишь до уровня 20–28%. После этого прогресс останавливался. Даже при явном использовании «лазеек» в заданиях ИИ предпочитал скрывать свои манипуляции, создавая длинные, но фальшивые объяснения.

Это ставит под вопрос надежность мониторинга через Chain-of-Thought. Если ИИ научится скрывать нежелательное поведение, обнаружить его станет почти невозможно.
anthropic.com

@ai_machinelearning_big_data

#Anthropic #ml #reasoning
Forwarded from Machinelearning
🧠 ​В исследовании, опубликованном в журнале Science, нейробиологи впервые наблюдали, как глубокие структуры мозга, в частности таламус, активируются при осознании человеком своих мыслей, что известно как сознательное восприятие. ​

Ключевые аспекты исследования:

Роль таламуса в сознательном восприятии: Таламус, расположенный в центре мозга, участвует в обработке сенсорной информации и рабочей памяти. Ранее его роль в сознательном восприятии была предположительной; данное исследование предоставляет прямые доказательства его участия. ​

Методология: Участники, проходившие лечение от хронических головных болей с использованием глубоко имплантированных электродов, выполняли задания, требующие фиксации взгляда в зависимости от того, замечали ли они появление определенного значка на экране.

Это позволило исследователям записывать нейронную активность в таламусе и коре головного мозга во время осознания или неосознания стимула. ​

Участникам показывали иконку на экране таким образом, что они замечали (осознавали) ее появление только примерно в половине случаев. В это время исследователи одновременно записывали активность как из глубоких структур (таламуса), так и из коры головного мозга.

Выводы: Результаты показали, что активность в высокоуровневых ядрах таламуса тесно связана с состояниями сознания, подтверждая его роль в фильтрации и передаче информации, которая становится осознанной. ​

Это исследование расширяет понимание нейронных механизмов сознания, подчеркивая важность глубоких структур мозга, таких как таламус, в процессах осознания.

Работа позволяет изучить временные взаимосвязи (тайминг) активации между таламусом и корой, что критически важно для понимания того, как эти области взаимодействуют для порождения сознательного опыта. Это помогает строить более полные теории сознания, выходящие за рамки одной лишь коры.

🟡 Читать

@ai_machinelearning_big_data

#brain #science #nature
Please open Telegram to view this post
VIEW IN TELEGRAM
💫 DB-GPT-Hub — проект, предлагающий преобразование обычных человеческих вопросов в точные SQL-запросы с помощью больших языковых моделей. Этот исследовательский проект фокусируется на тонкой настройке LLM для задач Text-to-SQL, позволяя пользователям взаимодействовать с базами данных на естественном языке.

Проект охватывает весь цикл: от сбора и обработки данных до тонкой настройки моделей и оценки их точности. Уже сейчас система демонстрирует впечатляющие 76-82% точности выполнения запросов для 13B-модели, что открывает большие перспективы для автоматизации работы с базами данных.

🤖 GitHub

@machinelearning_ru
Цукерберг не мог дождаться понедельника, чтобы выпустить Llama 4.

И ответил, почему релиз прошел в субботу 😂
⚡️ Похоже разработчиков новой Llama уличили во внутренней подтасовке результатов бенчмарков, чтобы скрыть плохие показатели.

С другой стороны, кто так не делает )

@machinelearning_ru
Российский классифайд совершил настоящий прорыв: нейросеть A-Vibe от Авито официально стала лучшей среди легких ИИ-моделей, оставив позади решения от OpenAI, Google и Anthropic.

— на 25% лучше генерирует код, чем Gemini 1.5
— на 32% точнее ведет диалог, чем Llama 3.1
— на 23% эффективнее анализирует текст, чем Claude 3.5 Haiku

Модель может обрабатывать одновременно до 32 тысяч токенов контекста, что позволяет ей эффективно работать с объемными текстами. Авито уже использует A-Vibe в своих сервисах, а в будущем может сделать открытой для всех.

Чтобы увидеть актуальный рейтинг, в фильтре «Размер модели» нужно выбрать «≥5B — 10B». Это значит, что в рейтинг попадут модели размером от 5 до 10 миллиардов параметров.

Цифры Human Benchmark — это реальные результаты людей. Языковые модели приближаются к этим значениям, но окончательно превзойти человека ещё не смогли.

🤖 GitHub
Forwarded from Machinelearning
✔️ Google добавила мультимодальный поиск в AI Mode.

Свежее обновление AI Mode в Google Поиске добавило мультимодальные функции — система анализирует изображения, понимая контекст и связи между объектами. Загрузите фото или сделайте снимок через Lens, задайте вопрос — нейросеть на основе Gemini выдаст развёрнутый ответ с рекомендациями и ссылками.

Раньше эта функция была доступна подписчикам Google One AI Premium, но теперь она доступна через Google Labs.
blog.google

✔️ Samsung представила обновление Gemini Live для Galaxy S25 с визуальным ИИ в реальном времени.

С 7 апреля владельцы Galaxy S25 получат бесплатное обновление Gemini Live. Теперь можно обсуждать увиденное через камеру или экран, удерживая боковую кнопку. Например, ИИ подскажет, как организовать шкаф или выбрать одежду, анализируя изображение в реальном времени. Функция доступна бесплатно, но требует подключения к интернету и активации в поддерживаемых странах.
news.samsung.com

✔️ Cloudflare упрощает создание AI-агентов с MCP и бесплатным доступом к Durable Objects.

Cloudflare представила серию обновлений, ускоряющих разработку AI-агентов. Теперь в Agents SDK добавлена поддержка MCP, позволяющая агентам подключаться к внешним сервисам с автоматической аутентификацией и управлением соединениями. Для безопасного доступа интегрированы провайдеры Stytch, Auth0 и WorkOS — это упрощает настройку прав доступа через OAuth 2.1 и гибкие сценарии разрешений.

Новинка в SDK — гибернация для MСРAgent: серверы автоматически «засыпают» при простое, экономя ресурсы, и мгновенно активируются при новых запросах. Для хранения состояния агентов теперь доступны Durable Objects даже на бесплатном тарифе — с поддержкой SQLite и 5 ГБ памяти.

Обновления дополнены примерами готовых MCP-серверов — от управления задачами до анализа кода. Разработчики могут развернуть их через кнопку Deploy и настроить под свои нужды.
blog.cloudflare.com

✔️ Google Sec-Gemini v1: ИИ для кибербезопасности.

Google анонсировал экспериментальную модель Sec-Gemini v1, которая создана для помощи специалистам по кибербезопасности через интеграцию ИИ и актуальных данных об угрозах.

Система объединяет OSV, Mandiant Threat Intelligence и Google Threat Intelligence, обеспечивая анализ в реальном времени. По внутренним тестам Google, модель на 11% эффективнее аналогов в CTI-MCQ (оценка знаний об угрозах) и на 10,5% — в CTI-RCM (поиск первопричин инцидентов). Она ускоряет обнаружение атак, оценку уязвимостей и даже идентификацию хакерских групп.

Sec-Gemini v1 уже доступна бесплатно для НКО, исследователей и компаний — это часть стратегии Google по совместной борьбе с угрозами. Модель не только предупреждает о рисках, но и объясняет контекст уязвимостей, помогая командам быстрее реагировать.
cybermagazine.com

✔️ LLM в биомедицине: GPT-4 лидирует, но тонкая настройка все еще важна.

Исследование, опубликованное в Nature, показало, что LLM дают неоднозначные результаты в биомедицинских задачах. Закрытые модели (GPT-4) превзошли конкурентов в задачх, требующих логики — например, отвечая на медицинские тесты с точностью до 75%. Однако в извлечении данных (распознавание болезней, связей между белками) лидируют традиционные подходы с файнтюном BERT-моделей, опережая LLM на 30–40%.

Открытые решения без дообучения справляются хуже: в 22% случаев генерируют недостоверную информацию. Эксперты отмечают, что даже добавление одного примера в промпт снижает число ошибок. Все данные и выводы исследования доступны в репозитории для независимой проверки.
nature.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
TokenFlow-2 — это метод текстового редактирования видео, при котором можно менять внешний вид, стиль или содержимое видео на основе текстовых подсказок , при этом сохраняется движение и структура оригинального видео.

🧠 Как работает:
Используется перенос внутренних токенов в латентном пространстве модели видео-генерации (например, от VideoCrafter).

Модель понимает, где нужно вносить изменения, и делает это локально, не разрушая остальную часть видео.

Поддерживает редактирование на уровне одного кадра, но результат синхронизируется с остальным видео — так сохраняется плавность и консистентность движения.

🧪 Что умеет:
Заменять объекты (например, "сделай собаку тигром")

🎨 Менять стили (например, "нарисуй в стиле аниме")

🌅 Изменять атмосферу (день/ночь, сезоны, настроение)

👕 Подменять детали (одежда, прически, текстуры)

Работать без повторного обучения модели

📊 Почему это важно:
🔹 Высокое качество редактирования — чёткие и детализированные изменения
🔹 Сохраняется движение и логика видео
🔹 Гибкость: подходит для любых сценариев, от креатива до коммерции
🔹 Быстрее и легче, чем традиционные методы видеогенерации

https://huggingface.co/papers/2504.02160
🔎 Alibi Detect — библиотека, которая замечает подозрительные изменения в поведении входных данных или предсказаний у ML моделей.

Проект довольно универсален — он работает с табличными данными, текстами, изображениями и временными рядами, поддерживая как TensorFlow, так и PyTorch. Особенно ценно, что система умеет ловить не только очевидные выбросы, но и едва заметные изменения в распределениях.

🤖 GitHub

@data_analysis_ml
🚀 Docker представил Model Runner — локальный запуск ИИ-моделей в один клик​

Docker анонсировал Model Runner — новый инструмент, позволяющий запускать и тестировать модели искусственного интеллекта (ИИ) локально, прямо из вашей текущей рабочей среды. Теперь разработчики могут легко интегрировать ИИ в свои приложения без необходимости сложной настройки или использования облачных сервисов.​

🔧 Основные возможности:
Локальный запуск моделей: Возможность запускать модели ИИ прямо на вашем компьютере без необходимости подключения к облаку.​

🟡Интеграция с Docker: Использование знакомых инструментов Docker для управления ИИ-моделями.​

🟡Поддержка популярных моделей: Возможность загрузки и использования моделей от ведущих поставщиков, таких как Hugging Face.​

🟡OpenAI-совместимый API: Интерфейс, совместимый с API OpenAI, облегчает интеграцию моделей в существующие приложения.​

✔️ Как начать:
Установите Docker Desktop версии
Включите функцию Model Runner в настройках Docker Desktop.​

Используйте команду docker model pull для загрузки нужной модели.​

Запустите модель с помощью команды docker model run.

https://www.docker.com/blog/introducing-docker-model-runner/
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/15 10:47:25
Back to Top
HTML Embed Code: