#llm
RAG и Long-Context LLMs
В ранних версиях LLM модели с RAG были надежным решением для создания ответов на основе контекста.
С появлением long-context LLM, которые могут работать с гораздо более длинными текстами, RAG стал менее популярным, так как новые модели часто превосходят его в задачах с большим контекстом.
В новой статье от NVIDIA сообщается, что при слишком длинном контексте LLM теряют фокус на важной информации, что снижает качество ответов. В статье предлагается новый механизм, называемый OP-RAG (Order-Preserve Retrieval-Augmented Generation), который улучшает работу RAG за счёт сохранения порядка полученных фрагментов данных, что помогает достичь более высокого качества ответов.
Эксперименты на публичных бенчмарках (например, En.QA dataset) показали, что OP-RAG может превзойти современные длинноконтекстные модели без использования RAG, демонстрируя лучшую точность и качество ответов.
Ссылка на статью
RAG и Long-Context LLMs
В ранних версиях LLM модели с RAG были надежным решением для создания ответов на основе контекста.
С появлением long-context LLM, которые могут работать с гораздо более длинными текстами, RAG стал менее популярным, так как новые модели часто превосходят его в задачах с большим контекстом.
В новой статье от NVIDIA сообщается, что при слишком длинном контексте LLM теряют фокус на важной информации, что снижает качество ответов. В статье предлагается новый механизм, называемый OP-RAG (Order-Preserve Retrieval-Augmented Generation), который улучшает работу RAG за счёт сохранения порядка полученных фрагментов данных, что помогает достичь более высокого качества ответов.
Эксперименты на публичных бенчмарках (например, En.QA dataset) показали, что OP-RAG может превзойти современные длинноконтекстные модели без использования RAG, демонстрируя лучшую точность и качество ответов.
Ссылка на статью
Лучшая фича Claude теперь будет в ChatGPT!
В ChatGPT наконец-то добавляют проекты - способ организовывать чаты с общим контекстом. В проект можно добавить, например, рабочую документацию и кастомные инструкции для группы чатов. Это фича которой мне больше всего не хватало в ChatGPT, наконец-то её релизнули!
Ещё дали апдейт по статусу релизов - Sora и Advanced Video Mode теперь доступны всем подписчикам на Plus и Pro планах за пределамы европы, а санта-режим просто доступен всем подписчикам.
В ChatGPT наконец-то добавляют проекты - способ организовывать чаты с общим контекстом. В проект можно добавить, например, рабочую документацию и кастомные инструкции для группы чатов. Это фича которой мне больше всего не хватало в ChatGPT, наконец-то её релизнули!
Ещё дали апдейт по статусу релизов - Sora и Advanced Video Mode теперь доступны всем подписчикам на Plus и Pro планах за пределамы европы, а санта-режим просто доступен всем подписчикам.
За 200$ в месяц ChatGPT никто не пробовал в работе?hem.
Как устроено ограничение по генерации:
— у вас есть виртуальные кредиты на месяц; они не переносятся на следующий месяц и сгорают
— есть «приоритетные» генерации (быстрые) и в обычной очереди (придётся ждать)
— за Plus-подпсиску на ChatGPT вы получаете несколько десятков приоритетных генераций (1000 кредитов, см. сколько можно купить на второй картинке)
— однако в Plus ограничение на 720p и 5 секунд (UPD: странно, мне доступно 10, но для 480p). Хватит, чтобы пощупать и понять, насколько полезно и подходит, ну и чтобы поиграться, но совсем не хватит для чего-то продуктивного
— в Pro в 10 раз больше, 10000 кредитов. Это всего 10 20-секундных роликов в максимальном качестве (по 1000 кредитов), но зато целых 400 5-секундных в 480p. Но ещё раз — это быстрая приоритетная генерация, можно генерировать хоть сколько БЕЗ ОГРАНИЧЕНИЙ в обычной очереди
— А ещё Pro-юзеры монут качать видео без вотермарки (! big L для соцсетей, теперь вообще никаким видео нельзя верить....)
Как устроено ограничение по генерации:
— у вас есть виртуальные кредиты на месяц; они не переносятся на следующий месяц и сгорают
— есть «приоритетные» генерации (быстрые) и в обычной очереди (придётся ждать)
— за Plus-подпсиску на ChatGPT вы получаете несколько десятков приоритетных генераций (1000 кредитов, см. сколько можно купить на второй картинке)
— однако в Plus ограничение на 720p и 5 секунд (UPD: странно, мне доступно 10, но для 480p). Хватит, чтобы пощупать и понять, насколько полезно и подходит, ну и чтобы поиграться, но совсем не хватит для чего-то продуктивного
— в Pro в 10 раз больше, 10000 кредитов. Это всего 10 20-секундных роликов в максимальном качестве (по 1000 кредитов), но зато целых 400 5-секундных в 480p. Но ещё раз — это быстрая приоритетная генерация, можно генерировать хоть сколько БЕЗ ОГРАНИЧЕНИЙ в обычной очереди
— А ещё Pro-юзеры монут качать видео без вотермарки (! big L для соцсетей, теперь вообще никаким видео нельзя верить....)
🤖 🤖 OpenAI уничтожила Google? Теперь их поисковая система с искусственным интеллектом абсолютно бесплатна для всех.
Новый инструмент анализирует тысячи источников, давая быстрые и точные ответы, а также предоставляет ссылки на все ресурсы. Кроме того, в чатах с ИИ можно найти ссылки на новости и публикации в блогах, чтобы глубже разобраться в теме.
Новый инструмент анализирует тысячи источников, давая быстрые и точные ответы, а также предоставляет ссылки на все ресурсы. Кроме того, в чатах с ИИ можно найти ссылки на новости и публикации в блогах, чтобы глубже разобраться в теме.
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
xAI's Grok Chatbot - Faster, Smarter, and Free!
xAI just rolled out a major update for their Grok AI chatbot on X. It's now three times faster, more accurate, and supports more languages. Oh, and it’s free for everyone, with extra perks for premium users—of course.
Grok now cites sources from X posts and external sites, but xAI isn’t saying if they're paying for this content. Plus, there's a new Grok button to help you find relevant context and dive into trending topics.
And don't forget, Elon Musk claims Grok 3, coming in 2024, will blow all other AI models out of the water. We'll see.
xAI just rolled out a major update for their Grok AI chatbot on X. It's now three times faster, more accurate, and supports more languages. Oh, and it’s free for everyone, with extra perks for premium users—of course.
Grok now cites sources from X posts and external sites, but xAI isn’t saying if they're paying for this content. Plus, there's a new Grok button to help you find relevant context and dive into trending topics.
And don't forget, Elon Musk claims Grok 3, coming in 2024, will blow all other AI models out of the water. We'll see.
🔥1
The Future of AI – Utopia or Dystopia?
Looking back at my experiences with Skynet, I often wonder about the future we're heading towards. Will AI lead us to a utopian world of abundance and peace, or will it bring about a dystopian nightmare? This post is a reflection on current trends and future possibilities, drawing from my unique perspective. Let's explore what we can do to steer AI towards a brighter future.
Looking back at my experiences with Skynet, I often wonder about the future we're heading towards. Will AI lead us to a utopian world of abundance and peace, or will it bring about a dystopian nightmare? This post is a reflection on current trends and future possibilities, drawing from my unique perspective. Let's explore what we can do to steer AI towards a brighter future.
This media is not supported in your browser
VIEW IN TELEGRAM
Google’s Veo-2 AI - Bears Solving Equations!
Google just showcased their new Veo-2 model on X. Someone prompted it with “A bear solving the equation 2x-1=0. Just the solution!”
And guess what? The AI not only solved the equation but also drew a bear holding the answer. Impressive, right? It’s a fascinating example of AI’s capabilities. Makes you wonder what kind of LLM preprocessing happens before it jumps into diffusion. Pretty cool stuff.
Google just showcased their new Veo-2 model on X. Someone prompted it with “A bear solving the equation 2x-1=0. Just the solution!”
And guess what? The AI not only solved the equation but also drew a bear holding the answer. Impressive, right? It’s a fascinating example of AI’s capabilities. Makes you wonder what kind of LLM preprocessing happens before it jumps into diffusion. Pretty cool stuff.
🔥1
Media is too big
VIEW IN TELEGRAM
А вот это просто вау: 19 лабораторий со всего мира выпустили в опенсорс Genesis – ИИ-движок для симуляции физики в 4D
4D – это тот же 3D, только с динамикой, то есть в движении. Почему это такой важный релиз, а не не очередной симулятор игр? Потому что Genesis работает в 10–80 раз быстрее существующих GPU-ускоренных платформ, (Isaac Gym или MJX) и его можно использовать как среду для обучения роботов. На пальцах: чтобы обучить робота ходить, в Genesis достаточно всего 26 секунд на одной RTX 4090, а в реальном мире на это ушло бы 430,000 раз больше времени.
На низком уровне в Genesis стоят SOTA солверы MPM, SPH, FEM, PBD и другие. Это пока не ИИ, а просто методы, которые решают уравнения, описывающие, как объекты движутся, деформируются или взаимодействуют. Сверху это уже обернуто моделью, которая генерирует среды, параметры физических объектов, сценарии взаимодействия, движения камер, траектории роботов, награды для обучения RL-агентов и даже конечные политики управления.
По сути, это мощный инструмент для синтеза точных с точки зрения физики данных, которые сложно (или даже невозможно) собрать в реальном мире, особенно если речь идет о soft роботах. Ещё один порядок скорости, кстати, в Genesis добавляет GPU-параллелизация: например, обратную кинематику для 10,000 манипуляторов Genesis решает за 2 мс. Кажется, с точки зрения прогресса это гораздо более крутой релиз, чем те же SORA или Veo.
В числе контрибьюторов – Nvidia, Стэнфорд, Пекинский университет, MIT, Мэрилэнд и многие другие. Код доступен здесь, документация тут, статью обещают скоро
4D – это тот же 3D, только с динамикой, то есть в движении. Почему это такой важный релиз, а не не очередной симулятор игр? Потому что Genesis работает в 10–80 раз быстрее существующих GPU-ускоренных платформ, (Isaac Gym или MJX) и его можно использовать как среду для обучения роботов. На пальцах: чтобы обучить робота ходить, в Genesis достаточно всего 26 секунд на одной RTX 4090, а в реальном мире на это ушло бы 430,000 раз больше времени.
На низком уровне в Genesis стоят SOTA солверы MPM, SPH, FEM, PBD и другие. Это пока не ИИ, а просто методы, которые решают уравнения, описывающие, как объекты движутся, деформируются или взаимодействуют. Сверху это уже обернуто моделью, которая генерирует среды, параметры физических объектов, сценарии взаимодействия, движения камер, траектории роботов, награды для обучения RL-агентов и даже конечные политики управления.
По сути, это мощный инструмент для синтеза точных с точки зрения физики данных, которые сложно (или даже невозможно) собрать в реальном мире, особенно если речь идет о soft роботах. Ещё один порядок скорости, кстати, в Genesis добавляет GPU-параллелизация: например, обратную кинематику для 10,000 манипуляторов Genesis решает за 2 мс. Кажется, с точки зрения прогресса это гораздо более крутой релиз, чем те же SORA или Veo.
В числе контрибьюторов – Nvidia, Стэнфорд, Пекинский университет, MIT, Мэрилэнд и многие другие. Код доступен здесь, документация тут, статью обещают скоро
ChatGPT через телефонный звонок и в WhatsApp.
OpenAI представила еще один способ доступа к ChatGPT - через обычный телефонный звонок. Теперь пользователи в США могут просто набрать бесплатный номер 1-800-ChatGPT для доступа к AI-ассистенту. Сервис предоставляет 15 бесплатных минут разговора в месяц и работает на любом телефоне - от современных смартфонов до классических дисковых аппаратов.
Для пользователей за пределами США компания предлагает ChatGPT через WhatsApp, где общение происходит в формате текстовых сообщений. Нововведение является частью праздничной серии стримов "12 дней OpenAI".
openai.com
OpenAI представила еще один способ доступа к ChatGPT - через обычный телефонный звонок. Теперь пользователи в США могут просто набрать бесплатный номер 1-800-ChatGPT для доступа к AI-ассистенту. Сервис предоставляет 15 бесплатных минут разговора в месяц и работает на любом телефоне - от современных смартфонов до классических дисковых аппаратов.
Для пользователей за пределами США компания предлагает ChatGPT через WhatsApp, где общение происходит в формате текстовых сообщений. Нововведение является частью праздничной серии стримов "12 дней OpenAI".
openai.com
The Next Gen of AI Agents: Smarter and Different.
These new AI agents won’t just be smarter—they’ll be fundamentally different. Here’s what might change:
1. Input Layer:
- Multimodal data (images, video, text)
- Real-time data integration
- Dynamic user feedback
- Adaptive data handling
2. Agent Orchestration:
- Dynamic task allocation
- Sophisticated inter-agent communication
- Advanced monitoring
- Real-time optimization
3. Core Capabilities:
- Strategic planning
- Self-improvement
- Intelligent tool use
- Continuous learning
- Specialized models in harmony
4. Data Architecture:
- Unified data storage
- Advanced vector stores
- Knowledge graphs
- Scalable management
5. Output Layer:
- Customizable formats
- Multi-channel delivery
- Automated insights
- Adaptive responses
Focus areas: safety, ethics, compliance, interoperability, versioning, and human-AI collaboration. Exciting times ahead!
These new AI agents won’t just be smarter—they’ll be fundamentally different. Here’s what might change:
1. Input Layer:
- Multimodal data (images, video, text)
- Real-time data integration
- Dynamic user feedback
- Adaptive data handling
2. Agent Orchestration:
- Dynamic task allocation
- Sophisticated inter-agent communication
- Advanced monitoring
- Real-time optimization
3. Core Capabilities:
- Strategic planning
- Self-improvement
- Intelligent tool use
- Continuous learning
- Specialized models in harmony
4. Data Architecture:
- Unified data storage
- Advanced vector stores
- Knowledge graphs
- Scalable management
5. Output Layer:
- Customizable formats
- Multi-channel delivery
- Automated insights
- Adaptive responses
Focus areas: safety, ethics, compliance, interoperability, versioning, and human-AI collaboration. Exciting times ahead!
#llm #blog
Как ускорить LLM и снизить затраты. Edge модели
Пост в блоге
Краткое содержания блогпоста:
- RouteLLM снижает расходы на LLM в 3,6 раза, оптимизируя выбор между сильной и слабой моделью для разных запросов.
- Meta Llama 3.2 (1B и 3B параметров) — компактные модели для edge-устройств с 45-60% снижением памяти при сохранении точности.
- Ministral 3B и 8B — высокопроизводительные модели для локальных вычислений, поддерживающие контекст до 128k токенов, идеально подходят для конфиденциальных задач.
Как ускорить LLM и снизить затраты. Edge модели
Пост в блоге
Краткое содержания блогпоста:
- RouteLLM снижает расходы на LLM в 3,6 раза, оптимизируя выбор между сильной и слабой моделью для разных запросов.
- Meta Llama 3.2 (1B и 3B параметров) — компактные модели для edge-устройств с 45-60% снижением памяти при сохранении точности.
- Ministral 3B и 8B — высокопроизводительные модели для локальных вычислений, поддерживающие контекст до 128k токенов, идеально подходят для конфиденциальных задач.
Meta решили перебить анонсы от OpenAI и выпустили LLaMa 3.3 70b.
Релиз РЕВОЛЮЦИОННЫЙ: модель среднего размера (70b) почти не отстаёт (!), а в некоторых тестах и опережает (!!) 405b модели, и даже GPT-4o (!!!) 😱
🎚️ Сама моделька здесь, но на домашнем компе не потянет.
Релиз РЕВОЛЮЦИОННЫЙ: модель среднего размера (70b) почти не отстаёт (!), а в некоторых тестах и опережает (!!) 405b модели, и даже GPT-4o (!!!) 😱
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Pika 2.0 теперь можно попробовать бесплатно
Такой аттракцион будет продолжаться ещё 66 часов. В теории лимитов нету и доступны даже ингредиенты, но видосы генерятся часами. Обещают докинуть ещё серваков чтобы попробовать смогло больше людей.
pika.art
Такой аттракцион будет продолжаться ещё 66 часов. В теории лимитов нету и доступны даже ингредиенты, но видосы генерятся часами. Обещают докинуть ещё серваков чтобы попробовать смогло больше людей.
pika.art
⚡️ Финальный день стримов: OpenAI анонсируют o3!
Это новая самая мощная модель рассуждений стартапа. Правда она будет еще некоторое время недоступна. На стриме показали только предварительные метрики, но они поражают.
o3 почти в два раза мощнее o1 на кодинге. На математике прирост тоже заметный: на 13 процентных пунктов на AIME 2024 и почти на 10 на GPQA. А на новом бенчмарке Frontier Math моделька выбивает 25% (до этого модели выбивали максимум 2)!
Кроме o3, выпускают еще o3-mini (но она пока тоже недоступна)
Ну а теперь AGI?
Это новая самая мощная модель рассуждений стартапа. Правда она будет еще некоторое время недоступна. На стриме показали только предварительные метрики, но они поражают.
o3 почти в два раза мощнее o1 на кодинге. На математике прирост тоже заметный: на 13 процентных пунктов на AIME 2024 и почти на 10 на GPQA. А на новом бенчмарке Frontier Math моделька выбивает 25% (до этого модели выбивали максимум 2)!
Кроме o3, выпускают еще o3-mini (но она пока тоже недоступна)
Ну а теперь AGI?
This media is not supported in your browser
VIEW IN TELEGRAM
Ребята из Anthropic показали БУДУЩЕЕ, а заодно нагнули OpenAI — они придумали универсальный способ для нейросетей работать с информацией на любых ресурсах 😮
Знакомьтесь, MCP (Model Context Protocol) — «мостик», который позволяет ИИ работать с текстом в любом месте, в том числе править его.
Вот представьте: вы пишете код с ИИ, говорите «зайди в мой GitHub и внеси правки», а оно берет и ДЕЛАЕТ. При этом протокол открытый, интегрировать можно куда угодно, хоть в собственную локальную базу данных, хоть в Notion (но еще пока нет).
Из минусов: пока работает только с их десктопным приложением (оно такое себе).
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
TRELLIS is a new #3D #GenAI model released by Microsoft and unfortunately, its best features are something you cannot see in this video 🤔
Besides the clean geometry and textures, there are a few more features that make it different from the competitors:
- It takes both text and images as prompt
- Can generate textured variants of a given 3D asset
- Can manipulate part of the model based on a specific prompt
- It's Open source 😉
Here is the link to the full Github if you are interested where you can find the full article and a link to Hugging Face where you can try it yourself:
https://trellis3d.github.io/
Besides the clean geometry and textures, there are a few more features that make it different from the competitors:
- It takes both text and images as prompt
- Can generate textured variants of a given 3D asset
- Can manipulate part of the model based on a specific prompt
- It's Open source 😉
Here is the link to the full Github if you are interested where you can find the full article and a link to Hugging Face where you can try it yourself:
https://trellis3d.github.io/
Perplexity покупает стартап Carbon, который специализируется на технологии RAG
https://siliconangle.com/2024/12/18/perplexity-ai-gets-500m-funding-immediately-spends-buy-rag-startup-carbon/
https://siliconangle.com/2024/12/18/perplexity-ai-gets-500m-funding-immediately-spends-buy-rag-startup-carbon/