Диксит преувеличивает возможности мультимодальных моделей.
В своей области (речевые технологии) я могу сказать, что большие модели-комбайны (такие как OpenAI Whisper Large v3 или Qwen) с одной стороны сильно увеличили доступность использования речевых техов для разработчиков, поскольку из коробки есть распознавание речи мультиязычное и мультидоменное, распознавание языка сообщения, расстановка знаков препинания, перевод на целевой язык и иногда даже синтез речи. Имеешь GPU, настроил, скопировал код из гитхаба, скачал модель - все работает. Но возникло впечатление, что в некотором смысле отчаялись или, скорее, попали в затруднение при улучшении качества работы отдельных компонентов. Как только акустические условия ухудшаются, меняется домен применения в чуть более экзотический, более сложные условия речи, то качество работы модели ухудшается катастрофически. Также является некоторым преувеличением мультиязычность, хорошо она работает для распространенных языков, для более редких это просто мусор. Это кстати и с переводчиками так же - переводчики жалуются, когда же будет нормальный переводчик на тот же арабский. Более ранние специальные модели работают в коммерчески значимых доменах заметно (а иногда и подавляюще) лучше, чем эти комбайны. Плюс есть еще чисто технические моменты - эти большие комбайны тормозные, требуют дорогого оборудования и т.п. Но это может со временем уйти. Конечно, теперь заказчики иногда требуют доказательства, почему им следует использовать коммерческие специальные модели, а не опенсурсные бесплатные комбайны. Подозреваю, много приложений делается уже в самих компаниях своими силами за счет легкости применения. Качество, конечно, под вопросом. Были истории, когда облажались, распускали отделы и т.п. Но, думаю, многих устраивает.
Даже в движении есть сервис, расшифровывающий Whisperом телепередачи и выступления и предоставляющий черновой текст, который затем группа довольно быстро и приятно приводит во вменяемый вид, пригодный для публикации. Реальная польза, вручную это раз в 5-10 дольше.
Убежден, что со спутниковыми снимками та же специфика, хотя и конкретных данных не знаю, одни слухи. Нейросети везде одни и те же. Если же имеется еще и текстовый вывод, требующий точности, планирования и логики, то у больших моделей также возникают сложности по аналогии с LLM. LLM не может избавиться от галлюцинаций, весь вопрос приложений в том, устраивает ли в задаче достижимое качество работы и имеющийся уровень галлюцинаций. Пока универсальность недостижима, имеющиеся модели недопустимо неточны для нужных применений. И, как я убежден, фундаментально непригодны для контуров управления и принятия решений, где за счет их применения собираются исключить человека и оставить контур чисто автоматическим. Обязательно нужен человек, чтобы проверять вывод модели на адекватность.
Есть и еще странные слухи от компетентных источников: - работающие в аккумуляторной индустрии утверждают, что никто в мире не знает, почему растут литиевые кристаллы; - работающие в квантовой химии утверждают, что модели машинного обучения неплохо предсказывают свойства веществ, изученных в 19-20 веках или для аналогичных веществ, но не могут предсказать свойства новых веществ.
Диксит преувеличивает возможности мультимодальных моделей.
В своей области (речевые технологии) я могу сказать, что большие модели-комбайны (такие как OpenAI Whisper Large v3 или Qwen) с одной стороны сильно увеличили доступность использования речевых техов для разработчиков, поскольку из коробки есть распознавание речи мультиязычное и мультидоменное, распознавание языка сообщения, расстановка знаков препинания, перевод на целевой язык и иногда даже синтез речи. Имеешь GPU, настроил, скопировал код из гитхаба, скачал модель - все работает. Но возникло впечатление, что в некотором смысле отчаялись или, скорее, попали в затруднение при улучшении качества работы отдельных компонентов. Как только акустические условия ухудшаются, меняется домен применения в чуть более экзотический, более сложные условия речи, то качество работы модели ухудшается катастрофически. Также является некоторым преувеличением мультиязычность, хорошо она работает для распространенных языков, для более редких это просто мусор. Это кстати и с переводчиками так же - переводчики жалуются, когда же будет нормальный переводчик на тот же арабский. Более ранние специальные модели работают в коммерчески значимых доменах заметно (а иногда и подавляюще) лучше, чем эти комбайны. Плюс есть еще чисто технические моменты - эти большие комбайны тормозные, требуют дорогого оборудования и т.п. Но это может со временем уйти. Конечно, теперь заказчики иногда требуют доказательства, почему им следует использовать коммерческие специальные модели, а не опенсурсные бесплатные комбайны. Подозреваю, много приложений делается уже в самих компаниях своими силами за счет легкости применения. Качество, конечно, под вопросом. Были истории, когда облажались, распускали отделы и т.п. Но, думаю, многих устраивает.
Даже в движении есть сервис, расшифровывающий Whisperом телепередачи и выступления и предоставляющий черновой текст, который затем группа довольно быстро и приятно приводит во вменяемый вид, пригодный для публикации. Реальная польза, вручную это раз в 5-10 дольше.
Убежден, что со спутниковыми снимками та же специфика, хотя и конкретных данных не знаю, одни слухи. Нейросети везде одни и те же. Если же имеется еще и текстовый вывод, требующий точности, планирования и логики, то у больших моделей также возникают сложности по аналогии с LLM. LLM не может избавиться от галлюцинаций, весь вопрос приложений в том, устраивает ли в задаче достижимое качество работы и имеющийся уровень галлюцинаций. Пока универсальность недостижима, имеющиеся модели недопустимо неточны для нужных применений. И, как я убежден, фундаментально непригодны для контуров управления и принятия решений, где за счет их применения собираются исключить человека и оставить контур чисто автоматическим. Обязательно нужен человек, чтобы проверять вывод модели на адекватность.
Есть и еще странные слухи от компетентных источников: - работающие в аккумуляторной индустрии утверждают, что никто в мире не знает, почему растут литиевые кристаллы; - работающие в квантовой химии утверждают, что модели машинного обучения неплохо предсказывают свойства веществ, изученных в 19-20 веках или для аналогичных веществ, но не могут предсказать свойства новых веществ.
How to Create a Private or Public Channel on Telegram? Telegram iOS app: In the “Chats” tab, click the new message icon in the right upper corner. Select “New Channel.” On June 7, Perekopsky met with Brazilian President Jair Bolsonaro, an avid user of the platform. According to the firm's VP, the main subject of the meeting was "freedom of expression." The imprisonment came as Telegram said it was "surprised" by claims that privacy commissioner Ada Chung Lai-ling is seeking to block the messaging app due to doxxing content targeting police and politicians. The group also hosted discussions on committing arson, Judge Hui said, including setting roadblocks on fire, hurling petrol bombs at police stations and teaching people to make such weapons. The conversation linked to arson went on for two to three months, Hui said.
from us