KANTOR_AI Telegram 357
Forwarded from Dealer.AI
Вы спросили —Дядя отвечает. Истина находится где-то по середине. Действительно на нашем рынке можно встретить множество решений вокруг открытых моделей с huggingface или же апи модных нынче Midjourney.  Это может работать по принципу перевел с ру на ен и вкинул в апиху, далее выдал результат. Обычно, на старте, это было уделом малых команд, стартапов и пр.

На самом деле, ничего в этом зазорного нет, те же ребята с Perplexity строить свое решение начали именно вокруг топовых апи LLM (OpenAI, Google, Anthropic и т.п.).  Но при этом perplexity имеют свою доп. логику с поиском, линковкой фактов и пр. Что делает ее решение аналогом поисковика "в кармане".  После, они еще и собственные тюны моделей Llama like завезли, благо лицензия открытая позволяет. И это имеет спрос.
Т.е. более крупные игроки, стараются использовать такие решения для холодного старта или во все опираясь на открытые сеты , модели или архитектуры делать собственные решения/тюны/модели. И я думаю, что крупные игроки нашего рынка достигли уже того уровня зрелости, когда могут позволить себе свои исследования, и как следствие, свои решения в виде моделей и сервисов.

Вопрос остается только в источниках данных. Такое поведение, как мы видим на видео, может быть обусловлено, влиянием сетов обучения. Т.к. на рынке множество открытых сетов на английском языке для задач text2image, а для русского языка примеров много меньше. Создание таких ру-ен данных требует затрат на написание/генерацию и чистку. А в открытых сетах для обучения может возникать дисбаланс по ру-ен паре и как следствие превалирование этики из сетов коих больше. Поэтому тот же native/родной после предобучения на таких примерах будет носить знания культуры того языка коего больше. Тк в основном это все переводы с ен языка на ру как есть, да ещё к релевантным для ен языка картинкам. Для того, чтобы решить проблему "перекоса", не достаточно балансировки знаний, надо писать/матчить именно опорные ру тексты с "правильными" картинками к ним,а также придется, скорее всего, прибегнуть к выравниванию поведения — привет alignment/ human feedback и тп. А далее, вооружившись всем этим, нужно будет решать вопросы тюна с эмбеддером text2image, чтобы для языковой пары запрос сводился к "правильной картинке". Именно его представления будут использоваться диффузией как базой генерации. И в тч над этим, думаю, работают исследовательские команды крупных игроков.

Но нет предела совершенству, это непрерывный процесс дообучения и отлова "черных лебедей". Вот как-то так.
👍17👎85😁1



tgoop.com/kantor_ai/357
Create:
Last Update:

Вы спросили —Дядя отвечает. Истина находится где-то по середине. Действительно на нашем рынке можно встретить множество решений вокруг открытых моделей с huggingface или же апи модных нынче Midjourney.  Это может работать по принципу перевел с ру на ен и вкинул в апиху, далее выдал результат. Обычно, на старте, это было уделом малых команд, стартапов и пр.

На самом деле, ничего в этом зазорного нет, те же ребята с Perplexity строить свое решение начали именно вокруг топовых апи LLM (OpenAI, Google, Anthropic и т.п.).  Но при этом perplexity имеют свою доп. логику с поиском, линковкой фактов и пр. Что делает ее решение аналогом поисковика "в кармане".  После, они еще и собственные тюны моделей Llama like завезли, благо лицензия открытая позволяет. И это имеет спрос.
Т.е. более крупные игроки, стараются использовать такие решения для холодного старта или во все опираясь на открытые сеты , модели или архитектуры делать собственные решения/тюны/модели. И я думаю, что крупные игроки нашего рынка достигли уже того уровня зрелости, когда могут позволить себе свои исследования, и как следствие, свои решения в виде моделей и сервисов.

Вопрос остается только в источниках данных. Такое поведение, как мы видим на видео, может быть обусловлено, влиянием сетов обучения. Т.к. на рынке множество открытых сетов на английском языке для задач text2image, а для русского языка примеров много меньше. Создание таких ру-ен данных требует затрат на написание/генерацию и чистку. А в открытых сетах для обучения может возникать дисбаланс по ру-ен паре и как следствие превалирование этики из сетов коих больше. Поэтому тот же native/родной после предобучения на таких примерах будет носить знания культуры того языка коего больше. Тк в основном это все переводы с ен языка на ру как есть, да ещё к релевантным для ен языка картинкам. Для того, чтобы решить проблему "перекоса", не достаточно балансировки знаний, надо писать/матчить именно опорные ру тексты с "правильными" картинками к ним,а также придется, скорее всего, прибегнуть к выравниванию поведения — привет alignment/ human feedback и тп. А далее, вооружившись всем этим, нужно будет решать вопросы тюна с эмбеддером text2image, чтобы для языковой пары запрос сводился к "правильной картинке". Именно его представления будут использоваться диффузией как базой генерации. И в тч над этим, думаю, работают исследовательские команды крупных игроков.

Но нет предела совершенству, это непрерывный процесс дообучения и отлова "черных лебедей". Вот как-то так.

BY Kantor.AI


Share with your friend now:
tgoop.com/kantor_ai/357

View MORE
Open in Telegram


Telegram News

Date: |

During a meeting with the president of the Supreme Electoral Court (TSE) on June 6, Telegram's Vice President Ilya Perekopsky announced the initiatives. According to the executive, Brazil is the first country in the world where Telegram is introducing the features, which could be expanded to other countries facing threats to democracy through the dissemination of false content. Hui said the time period and nature of some offences “overlapped” and thus their prison terms could be served concurrently. The judge ordered Ng to be jailed for a total of six years and six months. The visual aspect of channels is very critical. In fact, design is the first thing that a potential subscriber pays attention to, even though unconsciously. Channel login must contain 5-32 characters How to Create a Private or Public Channel on Telegram?
from us


Telegram Kantor.AI
FROM American