VLM заменит CV?
Ты знал что qwen 2.5 VL вернет тебе bbox?
А теперь магия без рук!
Я взял этот квен Qwen2.5-VL-72B-Instruct-FP8-Dynamic
Взял на иммерс эту тачку https://immers.cloud/flavor/view/?id=984 (Цена, месяц = 269 660,16 ₽)
Наконец дождался пока vLLM обновится и станет поддерживать 2.5 VL
Взял вот такой код
Получил вот такой ответ
Но это только начало просто вернуть bbox таблицы это легко
По мимо этого мы можем получить содержимое, но ведь есть кейсы сложнее
А что если прислать сообщения из тг например?
Определить sender'ов и сразу в один проход достать текст?
Да на х4 4090 это около 35 секунд, но!
Сам текст она достала нем немного ужасно, но с этим уже можно работать!
Я вас направил! Дальше я думаю вы знаете как использовать это в бизнесе и стартапах!
Ты знал что qwen 2.5 VL вернет тебе bbox?
А теперь магия без рук!
Я взял этот квен Qwen2.5-VL-72B-Instruct-FP8-Dynamic
Взял на иммерс эту тачку https://immers.cloud/flavor/view/?id=984 (Цена, месяц = 269 660,16 ₽)
Наконец дождался пока vLLM обновится и станет поддерживать 2.5 VL
Взял вот такой код
OBJECT_JSON_SCHEMA = {
"type": "object",
"properties": {
"objects": {
"type": "array",
"items": {
"type": "object",
"properties": {
"bbox_2d": {
"type": "array",
"description": "Coordinates of the table bounding box [x1, y1, x2, y2]",
"items": {
"type": "integer"
}
},
"label": {
"type": "string",
"description": "Object label, e.g. 'table'"
}
},
"required": ["bbox_2d", "label"]
}
}
},
"required": ["objects"]
}
Получил вот такой ответ
{
"id": "chatcmpl-9a5edf7433e246b78376c4f18bdbf263",
"object": "chat.completion",
"created": 1741078401,
"model": "qwen2.5-vl-72b-instruct",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"reasoning_content": null,
"content": "{\"objects\": [{\"bbox_2d\": [54, 126, 532, 434], \"label\": \"table\"}]}",
"tool_calls": []
},
"logprobs": null,
"finish_reason": "stop",
"stop_reason": null
}
],
"usage": {
"prompt_tokens": 724,
"total_tokens": 760,
"completion_tokens": 36,
"prompt_tokens_details": null
},
"prompt_logprobs": null
}
Но это только начало просто вернуть bbox таблицы это легко
По мимо этого мы можем получить содержимое, но ведь есть кейсы сложнее
А что если прислать сообщения из тг например?
Определить sender'ов и сразу в один проход достать текст?
"objects": [
{
"bbox_2d": [
58,
292,
540,
360
],
"label": "Кстати вы знали что Qwen 2.5 VL может выдавать bbox объектов? https://qwenlm.github.io/blog/qwen2.5-vl/",
"sender": "user1",
"type": "text"
},
{
"bbox_2d": [
60,
374,
276,
404
],
"label": "о спасибо попробую",
"sender": "user2",
"type": "text"
},
{
"bbox_2d": [
60,
413,
490,
466
],
"label": "00:19, 72.9 KB",
"sender": "user2",
"type": "voice"
}
Да на х4 4090 это около 35 секунд, но!
Сам текст она достала нем немного ужасно, но с этим уже можно работать!
Я вас направил! Дальше я думаю вы знаете как использовать это в бизнесе и стартапах!
tgoop.com/neuraldeep/1339
Create:
Last Update:
Last Update:
VLM заменит CV?
Ты знал что qwen 2.5 VL вернет тебе bbox?
А теперь магия без рук!
Я взял этот квен Qwen2.5-VL-72B-Instruct-FP8-Dynamic
Взял на иммерс эту тачку https://immers.cloud/flavor/view/?id=984 (Цена, месяц = 269 660,16 ₽)
Наконец дождался пока vLLM обновится и станет поддерживать 2.5 VL
Взял вот такой код
Получил вот такой ответ
Но это только начало просто вернуть bbox таблицы это легко
По мимо этого мы можем получить содержимое, но ведь есть кейсы сложнее
А что если прислать сообщения из тг например?
Определить sender'ов и сразу в один проход достать текст?
Да на х4 4090 это около 35 секунд, но!
Сам текст она достала нем немного ужасно, но с этим уже можно работать!
Я вас направил! Дальше я думаю вы знаете как использовать это в бизнесе и стартапах!
Ты знал что qwen 2.5 VL вернет тебе bbox?
А теперь магия без рук!
Я взял этот квен Qwen2.5-VL-72B-Instruct-FP8-Dynamic
Взял на иммерс эту тачку https://immers.cloud/flavor/view/?id=984 (Цена, месяц = 269 660,16 ₽)
Наконец дождался пока vLLM обновится и станет поддерживать 2.5 VL
Взял вот такой код
OBJECT_JSON_SCHEMA = {
"type": "object",
"properties": {
"objects": {
"type": "array",
"items": {
"type": "object",
"properties": {
"bbox_2d": {
"type": "array",
"description": "Coordinates of the table bounding box [x1, y1, x2, y2]",
"items": {
"type": "integer"
}
},
"label": {
"type": "string",
"description": "Object label, e.g. 'table'"
}
},
"required": ["bbox_2d", "label"]
}
}
},
"required": ["objects"]
}
Получил вот такой ответ
{
"id": "chatcmpl-9a5edf7433e246b78376c4f18bdbf263",
"object": "chat.completion",
"created": 1741078401,
"model": "qwen2.5-vl-72b-instruct",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"reasoning_content": null,
"content": "{\"objects\": [{\"bbox_2d\": [54, 126, 532, 434], \"label\": \"table\"}]}",
"tool_calls": []
},
"logprobs": null,
"finish_reason": "stop",
"stop_reason": null
}
],
"usage": {
"prompt_tokens": 724,
"total_tokens": 760,
"completion_tokens": 36,
"prompt_tokens_details": null
},
"prompt_logprobs": null
}
Но это только начало просто вернуть bbox таблицы это легко
По мимо этого мы можем получить содержимое, но ведь есть кейсы сложнее
А что если прислать сообщения из тг например?
Определить sender'ов и сразу в один проход достать текст?
"objects": [
{
"bbox_2d": [
58,
292,
540,
360
],
"label": "Кстати вы знали что Qwen 2.5 VL может выдавать bbox объектов? https://qwenlm.github.io/blog/qwen2.5-vl/",
"sender": "user1",
"type": "text"
},
{
"bbox_2d": [
60,
374,
276,
404
],
"label": "о спасибо попробую",
"sender": "user2",
"type": "text"
},
{
"bbox_2d": [
60,
413,
490,
466
],
"label": "00:19, 72.9 KB",
"sender": "user2",
"type": "voice"
}
Да на х4 4090 это около 35 секунд, но!
Сам текст она достала нем немного ужасно, но с этим уже можно работать!
Я вас направил! Дальше я думаю вы знаете как использовать это в бизнесе и стартапах!
BY Neural Deep




Share with your friend now:
tgoop.com/neuraldeep/1339