NEURALDEEP Telegram 1341
VLM заменит CV?

Ты знал что qwen 2.5 VL вернет тебе bbox?

А теперь магия без рук!

Я взял этот квен Qwen2.5-VL-72B-Instruct-FP8-Dynamic

Взял на иммерс эту тачку https://immers.cloud/flavor/view/?id=984 (Цена, месяц = 269 660,16 ₽)

Наконец дождался пока vLLM обновится и станет поддерживать 2.5 VL

Взял вот такой код

OBJECT_JSON_SCHEMA = {
"type": "object",
"properties": {
"objects": {
"type": "array",
"items": {
"type": "object",
"properties": {
"bbox_2d": {
"type": "array",
"description": "Coordinates of the table bounding box [x1, y1, x2, y2]",
"items": {
"type": "integer"
}
},
"label": {
"type": "string",
"description": "Object label, e.g. 'table'"
}
},
"required": ["bbox_2d", "label"]
}
}
},
"required": ["objects"]
}



Получил вот такой ответ

{
"id": "chatcmpl-9a5edf7433e246b78376c4f18bdbf263",
"object": "chat.completion",
"created": 1741078401,
"model": "qwen2.5-vl-72b-instruct",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"reasoning_content": null,
"content": "{\"objects\": [{\"bbox_2d\": [54, 126, 532, 434], \"label\": \"table\"}]}",
"tool_calls": []
},
"logprobs": null,
"finish_reason": "stop",
"stop_reason": null
}
],
"usage": {
"prompt_tokens": 724,
"total_tokens": 760,
"completion_tokens": 36,
"prompt_tokens_details": null
},
"prompt_logprobs": null
}



Но это только начало просто вернуть bbox таблицы это легко

По мимо этого мы можем получить содержимое, но ведь есть кейсы сложнее

А что если прислать сообщения из тг например?
Определить sender'ов и сразу в один проход достать текст?

  "objects": [
{
"bbox_2d": [
58,
292,
540,
360
],
"label": "Кстати вы знали что Qwen 2.5 VL может выдавать bbox объектов? https://qwenlm.github.io/blog/qwen2.5-vl/",
"sender": "user1",
"type": "text"
},
{
"bbox_2d": [
60,
374,
276,
404
],
"label": "о спасибо попробую",
"sender": "user2",
"type": "text"
},
{
"bbox_2d": [
60,
413,
490,
466
],
"label": "00:19, 72.9 KB",
"sender": "user2",
"type": "voice"
}



Да на х4 4090 это около 35 секунд, но!
Сам текст она достала нем немного ужасно, но с этим уже можно работать!

Я вас направил! Дальше я думаю вы знаете как использовать это в бизнесе и стартапах!



tgoop.com/neuraldeep/1341
Create:
Last Update:

VLM заменит CV?

Ты знал что qwen 2.5 VL вернет тебе bbox?

А теперь магия без рук!

Я взял этот квен Qwen2.5-VL-72B-Instruct-FP8-Dynamic

Взял на иммерс эту тачку https://immers.cloud/flavor/view/?id=984 (Цена, месяц = 269 660,16 ₽)

Наконец дождался пока vLLM обновится и станет поддерживать 2.5 VL

Взял вот такой код

OBJECT_JSON_SCHEMA = {
"type": "object",
"properties": {
"objects": {
"type": "array",
"items": {
"type": "object",
"properties": {
"bbox_2d": {
"type": "array",
"description": "Coordinates of the table bounding box [x1, y1, x2, y2]",
"items": {
"type": "integer"
}
},
"label": {
"type": "string",
"description": "Object label, e.g. 'table'"
}
},
"required": ["bbox_2d", "label"]
}
}
},
"required": ["objects"]
}



Получил вот такой ответ

{
"id": "chatcmpl-9a5edf7433e246b78376c4f18bdbf263",
"object": "chat.completion",
"created": 1741078401,
"model": "qwen2.5-vl-72b-instruct",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"reasoning_content": null,
"content": "{\"objects\": [{\"bbox_2d\": [54, 126, 532, 434], \"label\": \"table\"}]}",
"tool_calls": []
},
"logprobs": null,
"finish_reason": "stop",
"stop_reason": null
}
],
"usage": {
"prompt_tokens": 724,
"total_tokens": 760,
"completion_tokens": 36,
"prompt_tokens_details": null
},
"prompt_logprobs": null
}



Но это только начало просто вернуть bbox таблицы это легко

По мимо этого мы можем получить содержимое, но ведь есть кейсы сложнее

А что если прислать сообщения из тг например?
Определить sender'ов и сразу в один проход достать текст?

  "objects": [
{
"bbox_2d": [
58,
292,
540,
360
],
"label": "Кстати вы знали что Qwen 2.5 VL может выдавать bbox объектов? https://qwenlm.github.io/blog/qwen2.5-vl/",
"sender": "user1",
"type": "text"
},
{
"bbox_2d": [
60,
374,
276,
404
],
"label": "о спасибо попробую",
"sender": "user2",
"type": "text"
},
{
"bbox_2d": [
60,
413,
490,
466
],
"label": "00:19, 72.9 KB",
"sender": "user2",
"type": "voice"
}



Да на х4 4090 это около 35 секунд, но!
Сам текст она достала нем немного ужасно, но с этим уже можно работать!

Я вас направил! Дальше я думаю вы знаете как использовать это в бизнесе и стартапах!

BY Neural Deep







Share with your friend now:
tgoop.com/neuraldeep/1341

View MORE
Open in Telegram


Telegram News

Date: |

4How to customize a Telegram channel? Private channels are only accessible to subscribers and don’t appear in public searches. To join a private channel, you need to receive a link from the owner (administrator). A private channel is an excellent solution for companies and teams. You can also use this type of channel to write down personal notes, reflections, etc. By the way, you can make your private channel public at any moment. A new window will come up. Enter your channel name and bio. (See the character limits above.) Click “Create.” The SUCK Channel on Telegram, with a message saying some content has been removed by the police. Photo: Telegram screenshot. Telegram desktop app: In the upper left corner, click the Menu icon (the one with three lines). Select “New Channel” from the drop-down menu.
from us


Telegram Neural Deep
FROM American