Notice: file_put_contents(): Write of 19564 bytes failed with errno=28 No space left on device in /var/www/tgoop/post.php on line 50
partially unsupervised@partially_unsupervised P.144
PARTIALLY_UNSUPERVISED Telegram 144
Наткнулся на отличную статью в блоге Uber о том, как они переносили оценку времени поездки на DL пайплайн, и меня захлестнуло ностальгией.

Примерно пять лет назад я работал в компании Juno - израильском райдшеринге, который оперировался в Нью-Йорке, а разрабатывался в Минске 🤯 (сейчас остатками компании владеет Lyft). И там мы, неопытные машинлернеры, делали в т.ч. робкие попытки затащить ML для той же задачи получения ETA.

Вообще, самый простой способ получить ответ на вопрос "сколько машина будет ехать из точки А в точку B" - спросить API какого-нибудь провайдера карт, например, Google, Яндекс или TomTom. Но это решение 1) быстро становится дорогим, 2) не учитывает паттерны именно в твоих поездках (например, опытные таксисты в среднем могут добираться до точки назначения быстрее среднего водителя). Следующий шаг эволюции - взять какой-нибудь open source движок типа Valhalla или OSRM и допилить его под свои нужды, например, прикрутив туда свой движок пробок. Это уменьшает счета от гугла, но все еще не делает предсказание очень точным.

Соответственно, ML решение должно уточнять предсказание вышеописанного сервиса. Мы придумали много handcrafted фичей, обучили какой-то градиентный бустинг, оффлайн метрики были хорошими - примерно на уровне данных из Google. Но вот катить в прод это было сложно по ряду причин, как технических, так и не очень. Из технических упомяну только сложность реализации всех этих фичей (включая всякие исторические агрегаты) в рантайме - в те времена простые пацаны еще не знали таких слов, как feature store.

И тогда у нас родилась безумная идея - предсказывать ETA end2end довольно простой сетью, без всяких сложных фичей и маршрутов из Valhalla. География Нью-Йорка очень простая, и, как оказалось, с датасетом в миллионы поездкок можно получить хорошую модель, используя только геокоординаты и фичи времени для учета сезонности. Впрочем, в прод это так и не доехало - приоритеты сменились. Так я впервые своими глазами увидел, как очень прямолинейный deep learning go brrr бьет куда более сложные решения.

Кстати, самый первый бейзлайн - довольно рабочий! - в этой задаче выглядел примерно так:

def get_eta(coords_from, coords_to):
if is_manhattan(coords_from) and is_manhattan(coords_to):
return 4 # minutes
...
🔥54👍16😁10🤔3



tgoop.com/partially_unsupervised/144
Create:
Last Update:

Наткнулся на отличную статью в блоге Uber о том, как они переносили оценку времени поездки на DL пайплайн, и меня захлестнуло ностальгией.

Примерно пять лет назад я работал в компании Juno - израильском райдшеринге, который оперировался в Нью-Йорке, а разрабатывался в Минске 🤯 (сейчас остатками компании владеет Lyft). И там мы, неопытные машинлернеры, делали в т.ч. робкие попытки затащить ML для той же задачи получения ETA.

Вообще, самый простой способ получить ответ на вопрос "сколько машина будет ехать из точки А в точку B" - спросить API какого-нибудь провайдера карт, например, Google, Яндекс или TomTom. Но это решение 1) быстро становится дорогим, 2) не учитывает паттерны именно в твоих поездках (например, опытные таксисты в среднем могут добираться до точки назначения быстрее среднего водителя). Следующий шаг эволюции - взять какой-нибудь open source движок типа Valhalla или OSRM и допилить его под свои нужды, например, прикрутив туда свой движок пробок. Это уменьшает счета от гугла, но все еще не делает предсказание очень точным.

Соответственно, ML решение должно уточнять предсказание вышеописанного сервиса. Мы придумали много handcrafted фичей, обучили какой-то градиентный бустинг, оффлайн метрики были хорошими - примерно на уровне данных из Google. Но вот катить в прод это было сложно по ряду причин, как технических, так и не очень. Из технических упомяну только сложность реализации всех этих фичей (включая всякие исторические агрегаты) в рантайме - в те времена простые пацаны еще не знали таких слов, как feature store.

И тогда у нас родилась безумная идея - предсказывать ETA end2end довольно простой сетью, без всяких сложных фичей и маршрутов из Valhalla. География Нью-Йорка очень простая, и, как оказалось, с датасетом в миллионы поездкок можно получить хорошую модель, используя только геокоординаты и фичи времени для учета сезонности. Впрочем, в прод это так и не доехало - приоритеты сменились. Так я впервые своими глазами увидел, как очень прямолинейный deep learning go brrr бьет куда более сложные решения.

Кстати, самый первый бейзлайн - довольно рабочий! - в этой задаче выглядел примерно так:

def get_eta(coords_from, coords_to):
if is_manhattan(coords_from) and is_manhattan(coords_to):
return 4 # minutes
...

BY partially unsupervised


Share with your friend now:
tgoop.com/partially_unsupervised/144

View MORE
Open in Telegram


Telegram News

Date: |

Although some crypto traders have moved toward screaming as a coping mechanism, several mental health experts call this therapy a pseudoscience. The crypto community finds its way to engage in one or the other way and share its feelings with other fellow members. Healing through screaming therapy Telegram offers a powerful toolset that allows businesses to create and manage channels, groups, and bots to broadcast messages, engage in conversations, and offer reliable customer support via bots. Each account can create up to 10 public channels But a Telegram statement also said: "Any requests related to political censorship or limiting human rights such as the rights to free speech or assembly are not and will not be considered."
from us


Telegram partially unsupervised
FROM American