Warning: Undefined array key 0 in /var/www/tgoop/function.php on line 65

Warning: Trying to access array offset on value of type null in /var/www/tgoop/function.php on line 65
47 - Telegram Web
Telegram Web
Нравится канал про Data Science, который публикует короткие посты про наиболее распространенные вопросы на собеседованиях. Я поступаю следующим образом, если сталкиваюсь с интересным постом. Читаю и затем суммаризую у себя в заметках для запоминания информации. Ссылка на канал кому интересно https://www.tgoop.com/ds_interview_lib
NLP

Поигрался с темой ранжирования текстовых данных, первый подход и знакомство с темой.

Препроцессинг (стемминг, лемматизация) при помощи nltk. Перевод в эмбединги при помощи нейросетки BERT от Google. Нахождение похожих по косинусному расстоянию.

Ноутбук приложил. Данные можно использовать любые, у меня вакансии и резюме.
Первый закон географии Тоблера

Объекты, расположенные по соседству или близко друг от друга, обладают общими характеристиками и, вероятно, будут взаимодействовать друг с другом чаще, чем объекты, находящиеся далеко друг от друга.

Тут короткая статья на русском ПЕРВЫЙ И ВТОРОЙ ЗАКОНЫ ГЕОГРАФИИ ТОБЛЕРА | Эпонимы и Мы | Дзен (dzen.ru)

Здесь статья на английском, которая затрагивает смежные темы пространственной автокорреляции и гравитационной модели What is Tobler's First Law of Geography? - GIS Geography
Второе домашнее задание на курсе Deep Learning от МФТИ.

Написал свой класс логистической регрессии для бинарной классификации, а также логистическую регрессию с регуляризацией.

Реализовал функцию градиентного спуска и функцию генератора батчей.

Сделал пайплайн со стандартизацией признаков и оценкой метрики на кросс-валидации.
Please open Telegram to view this post
VIEW IN TELEGRAM
Для работы с пространственными данными удобно, когда все приложения и зависимости находятся в одном месте. Особенно, это касается пакета gdal, который так просто не устанавливается и приходится бороться с ошибками. Подготовил настроенный docker контейнер для spatial data science проектов. Использовал в основе образ osgeo/gdal на ubuntu.

Скачать контейнер (весит около 900 Мб)
docker pull kuper26/geospatial_minimal:1

Запуск контейнера
docker run -it -p 8888:8888 kuper26/geospatial_minimal:1

Запуск ноутбука в терминале контейнера
jupyter notebook --ip 0.0.0.0 --no-browser –allow-root

Или запуск Lab
jupyter-lab --ip 0.0.0.0 --no-browser –allow-root

Скопировать ссылку с токеном из терминала в браузер, откроется локально ноутбук или Lab

Предустановленные пакеты:
pandas
numpy
geopandas
matplotlib
scikit-learn
folium
osmnx
networkx
и другие

#docker #datascience
🔥2
Хакатон ML TALENT MATCH.

Принимаем участие командой в хакатоне ML Talent Match. Результаты и рабочие материлы выложу в канал позже. В каких хакатонах вы принимали участие, как строили взаимодействие в команде, делитесь опытом задавайте вопросы в комментариях?!
Залетели в топ-5! Еее 💪 команда YaTeam
🔥2
Сертификат ;)
ПРОСТРАНСТВЕННЫЙ ВЫБРОС

Определение
Пространственный выброс – это пространственный объект, непространственные атрибуты которого значительно отличаются от непространственных атрибутов его соседей.

Назначение
Пространственные выбросы выявляют аномалии в наборе пространственных данных, требующие дальнейшего изучения.

Обнаружение пространственных выбросов можно использовать для следующих целей:

- анализ преступности: в районе А кол-во преступлений значительно выше, чем в соседних, это указывает на признак гетто.
- геомаркетинг: продукт в районе А покупают значительно реже, чем в соседних, это указывает на затрудненный доступ к продукту в этом районе или на плохую маркетинговую кампанию.
#геоаналитика #spatialdatascience
«Геоэмбеддинги: векторное представление контекста в пространственной аналитике»

Юлий Шамаев, Data Science Team Lead, Банк ВТБ В задачах пространственной или геоаналитики очень важно правильно учесть окружение исследуемого объекта. Так, например, стоимость объекта недвижимости может зависеть от удалённости от метро, а нагрузка на банкомат будет выше в торговом центре.

Схожая проблематика возникает и в других доменах машинного обучения. Контекст предложения влияет на значение слова в NLP, а взаимное расположение пикселей — на содержание изображения в Computer Vision.

В нашем подходе мы используем современную архитектуру трансформера в приложении к геоданным, чтобы получить векторное представление.
Ссылка на YouTube https://youtu.be/e6Wl8xJ9aNo?si=s9KpBGI5lyO5qiQJ
👍2🔥1
2025/07/12 09:19:44
Back to Top
HTML Embed Code: