Оказывается, бот от Silero также может генерировать видео-сообщения от героев варкрафта. Так что если хотите кому-то передать привет, то вперед
@silero_voice_bot
@silero_voice_bot
🔥4
Forwarded from Silero TTS (озвучка, текст в голос).
This media is not supported in your browser
VIEW IN TELEGRAM
🥰6
Бывший коллега рассказал пару трюков, как можно решать задачу классификации интентов
https://habr.com/en/company/tinkoff/blog/696756/
https://habr.com/en/company/tinkoff/blog/696756/
Habr
Как определять пользовательские намерения, о которых мы узнали 5 минут назад
Привет! Меня зовут Даниил Цимерман, я R&D-инженер в NLP-отделе Тинькофф. Недавно я выступил на конференции DUMP и рассказал, как мы решали задачу определения интентов пользователей в чате в...
👍3🔥2
Я больше не в Тинькофф
Пришел джуном после бакалавриата экономики ВШЭ в 2018, ушел тим лидом NLP команды. В целом, 10/10, но пора двигаться дальше
В честь этого расскажу прикол. Первая моя задача была сформулирована так: сделать болталку (типа Алиса, только в Тинькофф. Сейчас это зовется Олег 😁). Команды на эту задачу не было. Был только я (джун).
Раз в неделю ко мне подходил вице-президент с вопросом «Ну что?». К счастью, были статьи и выступления реплики и алисы. Поэтому мне удалось сделать DSSM модельку, которую вице-президент тестил на моем рабочем компе в юпитер ноутбуке, лол
Пришел джуном после бакалавриата экономики ВШЭ в 2018, ушел тим лидом NLP команды. В целом, 10/10, но пора двигаться дальше
В честь этого расскажу прикол. Первая моя задача была сформулирована так: сделать болталку (типа Алиса, только в Тинькофф. Сейчас это зовется Олег 😁). Команды на эту задачу не было. Был только я (джун).
Раз в неделю ко мне подходил вице-президент с вопросом «Ну что?». К счастью, были статьи и выступления реплики и алисы. Поэтому мне удалось сделать DSSM модельку, которую вице-президент тестил на моем рабочем компе в юпитер ноутбуке, лол
👏24❤6🍓3⚡1🌭1
Дэмки от 🤗 на архиве
Huggingface запартнерились с arxiv и теперь подобные дэмо будут прям на архиве https://huggingface.co/spaces
https://huggingface.co/blog/arxiv
Предлагается шеймить тех, кто дэмо не делает 🤝
Huggingface запартнерились с arxiv и теперь подобные дэмо будут прям на архиве https://huggingface.co/spaces
https://huggingface.co/blog/arxiv
Предлагается шеймить тех, кто дэмо не делает 🤝
👍7🔥2
🪵 Про logging 🪵
Если вы достаточно серьезный прогромист и вместо
Теперь вместо стандартных строчек
Можно делать
1) Пакет совместим с питоновским логгером
2) Можно удобно складывать логи в файлики
3) Наконец-то f-strings!!! А не
4) И очень много других фишек
Для совсем продвинутых советую посмотреть это (если вы серьезный девопс)
Если вы достаточно серьезный прогромист и вместо
print("debug here")
начали писать logging.info("debug here")
, то советую использовать пакет loguruТеперь вместо стандартных строчек
import logging
logger = logging.getLogger(__name__)
logging.basicConfig(level=logging.INFO, format='%(asctime)s %(message)s', datefmt='%d.%m %H:%M:%S')
Можно делать
from loguru import logger
1) Пакет совместим с питоновским логгером
2) Можно удобно складывать логи в файлики
logger.add("file_1.log", rotation="500 MB")
3) Наконец-то f-strings!!! А не
%s
💩4) И очень много других фишек
Для совсем продвинутых советую посмотреть это (если вы серьезный девопс)
👍14
Кстати, пару лет назад записывал лекцию о том, как можно получить дифференцируемое расстояние Левенштейна (собственно, нужно просто обучить нейронку в metric learning сетинге).
Зачем это нужно: часто есть мисматч между метрикой и лоссом. Например, в задаче машинного перевода мы обычно используем cross-entropy loss, а измеряем BLEU. Почему бы сразу не учить с помощью BLEU? Не понятно, как прокинуть градиенты :(
Так вот, кажется, с приходом ChatGPT мы все больше будем напрямую оптимизировать метрику напрямую через RL, а не пытаться найти трюки, чтобы метрику сделать дифференцируемой.
Блогпост от huggingface про Reinforcement Learning from Human Feedback
Зачем это нужно: часто есть мисматч между метрикой и лоссом. Например, в задаче машинного перевода мы обычно используем cross-entropy loss, а измеряем BLEU. Почему бы сразу не учить с помощью BLEU? Не понятно, как прокинуть градиенты :(
Так вот, кажется, с приходом ChatGPT мы все больше будем напрямую оптимизировать метрику напрямую через RL, а не пытаться найти трюки, чтобы метрику сделать дифференцируемой.
Блогпост от huggingface про Reinforcement Learning from Human Feedback
YouTube
Ivan Fursov: Deep Levenshtein
Data Fest Online 2020
NLP in Industry Track: https://ods.ai/tracks/nlp-df2020
Расскажу про то, как с помощью глубокого обучения решать задачи по поиску похожих строк (В том числе: дедупликация, текстовая кластеризация на основе расстояния Левенштейна, исправление…
NLP in Industry Track: https://ods.ai/tracks/nlp-df2020
Расскажу про то, как с помощью глубокого обучения решать задачи по поиску похожих строк (В том числе: дедупликация, текстовая кластеризация на основе расстояния Левенштейна, исправление…
👍7🔥3
Подкаст с соавтором В.И. Левенштейна 😁
Пригласили поучаствовать в подкасте на тему адверсальных атак в "ДЕНЬГИ ЛЮБЯТ ТЕХНО" (🥴) с Григорием Кабатянским, у которого есть статья с вышеупомянутым мэтром.
В сколтехе я занимался ресерчем про адверсальные атаки и даже удалось опубликоваться на KDD, IEEE и самое главное — AIST. Так что приглашаю послушать, почему те самые смешные переводы в google-translate — это адверсальные атаки на модели машинного обучения.
https://podcast.ru/e/9CdyY3lkS1B
Пригласили поучаствовать в подкасте на тему адверсальных атак в "ДЕНЬГИ ЛЮБЯТ ТЕХНО" (🥴) с Григорием Кабатянским, у которого есть статья с вышеупомянутым мэтром.
В сколтехе я занимался ресерчем про адверсальные атаки и даже удалось опубликоваться на KDD, IEEE и самое главное — AIST. Так что приглашаю послушать, почему те самые смешные переводы в google-translate — это адверсальные атаки на модели машинного обучения.
https://podcast.ru/e/9CdyY3lkS1B
🔥10
Вау, streamlit от питонистов 🤩
Вышел новый фреймворк (в альфе сейчас) под названием Pynecone. Выглядит он как pytorch vs tensorflow и как FastAPI vs Flask, то есть очень удобный.
1) ООП (например, нужно наследоваться от
2) pydantic для валидации типов объектов
3) SQLAlchemy под капотом для баз данных!
4) Можно легко вставлять react компоненты
Есть галлерея с демками, го тестить
https://pynecone.io/docs/gallery
Вышел новый фреймворк (в альфе сейчас) под названием Pynecone. Выглядит он как pytorch vs tensorflow и как FastAPI vs Flask, то есть очень удобный.
1) ООП (например, нужно наследоваться от
pc.State
, чтобы поддерживать стейт в приложении, а не st.session_state["my_key"]
🤮)2) pydantic для валидации типов объектов
3) SQLAlchemy под капотом для баз данных!
4) Можно легко вставлять react компоненты
Есть галлерея с демками, го тестить
https://pynecone.io/docs/gallery
🤩4
Text Generation Inference от 🤗
Huggingface зарелизили либу для деплоя генеративных моделек. Все обернуто в докер, поэтому нужно всего лишь вызвать
Поддерживаемые модели
* BLOOM
* MT0-XXL
* SantaCoder
* GPT-Neox 20B
* FLAN-T5-XXL
Интересно будет протестить для GPT и FLAN-T5.
👩💻 github
Huggingface зарелизили либу для деплоя генеративных моделек. Все обернуто в докер, поэтому нужно всего лишь вызвать
docker run
, и на выходе у вас будет две ручки /generate
и /generate_stream
(swagger)Поддерживаемые модели
* BLOOM
* MT0-XXL
* SantaCoder
* GPT-Neox 20B
* FLAN-T5-XXL
Интересно будет протестить для GPT и FLAN-T5.
👩💻 github
👍5