Warning: file_put_contents(aCache/aDaily/post/seo_python_2neuron/--): Failed to open stream: No space left on device in /var/www/tgoop/post.php on line 50 SEO Python 2 Нейрона@seo_python_2neuron P.21
Стоп! Зачем изобретать велосипед, когда есть TF/IDF и целая россыпь текстовых анализаторов?
Давным давно в далекой галактике, когда работали ссылки в Яндексе, в каждом втором резюме SEO Джуна не упоминались курсы Антона Маркина, а Рома Морозов и Андрей Буйлов жили в РФ, в Яндексе и Google работали языковые модели основанные на алгоритмах обработки мешка слов. Существует множество вариаций этих моделей, некоторые из которых, судя по прошлогодним сливам из Яндекса успешно используются и сейчас для ряда задач. TF/IDF, BM-25, BM25F, LSI – все эти модели так или иначе основаны на частотных словарях, глобальных IDF и документных TF. Но, мир не стоит на месте летит в преисподнюю поэтому рано или поздно от мешка слов пришлось отказаться в пользу трансформеров
Недостатки TF-IDF и BM25 по сравнению с трансформерами:
1. Ограниченная модель языка TF-IDF и BM25: Эти модели ранжирования опираются на простую статистику в оценке важности слов, игнорируя контекст. Слово "ключ" может использоваться в значении "ключ к машине" и "ключ от квартиры", но оба метода не способны различить их контекст. Трансформеры: Трансформеры строят глубокие представления слов в контексте всего текста. Так, используя внимание, модель различит, что "ключ" в контексте "машины" относится к автомобилю, а "ключ от квартиры" — к жилому помещению.
2. Синонимы и формулировки TF-IDF и BM25: Эти модели полагаются на точное совпадение слов. Если пользователь ищет "лекарство от боли", документ, содержащий "обезболивающее средство", может быть ранжирован ниже из-за разницы в формулировке. Трансформеры: Модели с использованием эмбеддингов способны обнаруживать схожесть между синонимами и близкими понятиями, поэтому могут выдать релевантные результаты, даже если терминология в запросе и документе отличается.
3. Фиксированное ранжирование TF-IDF и BM25: Оба метода устанавливают весовые коэффициенты для каждого слова независимо от запроса пользователя. Это приводит к фиксированному ранжированию, при котором одинаковый запрос всегда получает одни и те же результаты. Трансформеры: Модели трансформеров могут динамически ранжировать результаты, обрабатывая контекст запроса и документов. Например, запрос "лучшие смартфоны" будет давать разные результаты для статей о "самых доступных смартфонах" и "смартфонах премиум-класса".
4. Нормализация и длина документа TF-IDF и BM25: Эти модели могут неверно ранжировать длинные документы, если они содержат повторяющиеся ключевые слова, или недооценивать короткие, хотя и содержательные, статьи. Трансформеры: Трансформеры учитывают весь текст, а не просто набор ключевых слов, поэтому они способны лучше учитывать контекст даже в длинных или коротких документах. Трансформеры более эффективно ранжируют и анализируют тексты благодаря своему пониманию контекста и сложным отношениям между словами, что делает их предпочтительнее для обработки естественного языка в современных системах поиска.
5. Ну и самое главное, ради которого всё и задумывалось – учет порядка слов TF-IDF и BM25: Игнорируют порядок слов, что может привести к одинаковому ранжированию запросов с различным интентом, например "авиабилеты Москва Сочи" и "авиабилеты Сочи Москва". Трансформеры: Учитывают порядок слов в запросе, позволяя различать и корректно интерпретировать намерения пользователей для каждого направления полёта.
Подведем итоги! Модель TF-IDF и BM25 и её вариации живы до сих пор, более того тот же самый Magic и ГАР и векторный анализ дают похожие результаты, но собака, что называется зарыта в нюансах, а их поверьте мне масса!
Стоп! Зачем изобретать велосипед, когда есть TF/IDF и целая россыпь текстовых анализаторов?
Давным давно в далекой галактике, когда работали ссылки в Яндексе, в каждом втором резюме SEO Джуна не упоминались курсы Антона Маркина, а Рома Морозов и Андрей Буйлов жили в РФ, в Яндексе и Google работали языковые модели основанные на алгоритмах обработки мешка слов. Существует множество вариаций этих моделей, некоторые из которых, судя по прошлогодним сливам из Яндекса успешно используются и сейчас для ряда задач. TF/IDF, BM-25, BM25F, LSI – все эти модели так или иначе основаны на частотных словарях, глобальных IDF и документных TF. Но, мир не стоит на месте летит в преисподнюю поэтому рано или поздно от мешка слов пришлось отказаться в пользу трансформеров
Недостатки TF-IDF и BM25 по сравнению с трансформерами:
1. Ограниченная модель языка TF-IDF и BM25: Эти модели ранжирования опираются на простую статистику в оценке важности слов, игнорируя контекст. Слово "ключ" может использоваться в значении "ключ к машине" и "ключ от квартиры", но оба метода не способны различить их контекст. Трансформеры: Трансформеры строят глубокие представления слов в контексте всего текста. Так, используя внимание, модель различит, что "ключ" в контексте "машины" относится к автомобилю, а "ключ от квартиры" — к жилому помещению.
2. Синонимы и формулировки TF-IDF и BM25: Эти модели полагаются на точное совпадение слов. Если пользователь ищет "лекарство от боли", документ, содержащий "обезболивающее средство", может быть ранжирован ниже из-за разницы в формулировке. Трансформеры: Модели с использованием эмбеддингов способны обнаруживать схожесть между синонимами и близкими понятиями, поэтому могут выдать релевантные результаты, даже если терминология в запросе и документе отличается.
3. Фиксированное ранжирование TF-IDF и BM25: Оба метода устанавливают весовые коэффициенты для каждого слова независимо от запроса пользователя. Это приводит к фиксированному ранжированию, при котором одинаковый запрос всегда получает одни и те же результаты. Трансформеры: Модели трансформеров могут динамически ранжировать результаты, обрабатывая контекст запроса и документов. Например, запрос "лучшие смартфоны" будет давать разные результаты для статей о "самых доступных смартфонах" и "смартфонах премиум-класса".
4. Нормализация и длина документа TF-IDF и BM25: Эти модели могут неверно ранжировать длинные документы, если они содержат повторяющиеся ключевые слова, или недооценивать короткие, хотя и содержательные, статьи. Трансформеры: Трансформеры учитывают весь текст, а не просто набор ключевых слов, поэтому они способны лучше учитывать контекст даже в длинных или коротких документах. Трансформеры более эффективно ранжируют и анализируют тексты благодаря своему пониманию контекста и сложным отношениям между словами, что делает их предпочтительнее для обработки естественного языка в современных системах поиска.
5. Ну и самое главное, ради которого всё и задумывалось – учет порядка слов TF-IDF и BM25: Игнорируют порядок слов, что может привести к одинаковому ранжированию запросов с различным интентом, например "авиабилеты Москва Сочи" и "авиабилеты Сочи Москва". Трансформеры: Учитывают порядок слов в запросе, позволяя различать и корректно интерпретировать намерения пользователей для каждого направления полёта.
Подведем итоги! Модель TF-IDF и BM25 и её вариации живы до сих пор, более того тот же самый Magic и ГАР и векторный анализ дают похожие результаты, но собака, что называется зарыта в нюансах, а их поверьте мне масса!
Telegram channels fall into two types: Concise Hashtags In the “Bear Market Screaming Therapy Group” on Telegram, members are only allowed to post voice notes of themselves screaming. Anything else will result in an instant ban from the group, which currently has about 75 members. Telegram is a leading cloud-based instant messages platform. It became popular in recent years for its privacy, speed, voice and video quality, and other unmatched features over its main competitor Whatsapp.
from us