|
Рубрика:
Карьера/Образование /
Машинное обучение на практике
|
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|
ВИЗИТКА
Михаил Орлов, data scientist направления R&D AI компании Bell Inegrator
Модель TF–IDF: как компьютер оценивает важность слов
Разберём модель TF-IDF – один из ключевых методов для оценки важности слов в тексте. Как она работает, где применяется и какие имеет преимущества перед простым мешком слов.
Зачем нужна оценка важности слов?
В последние годы все мы постоянно сидим в мессенджерах и ежедневно читаем сотни постов из десятков каналов. И, конечно, стараемся выделить главное в этом нескончаемом потоке информации. Авторы часто используют кричащие заголовки – «СРОЧНО», «ЭТО НАДО ЗНАТЬ» и так далее – хотя по факту это лишь фоновый шум. Содержательность поста определяют совсем другие слова, например: «ипотека», «закон», «НДС». Они встречаются реже, и именно по ним с большей вероятностью можно понять, будет ли статья для вас полезной.
<...>
Ключевые слова: машинное обучение, обработка естественного языка, NLP, TF-IDF, ранжирование текстов, векторизация текста, косинусная близость, корпоративный поиск, база знаний, техподдержка, рекомендательные системы, синонимы, омонимы, объяснимость моделей, scikit-learn
Полную версию статьи читайте в журнале Подпишитесь на журнал
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|