|
Рубрика:
Карьера/Образование /
Машинное обучение на практике
|
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|
ВИЗИТКА
Михаил Орлов, data scientist направления R&D AI компании Bell Inegrator
Как компьютеры понимают текст: от мешка слов до семантики Зачем смысл в тексте, если есть слова?
Рассмотрим один из базовых методов обработки текста – мешок слов (bag-of-words): как он работает, где применяется и какие имеет ограничения.
Один из основных способов получения информации человеком – письменность. Тексты окружают нас повсюду: как в повседневной жизни, так и в цифровой среде. Это ключевое средство коммуникации, и, конечно, человечеству хотелось бы, чтобы компьютер умел не просто хранить тексты как набор символов, а как-то интеллектуально с ними работать.
За долгие годы было разработано множество подходов к обработке текстов на ЭВМ: от простых до довольно сложных. Они позволяют получать более-менее осмысленные ответы на основе пользовательских запросов и хранимой информации.
<...>
Ключевые слова: машинное обучение, обработка естественного языка, NLP, bag-of-words, мешок слов, векторизация текста, косинусная близость, чат-боты, поиск по тексту, синонимы, омонимы, семантика, scikit-learn
Полную версию статьи читайте в журнале Подпишитесь на журнал
Facebook
Мой мир
Вконтакте
Одноклассники
Google+
|