Задай свой вопрос разработчикам поисковых систем
Итоги акции, проводимой совместно с Всероссийским Клубом Веб-разработчиков
С 28 января по 15 февраля 2003 года на сайте нашего журнала (www.samag.ru) и сайте Всероссийского Клуба Веб-разработчиков (www.webclub.ru) любой посетитель мог задать свой наболевший вопрос техническим специалистам поисковых систем – Яндекса, Рамблера, Апорта и Мета-Украины. Все мы время от времени становимся пользователями поисковиков. Надеемся, что эта акция поможет нам лучше понять друг друга. На вопросы читателей отвечают:
Илья Сегалович Андрей Коваленко
Поисковая система «Яндекс» Поисковая система «Рамблер»
Михаил Костин Алексей Чуксин
Поисковая система «Апорт» Украинская поисковая система «META»
Возможно ли в ближайшем будущем обеспечить разбор запросов (вопросов), заданных естественным языком? Например, «где взять телепрограмму?».
Вообще говоря, взаимодействие человека и компьютера на естественном языке, в частности естественная «беседа» с поисковыми системами, является давней, но, к сожалению, до сих пор нереализованной мечтой. Рискуя навлечь на себя гнев многочисленных апологетов систем искусственного интеллекта, скажем также, что несмотря на множество красивых и внешне правильных идей о его, искусственного интеллекта, реализации, вряд ли когда-либо в обозримом будущем он будет реализован. Однако дела обстоят не так плохо, поскольку реализация истинного машинного интеллекта для ответов на большинство вопросов пользователя вовсе не нужна. Нужно лишь приблизительно моделировать поведение разумного компонента при вычислении запроса.
Уже сейчас Рамблер пытается распознать, что именно интересует пользователя, а также тематику поискового запроса. Например, при поиске человека по его имени и фамилии (Иван Федоров), запускается специальный модуль, который оптимизирован именно под эту задачу. Аналогичные модули есть для поиска сайтов (www.somesite.ru), обработки запросов, содержащих числа (15 олимпиада), и т. д. Количество и «интеллект» таких модулей мы собираемся наращивать одновременно с совершеноствованием ядра поисковой машины.
Недавно мы начали классифицировать поисковые запросы и учитывать результаты классификации при ранжировании. Благодаря такому учету нам удалось сократить в ответах поисковика количество страниц, которые плохо соответствуют запросу.
Таким образом, некоторое приближение к ответам на естественно-языковые запросы существует уже сейчас, а необходимость корректно отвечать пользователю, задавшему вопрос «Не могли бы вы, ваши специалисты или ваша поисковая машина помочь мне найти в Интернете или других изданиях цену на дрова?», весьма сомнительна в практическом отношении, хотя, конечно, представляет академический интерес.
Сама тема «разбор запросов, заданных на естественном языке» – это не будущее, а прошлое поисковых систем, из тех времен, когда проектировщики поисковиков еще не знали, как же на самом деле массовый пользователь будет пользоваться их детищем. Теперь, когда строка запроса – рабочий инструмент, у полмиллиарда человек иллюзии развеялись.
На «естественном языке», точнее на том, что под этим многие понимают – длинные сочинительно-вопросительные конструкции – люди вопросы не задают, не задавали и задавать не будут никогда. Причина проста: людям свойственно экономить свои силы и время.
Реальная задача, стоящая перед пользователем: за минимальное число нажатий клавиш на клавиатуре и минимальное количество секунд, (например за 180, как в Кубке Яндекса), получить пертинентный, то есть удовлетворяющий прагматике (!) запроса ответ.
Таким образом, речь можно вести только о понимании телеграфного стиля общения, рваного синтаксиса и т. д. Это понимание демонстрируют многие поисковые системы. Мы в Яндексе наивно полагаем, что продвинулись дальше многих по данному пункту.
Разбор запросов в Яндексе существует уже давно. И люди этим активно пользуются, что видно по прямому эфиру (списку запросов, сделанных за последний час: http://www.yandex.ru/last20.html):
- оборудование для катания с гор;
- юридические энциклопедии;
- master of orion 3;
- toshiba ноутбук сервис-центр;
- образец подписи В. Яковлева;
- расписание поездов из Москвы.
Что касается приведенного примера, то по результатам поиска на запрос «где взять телепрограмму?» видно, что запрос не очень удачен: в найденных документах в основном обсуждается, где взять телевизионные программы, чтобы наполнить эфир. Лучше спросить «где взять программу передач?». А еще лучше вопрос уточнить: «программа передач на неделю» или «программа передач ОРТ».
А вот 10 первых по популярности запросов со словом «телепрограмма» (то есть то, как люди на самом деле спрашивают):
- елепрограмма – 4919;
- телепрограмма на неделю – 345;
- телепрограмма на сегодня – 139;
- новогодняя телепрограмма – 89;
- телепрограмма орт – 85;
- телепрограмма москва – 83;
- телепрограмма окна – 79;
- телепрограмма жди меня – 76;
- телепрограмма нтв – 67;
- телепрограмма стань звездой – 54.
Если посмотреть результаты поиска по этим запросам на Яндексе, видно, что проблема, поставленная в вопросе, несколько надумана.
Если речь идет о более-менее полноценном, хотя бы отдаленно сравнимом с человеческим, понимании любых запросов на естественном языке, то нет. А различные частичные решения возможны и реально применяются в поисковых системах.
Такой разбор обеспечить возможно, и работы по обработке запросов на естественном языке ведутся во всем мире. Однако, как показывает анализ статистики запросов, крайне малое число пользователей задает запрос на естественном языке. Пользователю проще написать запрос «телепрограмма» или перейти в соответствующую рубрику каталога, чем писать длинную фразу «где взять телепрограмму». То есть, на наш взгляд, эта проблема сейчас не является первоочередной для повышения качества поиска. Думаем, что актуальной она станет с развитием голосового ввода данных, когда от поисковых систем потребуется обрабатывать запросы, заданные голосом.
Сколько человеко-часов в месяц ваша компания тратит на совершенствование алгоритмов поиска (или разработку новых стратегий поиска), и сколько – на сопутствующие «навороты» типа дизайна и дополнительных сервисов?
Основные усилия мы тратим именно на совершенствование поиска. Это и улучшение качества поиска и увеличение производительности поисковой системы. На дизайн и дополнительные сервисы ресурсов выделяется меньше.
Над совершенствованием алгоритмов индексирования и поиска работает немного специалистов: основных алгоритмистов в поиске примерно пять-шесть человек. Много их и не может быть.
Если считать со всей «обвязкой» (например: локальный софт – Сайт, Бар; поисковые проекты – Каталог, Маркет, Новости, Энциклопедии, Картинки, и т. д.), в которой много своих алгоритмических задач, то получается больше: человек 12.
Но Яндекс – это не только поиск и не только поисковые проекты, у нас есть еще и Почта, и Народ, и много чего еще. И там тоже масса нетривиальных задач и алгоритмов. Одна борьба с почтовым спамом чего стоит! А всего программистов в Яндексе около 30.
Какие архитектурные решения организации баз данных являются ключевыми для достижения таких высочайших скоростей поиска? Как можно более подробно ознакомиться с этими технологиями?
Для достижения высокой производительности поисковой системы наряду с архитектурными решениями, минимизирующими ввод-вывод и позволяющими не вычислять величин, без которых можно обойтись, используется также глубокая оптимизация поисковых алгоритмов, так как всего лишь одна лишняя инструкция, исполненная несколько миллионов раз, уже вызовет серьезные задержки.
Кроме того, быстрый поиск невозможен без «тонкой» настройки серверов и операционной системы. Так, например, при вычислении поискового запроса данные загружаются с дисков «напрямую», в обход файловой системы.
Знание полного списка необходимых для поиска блоков данных и порядка их использования позволяет нагружать дисковые устройства и шину PCI более эффективно, чем это делает сама операционная система.
Еще один пример оптимизации – размещение некоторых критичных по времени доступа данных в памяти ядра ОС. При таком размещении скорость обращения к ним существенно растет.
Для того чтобы система такого масштаба функционировала 24 часа в сутки 7 дней в неделю, поисковик содержит модули балансировки нагрузки (выдачи более быстрым серверам большего количества запросов), восстановления после сбоев, автоматического мониторинга и т. д.
В поисковых системах не используются «архитектурные решения баз данных» (Oracle, Postgres, Informix, Sybase, MySQL и т. д.).
Все известные мне отечественные и зарубежные поисковые системы – это вручную написанный софт на низкоуровневом языке программирования. На тему архитектуры робота в той или иной мере можно найти публикации. Больше всего писала на эту тему Альтависта. Архитектура отработки поискового запроса – тайна в гораздо большей степени.
Поисковые системы требуют особого подхода к организации хранения данных: стандартные СУБД (Oracle и т. д.) для них не годятся. Этой теме посвящено достаточно большое количество литературы (англоязычной), для начального ознакомления можно рекомендовать известную статью создателей Google: «The Anatomy of a Large-Scale Hypertextual Web Search Engine» (http://infolab.stanford.edu/~backrub/google.html).
Как правильно составить meta для лучшего нахождения сайта в поисковых системах?
Поисковая система Рамблер, разбирая и индексируя документы, игнорирует содержимое тегов , за исключением тех, которые указывают на использование кодировки, например, UTF-8. Такое решение было продиктовано прежде всего заботой о пользователе, так как нерадивые (или чересчур рьяные) вебмастера считают своим долгом указать в списке ключевых слов каждого созданного документа все известные им наиболее частые слова запросов к поисковым машинам, не имеющие обычно никакого отношения к содержимому документа.
Этот вопрос не по адресу. С точки зрения поисковой системы, все усилия вебмастера для «лучшего нахождения сайта» – нежелательный эффект, который необходимо элиминировать.
Существует довольно распространенное среди новичков заблуждение, что задача хорошего позиционирования сайта в поисковых системах сводится к вставке на страницы неких мета-тегов. На самом деле, грамотное составление мета-тегов keywords и description полезно, но имеет второстепенное значение, некоторые поисковые системы эти теги вообще не учитывают, а те, что учитывают (к ним относится, в частности, Апорт) не придают им большого значения.
В связи с тем, что значительное число вебмастеров пытаются фальсифицировать данные в мета-тегах, наша поисковая система не учитывает эти данные при определении порядка выдачи документов.
На Lycos и Апорте в строке поиска можно задавать казахские слова, используя специфические символы казахского языка и успешно находить необходимую информацию. Большое им спасибо!
Почему бы на Рамблере и Яндексе это не реализовать? Понимаю, что под всех подстроиться нелегко, но набирать казахские слова кириллицей не всегда удобно. Тем более, что в Win2000 встроена поддержка казахского языка.
Мы планируем реализовать поддержку казахского языка в ближайшем будущем.
К сожалению, казахских сайтов еще очень и очень мало, кроме того, до сих пор не устоялся способ представления казахских букв. Есть разные варианты. Но в целом вы правы, мы над этим работаем.
Можно ли таким образом настроить механизм крупнейших поисковых систем, чтобы поиск осуществлялся корректно независимо от того, на каком языке сделан запрос, то есть включить поддержку специфических символов всех языков народов Мира, или хотя бы тех языков, которые используются при создании веб-сайтов в настоящее время?
В случае каждой отдельно взятой поисковой системы это возможно, однако представляется лишенным смысла заниматься поддержкой специальных символов, скажем, японского языка в российских поисковых системах. Мы планируем решить проблему поиска символов, о которых вы говорите, в ближайшем будущем.
Полностью корректным такой поиск быть не может. Ни одна поисковая система не в состоянии разрешить массу неоднозначностей, возникающих в такой многоязычной гетерогенной среде, как Интернет. Тем не менее «крупнейшие» поисковые системы как раз поддерживают относительно корректный поиск по многим языкам и кодировкам. Яндекс тоже двигается в этом направлении.
Наша поисковая система поддерживает поиск практически на всех европейских языках. Для украинского, русского и английского поиск идет с учетом словообразования этих языков.
Индексируют ли поисковики внешние файлы CSS?
Нет, описания стилей не индексируются, так как они содержат не информацию, а правила ее отображения, то есть правила формирования графического оформления страницы.
В этих файлах не бывает текстов. Подробности поведения робота – без комментариев.
Правильнее говорить в данном случае не об индексировании – индексировать в CSS нечего, а об извлечении информации о форматировании документов, использующих данный CSS. Насколько мне известно, на данный момент ни одна поисковая система этого не делает.
Мета не индексирует CSS.
Сегодня еще не разработана поисковая система, которая бы удовлетворяла своих пользователей. Существуют лишь подобия идеальной поисковой системы, КПД которых сравним с КПД паровоза: отношение количества найденных страниц, удовлетворяющих пользователя, к общему количеству найденных страниц. Кроме этого, найденные ссылки на страницы, удовлетворяющие пользователя, находятся зачастую не в первых 50-ти. Какие технологии и разработки в сфере поисковых систем будут применяться и внедряться в ближайшие годы? Следует ли ожидать в ближайшем будущем революционного (инновационного) подхода к поиску информации, который бы сделал поиск в Интернете во много раз эффективнее?
Сложно ответить кратко на такой длинный список вопросов и утверждений, так что попробуем разобраться по порядку. Бесспорно, удовлетворяющая всех пользователей поисковая система в настоящий момент еще не разработана; более того, можно утверждать, что такая поисковая система не будет разработана никогда, поскольку требования пользователей зачастую противоречат друг другу.
Сложно судить, что такое КПД в случае поисковой системы. Качество поиска оценивается двумя величинами – полнотой и точностью. Так вот, и по независимым, и по корпоративным оценкам, проводимым уже несколько лет и Апортом, и Рамблером, и Яндексом – у всех трех поисковиков точность давно перевалила за 90%. Такая оценка производится экспертами на основе анализа нескольких первых страниц выдачи поисковых машин; при этом оценка точности вычисляется как отношение количества соответствующих запросу документов к количеству документов на анализируемом количестве страниц. Так что если фраза «КПД паровоза» означает «13%», то это – или большое заблуждение, или проявление неспособности конкретного пользователя сформулировать запрос. Действительно, нельзя ожидать высокой точности поиска подробностей теракта 11 сентября по запросу «новости» через год после событий.
Если речь идет о тех пользователях, которые, не жалея сил, стремятся задать запрос на естественном языке, то их удовлетворить невозможно. Да их никто и не удовлетворяет. Их просто не существует (в статистическом смысле).
Остальные полмиллиарда счастливы тому миру открывающихся возможностей, который появился в их компьютере вместе с поисковыми системами.
Именно поисковые системы, то есть возможность находить нужную информацию в Интернете, – основной довод в пользу покупки и установки компьютера в последние два-три года в нашей стране.
Описывается ситуация, сложившаяся в технологиии ПС на рубеже 98-99 годов. В настоящее время этот кризис в основном преодолен при помощи методов, анализирующих тексты не изолированно, а в социальной сети. Анализ социальной сети – общее место всех современных поисковых систем. Именно в этом направлении следует сейчас ожидать дальнейшего развития. Но уже не революционного.
Революция уже случилась. Смена парадигмы произошла только что! Пользуясь словарем книги Томаса Куна «Парадигмы научных революций», можно сказать, что фаза ароморфоза заканчивается прямо на наших глазах. Мы сейчас наблюдаем переход от ароморфоза к идеоадаптации. Интересно отметить, что в пост-революционную фазу в массовом сознании все еще бытуют дореволюционные представления.
Хорошо или плохо ищут современные поисковые системы – это вопрос больше риторический, если сравнивать с некой идеальной поисковой системой, то, конечно, получится, что плохо. К счастью, для того чтобы быть полезной пользователям, то есть помогать им найти нужную информацию, поисковая система не обязательно должна быть идеальной, в большинстве случаев с этой задачей поисковики справляются. Революционных изменений в ближайшем будущем не ожидаются, скорее, все-таки эволюционные.
На мой субъективный взгляд, в Рунете сейчас существуют три кита в сфере поисковых систем: Яндекс, Рамблер, Апорт. Но к сожалению, не одна из этих ПС не владеет технологией реально качественного поиска информации. Результаты поиска в данных ПС состоят на 95-98% из «мусора», который не представляет для искавших никакого интереса, а лишь стресс, потерю времени и средств. Не собираются ли руководители этих трех ПС объединить свои знания, опыт и усилия, и начать разработку ПС нового поколения, которая бы несомненно была бы более совершенной? Имеет ли вообще место данная идея? Или это по каким-то причинам бесполезно?
Вопрос, на наш взгляд, аналогичен вопросу «почему все производители автомобилей не объединятся и не создадут один самый-самый-самый автомобиль на все случаи жизни».
Тема «мусора» поднимается повторно. Если речь идет о все том же «понимании естественного языка», то такой прогресс никому не нужен (см. выше). Объединение ради чего? Качество сейчас у всех достойное.
Про субъективность оценки качества поиска говорили в предыдущем вопросе, но про 95-98% «мусора» – это очень сильное преувеличение. Что касается объединения усилий, то, если бы такое и было возможно, вряд ли это само по себе позволило бы создать поисковую систему нового поколения.
Есть ли какой-то стандарт расширенных запросов для поисковых систем, или каждая система придумывает ее заново?
Строгого стандарта, принятого в качестве руководства к действию, не существует. Однако существуют сложившиеся традиции. Так, например, почти все поисковые машины поддерживают булев язык запросов, где используются операторы «И», «ИЛИ», «И_НЕ», а выражения могут быть сгруппированы скобками. При вычислении же запросов без операторов каждая команда разработчиков принимает свои собственные решения. Так, например, Рамблер по запросу в двойных кавычках выполняет поиск на точное вхождение фразы в документ.
Есть законодатели мод. Есть подражатели. У предыдущего законодателя (AltaVista) стандарт был достаточно приятным и его многие скопировали. У нынешного (Google) – настолько неэстетичен (в своей оригинальной части), что пока никто не хочет его повторять. Но, вообще-то, я согласен, что отсутствие стандарта – это хотя и не очень большая, но все же проблема для пользователей.
Стандарта нет, у каждой системы свой язык.
Считаете ли вы возможным в течение 5-7 лет создать поисковую систему нового поколения, которая бы общалась с пользователем не на формальном языке запросов, а на присущем человеку голосе? И является ли данная концепция одним из основных направлений в создании идеальной поисковой системы? Как, по-вашему, должна выглядеть идеальная поисковая система (как в сети Интернет, так и вообще)?
5-7 лет – очень большой срок для информационных технологий. Уже сейчас некоторые автомобили оснащаются речевым интерфейсом к сети Интернет. Поэтому то, о чем вы говорите, вполне реально.
Поисковые системы нового поколения уже созданы. Следующая революция по Куну должна случиться лет через двадцать-тридцать.
Не очень понятно, при чем тут голос, если имеется в виду распознавание речи, то в этой области я не специалист. Если же речь про понимание естественного языка, то создать систему, полноценно понимающую естественный язык, в указанные сроки нереально.
Демоверсию системы, работающей с голосом, можно увидеть по адресу: http://labs1.google.com/gvs.html. Думаем, что в ближайшие 5-7 лет появятся работающие прототипы поисковой системы, отвечающей на естественно-языковые запросы, заданные голосом.
Можно ли организовать полнотекстовой поиск в архиве документов на CD? Есть ли программы для индексирования и поиска на CD-архивах? Какие?
Да, конечно, есть такие программы – например, Яndex.CD (http://company.yandex.ru/programs/cd).
У нашей компании разработана технология поиска по СD.
Возможно ли в ближайшее время увидеть нововведение в поисковых системах, заключающееся в добавлении модуля «интеллектуального распознавания» пользователя? То есть в зависимости от того, что обычно ищет пользователь, какие разделы каталога поисковой системы он посещает, поисковая система начинает «делать для себя выводы» о том, что интересует пользователя и к какой тематике он ближе. Таким образом ПС определяет более узкую сферу поиска, что может привести к более высокому качеству работы ПС. Кажется ли вам эта концепция ключевой в дальнейшем совершенствовании поисковых систем?
Построение «профиля пользователя», некоторой меры круга его интересов, давно уже представляется весьма заманчивой идеей. Некоторые шаги в этом направлении уже сделаны. Так, Рамблер в ответ на запрос выдает так называемый «список ассоциаций», то есть те запросы, которые искали другие пользователи с подобным кругом интересов. Рейтинг Top100 также позволяет собирать подобную информацию, так как набор посещаемых сайтов характеризует пользователя. Однако в поиске эти данные пока не используются: автомобилист, который ищет «египет», вряд ли интересуется египетским автопромом.
Этот модуль уже был реализован (в частности, Альтависта и, кажется, Excite) примерно в 1999 году, заметного эффекта не дал и от него пришлось отказаться.
Ключевой не кажется, пользователь явно определяет, что его в данный момент интересует, вводя поисковый запрос. Сужать сферу поиска на основе каких-то других данных было бы вообще неправильно, речь может идти только о повышении приоритета документам, предположительно относящимся к сфере интересов пользователя. Это может быть полезно в некоторых случаях, но радикального повышения качества поиска в целом не обещает.
С точки зрения руководителей поисковых систем Яндекс, Рамблер, Апорт: данные системы качественно превосходят своих иностранных собратьев или нет? Мне было бы интересно получить ответ на данный вопрос с двух позиций:
а) В отдельности по каждой системе.
б) В совокупности, т.е. лучше ли русские поисковые системы (вместе взятые) иностранных (вместе взятых)? (Должны учитываться только качественные характеристики нахождения информации в сети Интернет.)
Ответить на такой вопрос можно только в том случае, если есть критерии сравнения. Если речь идет о поиске по российским ресурсам, то, конечно, для этого российские поисковики подходят гораздо лучше. Просто потому, что они изначально для этого проектировались.
Поисковик – это многоаспектная система. Счет факторов и возможностей идет на многие десятки. И у каждого крупного производителя ПС есть пункты, которыми он гордится, уникальные, лучшие в мире и т. д. и т. п.
Есть, конечно, и недочеты, причем у всех без исключения. Я могу долго перечислять наши сильные стороны, но лучше все-таки, чтобы вы прочитали это в независимом обзоре поисковых систем.
Какие документы, кроме html, индексирует ваша система?
«Плоский» текст. Мы планируем расширить список поддерживаемых форматов.
Rtf, pdf, gif, jpeg, png. Планируем добавить еще ряд форматов.
Апорт индексирует только документы в формате html. Документы некоторых других форматов могут быть найдены по тексту ссылок на них из html-документов.
В Интернете наша поисковая система индексирует сейчас только html-документы. У нас есть решения, используемые нашими корпоративными заказчиками, позволяющие осуществлять поиск не только по html-документам, но и по документам форматов txt, rtf, doc, dot, xls и другим популярным офисным форматам.
Почему Рамблер ведет подсчет найденных ресурсов в документах, а другие поисковые машины – в страницах?
Рамблер, в отличие от многих других поисковых машин, умеет «склеивать дубли» одного и того же текста, размещенные по разным адресам Сети, и хранит для таких текстов лишь одну копию. Поэтому при поиске он сообщает не количество найденных страниц, на которых есть слова запроса, а именно количество уникальных текстов, содержащих эти слова. Именно поэтому мы используем при подсчетах термин «документ», а не «страница». По нашим данным, миллион обработанных страниц порождает примерно 700 тысяч уникальных документов. Соответственно, 300 тысяч являются копиями.
Каков максимальный размер документа или размер той части, что будет проиндексирована? Есть ли это ограничение?
Робот скачивает примерно 200 Кб текста, а программы индексирования обрабатывают первые 65535 слов (знаки препинания считаются словами).
Подробности поведения робота – без комментариев.
128 Кб.
Сейчас у нас стоит ограничение на первые 200 Кб документа.
Есть ли возможность у вашего робота двигаться по ссылкам, код которых генерируется динамически? Вопрос связан с применением разного рода поп-ап и ролл-аут, даун меню... с их программной реализацией.
Подробности поведения робота – без комментариев.
Если речь идет о ссылках, генерируемых браузером при исполнении скриптов, то нет.
Насколько важно присутствие и содержание header-тегов (h1, h2 ...) на индекисруемых документах?
Поисковые системы, и Рамблер в том числе, ориентированы прежде всего на веб-документы, так что форматирование имеет не последнее значение. Конечно, оно учитывается при вычислении релевантности.
Подробности поведения робота – без комментариев.
Текст, заключенный в эти теги, обычно (если ими не злоупотребляют) имеет несколько более высокий вес при подсчете релевантности.
Теги h1, h2 и т. п. учитываются при определении порядка выдачи документов.
При предоставлении информации существуют несколько очень важных факторов (на мой взгляд): законность информации, достоверность информации, актуальность информации. По каждому пункту у меня имеются отдельные вопросы:
а) Считаете ли вы, что поисковые системы не должны (или не имеют права) предоставлять ссылки на страницы с содержанием, которое противоречит законам и моральным нормам? Если да, то будете ли вы создавать такую поисковую систему, которая не будет выдавать ссылки на похабщину, порно и другое?
б) Считаете ли вы, что поисковые системы должны содержать в своей БД ссылки только на страницы с достоверной информацией (или иметь такую опцию, чтобы пользователь сам для себя решал: искать достоверное или нет)? Если да, то как, по-вашему, данная концепция реализуема, или это невозможно?
в) Считаете ли вы, что поисковые системы должны иметь более развитое средство (чем указание при поиске «даты документа»), позволяющее пользователю находить только ссылки на страницы с актуальной информацией? Если да, то вы работаете над этим? (Я считаю, что ПС предоставляют информацию в виде ссылок на источник и выдержки из данного источника, которую так же можно отнести к одному из перечисленным мною факторам).
Поисковая система в настоящий момент является своего рода оглавлением к большой-большой книге, или даже библиотеке, которая называется Интернет, поэтому вопрос о том, стоит ли находить по нецензурным запросам нецензурные документы, сродни вопросу о том, следует ли выносить нецензурные слова в алфавитный индекс книги. Оценка достоверности информации в автоматическом режиме в настоящий момент вряд ли возможна, так как для этого требуется сформулировать соответствующие критерии, которые сработали бы практически для любого текста; ожидать же, что программный комплекс, даже имеющий в своем составе самое мощное лингвистическое ядро, справится с задачей, непосильной даже для человека, по меньшей мере, рано. Актуальность информации достигается в настоящий момент увеличением частоты обхода сети Интернет поисковой системой.
Здесь есть несколько аспектов, среди которых – ответственность поисковой системы.
Мы считаем, что ПС – автоматическая система, и в этом смысле не несет равной автору ответственности за содержание выдаваемой информации. Кроме того, мы не считаем себя вправе цензурировать содержание Интернета.
Однако с точки зрения пользовательского сервиса мы делаем все, чтобы помочь той очистке, о которой вы говорите. В частности, мы первая и до сих пор (вот уже 4 года) единственная в России ПС, реализующая порно-фильтрацию при использовании «Семейного Яндекса» (family.yandex.ru). В настоящее время мы работаем над фильтрацией фашистских сайтов.
При хостинге сайтов у себя (на Народе) мы придерживаемся другой политики – не разрешаем размещать содержание, «которое противоречит законам и моральным нормам» (см. Пользовательское соглашение http://www.yandex.ru/info/agreement.html).
Достоверность – это один из факторов, влияющих на ранжирование при анализе социальной сети. Например, на выявление и удаление из результатов поиска (или понижение ранга) неоригинальных (скопированных) материалов нацелены процедуры выявления и удаления точных и неточных дубликатов и зеркал. Подробнее об этом можно прочитать в нашей публикации на http://company.yandex.ru/articles.
Да, мы активно работаем над проблемой выявления, индексации и ранжирования «новой» актуальной информации. Пока существенных результатов мы не добились, но готовим продвижение в сторону вовлечения в анализ социальной сети фактора «новизны». Кроме того, с 2000-го года в параллельной выдаче Яндекса присутствует лента новостных агентств (более 50 участников), что частично снимает проблему «новизны».
Я не думаю, что поисковые системы должны заниматься цензурой. В то же время, предоставление пользователю возможности исключения из поиска документов «только для взрослых», безусловно, полезна.
Достоверность определить, конечно, нельзя, можно только попытаться оценить ее по некоторым косвенным признакам (к примеру, информация с корпоративного сайта известной компании заслуживает доверия в большей степени, чем информация с домашней странички Васи Пупкина). Не думаю, что в этом есть смысл, так как критерии, по которым можно провести такую оценку, слишком грубые.
Да, в некоторых случаях это очень существенно, например, прайс-лист трехлетней давности пользователю почти наверняка не нужен.
Какие объемы задействованы в хранении информации и как часто обновляется оборудование, задействованное в хранении информации?
Поисковый индекс занимает в сумме 250 Гб дискового пространства, однако он, конечно же, разбит на несколько частей, а части размещены на разных машинах.
Объемы мы регулярно сообщаем здесь: http://www.yandex.ru/chisla.html. Что понимается под обновлением оборудования: корпус и блок питания? диски? память? В общем, оборудование постоянно обновляется.
Сейчас нами проиндексировано около 150 Гб документов с украинских сайтов. Оборудование обновляется по необходимости.
Как можно ускорить процесс поиска на заданном сервере определенной фразыслова, причем поиск идет не только по html’кам, но и по базе? Как изменяется алгоритм?
Ускорение поиска достигается сведением к минимуму операций ввода-вывода и глубокой оптимизацией всех используемых алгоритмов.
каком поиске идет речь? Об индексации сайта Яндексом? Поиск по нескольким источникам сделать можно, например, с помощью локальной версии Яндекса – программы Яndex.Site.
Какую оценку вы бы поставили своей поисковой системе по 10-бальной системе? Устраивает ли вас качество поиска своей поисковой системы?
Качество поиска своей поисковой системы не может устраивать разработчиков. Если же такое случится, то поисковая система перестанет развиваться, что приведет к коллапсу.
Оценки должны ставить не мы, а пользователи. Что касается качества – мы сами пользуемся Яндексом, не потому, что таковы корпоративные правила, а потому, что мы делаем его и для себя, и нам удобно искать с его помощью. И, конечно, мы видим, куда нам расти и улучшаться.
В отношении качества поиска есть над чем работать (как, думаю, и другим поисковым системам).
Учитывают ли поисковые роботы HTML-теги, добавляющие структурную информацию в текстовые фразы? Конкретнее: теги и , предписанные стандартом для выделения? Если да, то в какой степени эти теги усиливают значимость («вес») заключенного в них текста? Хотя бы в сравнении с тегами и , которые они призваны заменить?
Да, Рамблер эти теги учитывает.
Подробности поведения робота – без комментариев.
учитывается наравне с , не учитывается, как и .
Теги и у нас не учитываются при определении порядка выдачи.
Вопрос разработчикам Яндекса. Вчера зашёл на Яндекс и в строке url своего браузера перед www.yandex.ru увидел иконку с красной буквой «Я» вместо обычного значка html-документа. Как это было сделано и почему сегодня иконка пропала и появился привычный значок?
Вы, наверное, пользуетесь Мозиллой? Иконка на месте. Это картинка размером 16х16, которая лежит в корне сайта и называется favicon.ico.
Что для поисковой машины Яндекс означает тег моего сайта
Этот тег ничего нового роботу не сообщает. Робот так и считает по умолчанию: «страницу индексировать, по ссылкам ходить».
Что я могу предпринять, чтобы Яндекс индексировал не только одну страницу моего сайта, а несколько?
Чтобы сайт индексировался нормально, очень рекомендуется не писать в url сессионную куку, иначе с точки зрения робота это каждый раз будут разные страницы и он будет тратить время на их обход, вместо индексации настоящей информации.
На днях Яндекс переиндексировал наш сайт, вследствие чего резко поднялся индекс цитирования и соответственно положение в результатах поиска (со второй страницы поиска по запросу поднялся на первую позицию первой страницы!). Поначалу я подумал, что причиной этому стала индексация движка сайта (потому что Яндекс свидетельствовал о более чем 400 страницах, но на самом деле оказалось, что Яндекс не проиндексировал ни одной страницы движка! А те 400 страниц – это страницы форума сайта. Меня, как разработчика движка, очень интересует, почему Яндекс не проиндексировал движок?
Этот вопрос надо задать в addurl@yanex.ru, там посмотрят на сайт, на базу робота и ответят. Только, пожалуйста, наберитесь терпения и не ждите немедленного ответа, за день на эту службу приходят десятки писем и нередко с очень сложными ситуациями.
Недавно мною был замечен новый паук Яндекса – YandexSomehing. Что это за паук, за что он отвечает?
Это не робот и не паук, а скрипт со странички «мой сайт глазами Яндекса».
Для общего ознакомления не могли бы вы выслать исходные коды Яндекса? Можно ли взглянуть на алгоритм Яндекса? Как часто он меняется?
Мы скоро выложим (собираемся оформить страницу и написать лицензию) программу морфологического разбора mystem в публичный некоммерческий доступ. После опубликования принципов работы, возможно, откроем и коды. Однако алгоритмы ранжирования и подавления спама или непотизма ни одна поисковая система не откроет никому и никогда.
Если Рамблер один раз уже нашел сайт и осуществляет по нему поиск по словам на главной (или других еще ?) странице, то если содержимое сайта изменится, будет ли Рамблер проверять его еще раз или это происходит только единожды? Заранее спасибо.
Да, Рамблер периодически навещает обработанные ранее сайты и обновляет свой индекс. Мы каждые несколько недель обновляем все страницы, которые были найдены пользователями хотя бы по одному поисковому запросу. Остальные страницы обновляются не реже, чем раз в 3 месяца. Примерно для трети всех сайтов, имеющихся в базе, выполняется полное переиндексирование каждый месяц. Конечно же, параллельно с этими процессами непрерывно идет пополнение базы новыми страницами.
Чем руководствуются создатели ПС Rambler, не разрешая своему пауку индексировать динамические сайты (*.pl, *.cgi, *.php,...), хотя всем известно, что *.htm, *.html – также могут быть страницами динамических сайтов?
Дело в том, что такие страницы очень часто дублируют уже присутствующую в сети Интернет информацию. Поэтому для того, чтобы уменьшить нагрузку на систему, мы их исключали. Однако в прошлом году начали эти ограничения снимать, и через некоторое время снимем их полностью.
Я тщательно подготовил описание сайта, ключевые слова, прописал все теги «title» & «alt» (также поизучав материалы на сайтах основных поисковиков) и после этого стал регистрировать сайт во всех основных поисковиках и каталогах (это было уже давно, месяцев 8-10 назад). Суть проблемы: Яндекс вполне нормально нас проиндексировал и по статистике с него постоянно идут посетители, примерно 200-250 в день; в то же время ни с Рамблера, ни с Апорта столько народу не приходит, а точнее вообще никого (от 2 до 5-6 в день). Не подскажете, как это можно объяснить и исправить?
Рамблер и Яндекс используют разные алгоритмы оценки соответствия документа или сайта запросу. Кроме того, аудитория этих поисковых систем различна. Постарайтесь переработать свой сайт так, чтобы содержимое было более релевантным целевому набору запросов.
В прессе много говорилось о том, что Рамблер стал индексировать любые динамические страницы. Практика показывает, что это не так. Некоторые сайты действительно индексируются, а некоторые – нет. В ближайшее время большинство значимых для Рунета сайтов будут разрабатываться на основе CMS (Систем Управления Контентом), а значит эти сайты будут полностью динамическими. Подскажите, от чего сейчас зависит успешность индексирования динамического сайта в Рамблере?
Мы постепенно ослабляем ограничения на «динамические» страницы для всех без исключения сайтов. Осенью мы ослабили ограничения для сайтов, построенных на ASP (то есть для URL, содержащих подстроку «.asp?»). Недавно ослабили ограничение на PHP. Через некоторое время ограничений не останется вовсе.
Рамблер во многих случаях снимает такие ограничения для сайтов, которые содержат, по мнению наших редакторов, уникальную информацию и/или являются популярными ресурсами. Также такие «послабления режима» возможны по просьбе авторов сайтов.
Выдержка из официальных сведений: «При поиске ресурсы, зарегистрированные в Top100, занимают первые несколько позиций (до пяти) и упорядочены в соответствии со своей посещаемостью». Разве это правильный подход в поиске информации? В результате имеем следующую нелепую ситуацию: какой-нибудь крупный ресурс, объединяющий в себе большой набор различных сервисов (например, мини-портал) и, имеющий очень высокую посещаемость только лишь за счет наличия большого информационного наполнения, получает к себе большой приток посетителей. Релевантность документа в этом случае не играет никакой роли.
На самом деле релевантность документа имеет также важную роль. Нерелевантные запросу страницы, пусть даже они и имеют огромный рейтинг Top100, все равно в выдачу не попадут. С другой стороны, из двух страниц, имеющих подобное содержание, раньше будет показана та, которая зарегистрирована в Top100 и имеет больший рейтинг. На наш взгляд, учет предпочтений пользователей имеет большое значение.
Как мне известно, база данных поисковых систем не хранит в чистом виде текст, найденный на страницах сайта. В БД сохраняются лишь какие-то слова с определенной информацией о себе (как часто встречается, какой уровень значимости и т. д.). Так каким же образом работает функция «реконструкция текста», например, в поисковой системе Апорт?
То, что вы пишете про БД, верно по отношению к той ее части, которая используется при собственно поиске. Тексты документов (в сжатом виде и с упрощенным форматированием), хранятся в отдельном хранилище и используются только для цитирования и реконструкции текста.
Мною на практике (на своих сайтах) замечено, что паук Апорта плохо индексирует сайты. Как правило, паук не индексирует больше 400 страниц, даже при повторном индексировании паук не заходит на остальные страницы. С чем связано такое явление? (для справки, все страницы *.html и имеют перекрестные ссылки).
Апорт применяет квотирование количества индексируемых документов с одного сайта. Размер квоты для сайта определяется его индексом цитируемости.