Posted 28 июня 2004,, 20:00
Published 28 июня 2004,, 20:00
Modified 8 марта, 09:42
Updated 8 марта, 09:42
Модуль исправления опечаток работает следующим образом: изначально запрос обрабатывается поисковым механизмом, и, если было найдено слишком маленькое количество результатов, это является для программы сигналом к проверке слов запроса в словаре. Если в словаре найдены слова, немного отличающиеся от заданного, то над результатами поиска выводится подсказка. Для выбора наиболее релевантных подсказок в системе также анализируется частота употребления тех или иных слов в различных выражениях и словосочетаниях.
Изначально при запуске системы за основу был взят открытый словарь известного лингвиста профессора А.А. Зализняка. Ежедневно база данных слов и словоформ расширяется и пополняется различными компьютерными, профессиональными и сленговыми терминами и выражениями, которые отбираются профессиональными лингвистами в процессе анализа запросов пользователей.
Кроме орфографических ошибок в словах, система умеет распознавать следующие досадные недоразумения:
– два «слипшихся» между собой слова;
– вставленный в середину слова лишний пробел;
– вставка лишней буквы;
– отсутствие нужной буквы;
– неправильная кодировка;
– неправильный язык ввода текста.
Система может справиться и с комбинацией нескольких ошибок – например, если вы при вводе запроса забыли переключиться с английской раскладки клавиатуры на русскую, да еще допустили ошибку в слове, Поиск@Mail.ru легко решит головоломку, которую вы ему задали и, проанализировав ваше rfycnbnewbz, ласково спросит вас: «Опечатка? Возможно, вы имели в виду «конституция».
Механизм исправления опечаток и ошибок в русских словах реализован в двух российских поисковых машинах помимо Поиск@Mail.ru, однако в более простом варианте, в частности, они не умеют фиксировать комбинацию двух ошибок, не исправляют запросы, пришедшие в неправильной кодировке и не умеют удалять из слов лишние пробелы.
Новый поисковый сервис на портале @Mail.ru был запущен летом 2003 года. Поисковый механизм, использующийся на Mail.ru, осуществляет индексацию ресурсов всего мирового Интернета. Таким образом, Поиск@Mail.ru сразу приобрел большое конкурентное преимущество перед всеми отечественными поисковыми системами, осуществляющими поиск только по русской части сети, на долю которой приходится всего около 8% страниц.
За год специалистами компании Mail.ru был произведен ряд технологических разработок, а именно: внедрение морфологического модуля, позволяющего искать с учетом разных словоформ; интеграция с крупнейшим в Рунете каталогом сайтов (Каталог@Mail.ru), внедрение механизма демонстрации контекстной рекламы. Также, на базе Поиска@Mail.ru, были запущены новые сервисы – поиск по товарам, программному обеспечению и словарям.
На май 2004 года дневная аудитория проекта составила 150 тыс. уникальных пользователей.