Posted 28 июня 2004,, 20:00

Published 28 июня 2004,, 20:00

Modified 8 марта, 09:42

Updated 8 марта, 09:42

Поиск@Mail.ru исправляет «очепятки» пользователей

28 июня 2004, 20:00
22 июня компания @Mail.ru объявила о внедрении в системе Поиск@Mail.ru (http://go.mail.ru) сервиса исправления опечаток и ошибок в русских словах. Теперь пользователям, невнимательно набравшим текст запроса или сделавшим орфографическую ошибку, будет выводиться подсказка, предлагающая поискать то же самое слово, но в е

Модуль исправления опечаток работает следующим образом: изначально запрос обрабатывается поисковым механизмом, и, если было найдено слишком маленькое количество результатов, это является для программы сигналом к проверке слов запроса в словаре. Если в словаре найдены слова, немного отличающиеся от заданного, то над результатами поиска выводится подсказка. Для выбора наиболее релевантных подсказок в системе также анализируется частота употребления тех или иных слов в различных выражениях и словосочетаниях.

Изначально при запуске системы за основу был взят открытый словарь известного лингвиста профессора А.А. Зализняка. Ежедневно база данных слов и словоформ расширяется и пополняется различными компьютерными, профессиональными и сленговыми терминами и выражениями, которые отбираются профессиональными лингвистами в процессе анализа запросов пользователей.

Кроме орфографических ошибок в словах, система умеет распознавать следующие досадные недоразумения:

– два «слипшихся» между собой слова;

– вставленный в середину слова лишний пробел;

– вставка лишней буквы;

– отсутствие нужной буквы;

– неправильная кодировка;

– неправильный язык ввода текста.

Система может справиться и с комбинацией нескольких ошибок – например, если вы при вводе запроса забыли переключиться с английской раскладки клавиатуры на русскую, да еще допустили ошибку в слове, Поиск@Mail.ru легко решит головоломку, которую вы ему задали и, проанализировав ваше rfycnbnewbz, ласково спросит вас: «Опечатка? Возможно, вы имели в виду «конституция».

Механизм исправления опечаток и ошибок в русских словах реализован в двух российских поисковых машинах помимо Поиск@Mail.ru, однако в более простом варианте, в частности, они не умеют фиксировать комбинацию двух ошибок, не исправляют запросы, пришедшие в неправильной кодировке и не умеют удалять из слов лишние пробелы.

Новый поисковый сервис на портале @Mail.ru был запущен летом 2003 года. Поисковый механизм, использующийся на Mail.ru, осуществляет индексацию ресурсов всего мирового Интернета. Таким образом, Поиск@Mail.ru сразу приобрел большое конкурентное преимущество перед всеми отечественными поисковыми системами, осуществляющими поиск только по русской части сети, на долю которой приходится всего около 8% страниц.

За год специалистами компании Mail.ru был произведен ряд технологических разработок, а именно: внедрение морфологического модуля, позволяющего искать с учетом разных словоформ; интеграция с крупнейшим в Рунете каталогом сайтов (Каталог@Mail.ru), внедрение механизма демонстрации контекстной рекламы. Также, на базе Поиска@Mail.ru, были запущены новые сервисы – поиск по товарам, программному обеспечению и словарям.

На май 2004 года дневная аудитория проекта составила 150 тыс. уникальных пользователей.

"