Лучший корабль Интернета

2011-07-03T12:57:21+07:00

Вздумалось с утра проверить — а какие вообще по качеству бывают поисковые машины?

В качестве поискового запроса я ввёл «latex minipage». Подобные запросы я ввожу достаточно часто, когда лень рыться в поисках нужной страницы в документации.

Запрос оказался очень удачным. Хороший поисковик может понять по второму слову, что мне нужен не латекс, а LaTeX, причём информация по конкретной команде (стандартной, замечу). Более того: официальная документация растиражирована в огромном количестве (даже на сайте NASA), и я ожидаю выдержку\перевод оттуда на первой странице выдачи. Плохой поисковик… впрочем, смотрите сами.

Вкратце поясню, что это такое. LaTeX — научная издательская система. В ней очень удобно готовить любого рода документы, презентации и прочее, особенно если в них используются формулы. Minipage — это окружение, обычный «тег» в теле документа, который объявляет новую мини-страницу. Что это такое и как его готовить — об этом и должен сообщить поисковик.

Идти буду по алфавиту (латинскому). Скрины порезаны Adblock’ом, поэтому рекламы на них нет. Исключительно сам поиск.

Апорт

О боже, боже, боже мой, я даже подавился сухариком. Первая ссылка: «Экологический Форум - Фундаментальная Экология: porn tubegay free lesb..», рубрика «Научные организации». Сайт оказался действительно научным, просто на его форуме не чистят порнорекламу. И это мне подсовывают как лучший результат?!

На первой странице выдачи всего две ссылки относятся к LaTeX’у, а не к… вы поняли. Апорт нашёл всего 16 сайтов, из которых только пять слышали про окружение minipage. Супер. И эти люди ещё смеют писать в заголовке «Апорт: ищет что надо». Я специально забил ещё парочку запросов и посмотрел на лучшие результаты.

  • «банка и кисель» (внятных результатов не жду, запрос дикий) -- мне предлагают «Кисель „При климаксе” гранулы банка 400 г»
  • «как косить траву» -- видео «Как косить траву», оригинальное название: «Best Idea Ever»
  • «ruby split» (я имел в виду метод split языка ruby) -- «Коллекция одежды Ctrl, футболки Obey и женские вещи Split, Elwood, Enjoi и Ruby»
  • «python split» -- «Программирование на Ruby»
  • «как записывать ИНН» (внятных результатов не жду, запрос странный) -- «Первый игрок задумывает слово и записывает первую букву этого слова и под ней — количество букв в задуманном слове...»

Какой-то анекдот. Как только переходишь на любой специализированный запрос, Апорт тут же начинает гнать бред. Да, и ещё мне почему-то показывают рекламу от Яндекса. Сервису 15 лет, а ищет как в двухтысячном. Закрываю вкладку, ухожу подальше от этого чудом сохранившегося реликта.

Bing

Сервис американский, поэтому первым результатом идёт перепечатка официальной документации (на английском, конечно же). Совершенно непонятно откуда, сайт какой-то левой утилиты info2html (при чём тут LaTeX?) — но информация именно та, что нужно. То же самое повторяется на странице ещё дважды, из разных источников. На второй позиции «Записки дебианщика», где можно найти краткую справочку на понятном русском.

Нареканий нет, всё прекрасно. Для интереса проверяю на тез же запросах, что задавал Апорту:

  • «банка и кисель» -- «Кисель Изотова с точки зрения микробиолога»
  • «как косить траву» -- полнейшая инструкция, браво!
  • «ruby split» -- «Ruby Split Cane Rods | Facebook», нужная ссылка лишь на второй позиции
  • «python split» -- официальная документация
  • «как записывать ИНН» -- «Как учить английские слова?»

Поисковик хороший.

Gigablast

На первых местах почему-то стоят разные форумы, где люди ищут ту же самую информацию. Официальная документация с полным ответом на мой запрос стоит на шестом, седьмом и восьмом местах. Не лучший результат, но вполне удовлетворительный.

Смотрим дальше.

  • «банка и кисель» -- «Копченая белуга и вишневый кисель - Экономика - GZT.RU»
  • «как косить траву» -- выбор и ремонт газонокосилок
  • «ruby split» -- почти бесполезная тема на Stack Overflow, нужная ссылка опять второй
  • «python split» -- полный разбор на Stack Overflow, прекрасно
  • «как записывать ИНН» -- «Интервью с интернет-лейблами: Free as a Bird, UGW и Mimonot Records»

Google

Официальная документация идёт второй, на первом месте — её пересказ на нормальном английском. Четвёртым идёт бесполезное обсуждение сносок на Linux.org.ru. Если перейти на фильтр по русскому языку, то первым будет какой-то английский блог с куском кода без комментариев.

  • «банка и кисель» -- «Кисель Успокаивающий (Банка) 200г»
  • «как косить траву» -- более-менее чёткий совет для косы. Интересно, что подробнейший ответ на этот вопрос, как я уже знаю из Bing, лежит в Google Ответах.
  • «ruby split» -- то, что нужно
  • «python split» -- официальная документация
  • «как записывать ИНН» -- справка 1С:Предприятие

Мировой лидер, гигантская компания, моря денег, которые вкладывают в совершенствование алгоритмов… Гугл не выдаёт лучших результатов, но его советы почти всегда приходятся к месту.

Lycos

Официальная дока идёт первой, третьей и четвёртой. На второй и восьмой позициях — человеческий пересказ. К каждому результату даже показан скриншот. Бесполезных ссылок на первой странице нет, рекламу тоже не показывает.

  • «банка и кисель» -- «Кисель Изотова(взгляд микробиолога)» (они что, оптимизируют?!)
  • «как косить траву» -- «Сенокос в Петербурге», много каких-то видео
  • «ruby split» -- полноразмерная статья с подробным разбором
  • «python split» -- официальная документация
  • «как записывать ИНН» -- «Как учить английские слова» (у меня какое-то странное подозрение...)

В начале двухтысячных я часто пользовался lycos.ru, но потом сервис ушёл из России. Сейчас он показался мне очень приличным и полезным.

Mail.ru

Собственный движок поиска mail.ru включает только если выбран поиск по Рунету; иначе он обращается к Google. Это очень хорошо видно по выдаче.

Первым же результатом — то, что нужно. Второе, четвёртое, пятое, седьмое, восьмое, десятое места — совершенно бесполезные ссылки. Что-то развёрнутое ещё можно найти на девятой позиции. Да, до уровня Google этот движок не один год придётся допиливать.

  • «банка и кисель» -- «Обещав ей все без остатка выпить я дождался ухода матери, и стал думать как мне быть с целой литровой банкой киселя...»
  • «как косить траву» -- довольно подробное разъяснение работы с косой.
  • «ruby split» -- краткая отписка почему-то на английском
  • «python split» -- чей-то вопрос на ту же тему, официальная документация на третьей позиции
  • «как записывать ИНН» -- «Певица Инна Субботина записывает новый альбом под рабочим названием „Танцы дождя”»

Meta

Украинский поисковик, неизвестный в Рунете. Возможно, заслуженно неизвестный.

Первая ссылка — «BioSport.com.ua • Просмотр темы - fat pornstars swelling breast» заставила меня заскучать по Апорту. В его научных организациях хотя бы девчонки красивые. Вторая ссылка — «LaTeX. Wiersz po wierszu - Antoni Diller» жестоко надо мной поглумилась за незнание польского. Четвёртая ссылка предложила «free hot sex kurdish flexible sex».

Полезной информации на первой странице нет. Вообще. Из 20 сайтов слово «latex» как издательскую систему понимают лишь десять.

Я очень сильно сомневался, стоит ли проверять дальше или можно сразу убежать отсюда. Но личная порядочность и любопытство (я, она и кисель…) одержали верх.

  • «банка и кисель» -- рецепт киселя из сушёных яблок или кураги, неплохо
  • «как косить траву» -- на первом месте вопрос «чем косить?», на втором -- «грешно ли косить от армии?». Ребят, где трава?!
  • «ruby split» -- совершенно бесполезная страница на сайте, посвящённом Ruby On Rails (это немного другое)
  • «python split» -- форум «Общие вопросы по Python», ничего полезного
  • «как записывать ИНН» -- на первом месте «Чем опасен ИНН?», на втором -- «Записываемся в школу»

Я не проверял работу с украинским языком — быть может (хотя не думаю), сервис не предлагает помыть ноги тёще тому, кто хочет почистить тапочки.

Если сравнивать поисковики с кораблями, то этот будет железякой, которая плывёт из села Кукуева. Если вы её увидели — лучше пройти мимо.

Webalta

Достаточно развёрнутый ответ находится на третьей позиции, первые две относительно бесполезны. Официальная документация — шестая и восьмая строки. Лишних результатов на первой странице нет.

  • «банка и кисель» -- продажа киселя витаминного для глаз. Кисель, естественно, в банках.
  • «как косить траву» -- на первом месте вопрос «чем косить высокую траву?», на втором -- тот самый подробнейший ответ.
  • «ruby split» -- подробное описание в викиучебнике
  • «python split» -- чей-то вопрос и обсуждение, затем идёт официальная дока
  • «как записывать ИНН» -- «Нравственное богословие...»

По запросу про тапочки получилась какая-то накладка. Сначала он признал, что ничего не найдено, а потом — когда я нажал F5 — выдал штабелями сотни страниц. Это странно. Если произошла ошибка — почему бы не признать это и не предложить обновить страницу чуть позже? У меня ещё два поисковика на очереди, между прочим, я могу и там что-нибудь найти.

Ресурс кажется незаслуженно забытым и каким-то скромным, потому что к своей работе он относится довольно серьёзно. Не выдаёт бреда, понимает контекст. В выдаче нет порноссылок, но показывают текстовую рекламу (от Google) и баннеры (на скрине вырезано Adblock’ом).

Yahoo

Лишних ссылок на первой странице нет, а вот бесполезных гораздо больше. На первой строке — общий разбор по подготовке документов в LaTeX на Хабрахабре. Официальная дока на десятой строчке, развёрнутые описания на русском идут под номерами 5 и 7.

  • «банка и кисель» -- «Сергей Леонидович Кисель, Национальный банк РБ»
  • «как косить траву» -- «Три притчи (Толстой) — Викитека»
  • «ruby split» -- «Ruby/Жаргон — Викиучебник», нужный раздел на второй строчке
  • «python split» -- что-то полезное только на четвёртом месте
  • «как записывать ИНН» -- «О недопустимости присвоения идентификационных кодов общинам православных христиан»

В Рунете «Яху» мешает не только название. Его легко заносит не в ту степь — так, по запросу «великий конан» на первой странице появляется аниме-сериал про Шерлока Холмса. Чтобы найти что-то нужное, нужно пройти как минимум по четырём ссылкам. Казалось бы, куда ушли все наработки Altavista?

Яндекс

Официальная документация — номера 3,5,9. На первых двух позициях объясняется доступным языком использование minipage для вёрстки картинок. На первой странице ничего лишнего. По-моему, результат прекрасен.

  • «банка и кисель» -- рецепты киселей
  • «как косить траву» -- текстовое описание процесса
  • «ruby split» -- официальная документация
  • «python split» -- официальная документация, из которой тут же цитируется необходимый кусок (!)
  • «как записывать ИНН» -- «Пример заполнения налоговой декларации»

В своё время я бросил пользоваться Яндексом именно потому, что он искал всякую дрянь. То есть, я ищу какие-нибудь «руки и ноги» — он предлагает «ручной и ножной». Я плюнул и ушёл на западные поисковики, которые не знали русского, а значит, искали точно то, что я ввёл.

Сейчас, похоже, сервису хорошо вправили мозги. Он выдаёт именно то, что нужно, причём в первых результатах. Мне не удалось загнать его в тупик — он ответил на все вопросы. Это просто монстр среди поисковых роботов.

Я не буду подводить выводы, тем более что всё и так в общем-то ясно. Компьютерная линвистика — дело сложное, и чем меньше профессионалов работают над поисковиком, тем хуже он выходит. Интернет для всех общий, а языки у каждого свои, и каждый надо понимать.

Вряд ли в ближайшие пять лет произойдёт что-то радикально новое. Чтобы, например, Webalta вышла из рамок Рунета, им надо будет потратить много-много бумажных нулей на расширение армии компьютеров, горы винчестеров и орды админов. Чтобы «Апорт» внезапно стал нормальным поисковиком, им придётся потратиться на батальон гениальных программистов. Чтобы поиск по картинкам «Яндекса» работал не только на ya.ru и «Яндекс.Фотках»… Хотя нет, это ещё в пределах досягаемости.

Интересное всегда рядом. Нужно только сделать запрос.