Дата
Автор
Скрыт
Источник
Сохранённая копия
Original Material

Заметка 62: AltaVista: Scooter В Деле

Рубрика: Наши сети

АльтаВиста: Скутер в деле

Антон Носик <anton@beseder.com>

В прошлом выпуске нашей рубрики мы рассказывали о практических аспектах использования поисковой машины АльтаВиста (http://altavista.digital.com/). Сегодня поговорим о ее анатомии, внутреннем строении и принципах работы.

Прежде всего, озадачимся вопросом: где ищет АльтаВиста те документы, адреса которых она нам выдает? Разумеется, не во всем большом Интернете: в подобном случае обслуживание любого запроса занимало бы годы. Документы, которые просматривает поисковая машина (любая - не только АльтаВиста, но и Lycos, Webcrawler, Inktomi, Yahoo, Magellan и т.п.), хранятся в специальном индексированном формате базы данных на ее локальном диске, вместе с теми адресами, по которым можно найти оригиналы этих документов в Сети. АльтаВиста для хранения и просмотра своей информации использует технологию, разработанную компанией Digital (полное название - DEC, Digital Equipment Corporation). В сущности, поисковый робот является одной большой рекламой эффективности и мощи этой технологии, а также тех программных и аппаратных продуктов DEC, в которых она использована.

Из такого способа индексирования Сети следует один прискорбный, но неизбежный вывод: результаты поиска АльтаВисты по определению изначально недостоверны. Потому что домашние страницы постоянно меняются; всякий из 30.000.000 документов, копии которых хранятся в базе АльтаВисты, может в любой момент исчезнуть или подвергнуться кардинальным преобразованиям, автоматическое отражение которых в базе данных DEC принципиально невозможно. Среднее время жизни документа на WWW - 52 дня, а АльтаВиста не удаляет документы из своей базы по несколько месяцев, и правильно, в общем-то делает. Сейчас я даже объясню, почему. Для этого следует обратиться к вопросу о том, как база данных АльтаВисты комплектуется и поддерживается.

Созданием и пополнением этой базы занимается робот по имени Скутер. На протяжении трех лет до официального объявления об открытии АльтаВисты (декабрь 1995) Скутер периодически путешествовал по паутине, "считывал" все найденные там документы и загонял в одну большую базу вместе с адресами. Эта база индексировалась, и содержимое документов становилось частью общего пространства поиска.

Все линки (отсылки на другие адреса или документы, найденные в тексте индексируемой страницы) Скутер записывал, и записывает по сей день, в свою адресную книгу, в порядке поступления. То есть, отиндексировав какую-либо страницу, на которой содержатся ссылки к еще сорока адресам, Скутер не только обогащает текстом этого документа базу данных АльтаВисты, но и добавляет к маршруту своих будущих экскурсов четыре десятка новых адресов. Разумеется, они добавляются в конец его списка, так что если там уже стоит миллион других необследованных адресов, то сорок свежедобавленных линков должны довольно долго дожидаться своей очереди.

Ситуация несколько изменилась с тех пор, как деятельность Скутера из тайной сделалась явной. С этого дня сорока миллионам посетителей паутины было разрешено "кормить с рук" всеядного Скутера, добавляя свои страницы к его адресной базе с помощью специального интерфейса, находящегося по адресу:

http://altavista.digital.com/cgi-bin/query?pg=addurl

И этот интерфейс сегодня работает совершенно изумительным образом. Вы добавляете новый адрес и нажимаете на Submit. Робот сперва проглядывает свою базу из 40-50 миллионов адресов, проверяя, не успел ли он побывать на этой странице прежде. Если адрес знаком - робот говорит "Спасибо, я там уже был". В противном случае он тут же отправляется на поданную страницу. Если он ее обнаруживает, то моментально вливает содержимое в свою базу. Через полторы секунды после нажатия кнопки Submit мы получаем на экране сообщение примерно такого содержания:

"Спасибо за то, что вы сообщили нам новый адрес. Указанная вами страница была считана с сети за 0.3 (к примеру) секунды и добавлена к нашей базе. В течение суток она будет включена в базу поисков, и в течение нескольких дней она будет полностью проиндексирована."

Строго говоря, это не то чтобы совсем неправда, но это не очень точное сообщение. Ни о каких часах или днях речь не идет. В ту самую секунду, когда мы узнаем, что Скутер считал нашу страницу с сети, все ее содержимое уже занесено в базу АльтаВисты, и при указании соответствующих ключевых слов может быть там найдено. Представляю себе, сколько высоколобых знатоков Интернета, прочитав эту фразу, сочтут ее лишним подтверждением моей общей компьютерной неграмотности и невежества. Посему предлагаю всякому, кто сомневается, провести очень простой эксперимент:

1. Создайте страницу, на которой находилось бы какое-нибудь немыслимое слово, типа golovozhopoe. Вот примерный текст такой страницы:

<HTML><HEAD>

<TITLE>Proverka AltaVisty</TITLE>

<META NAME=keywords CONTENT="golovozhopoe,proverka,AltaVista">

<META NAME=description CONTENT="Proverim AltaVistu na vshivost">

</HEAD><BODY>

Eta stranica ne neset nikakoj smyslovoj nagruzki. Vse pretenzii po etomu povodu k <A HREF=mailto:nosik@usa.net>Nosiku</a>.

</BODY></HTML>

Я написал текст страницы в транслите (по-русски латинскими буквами), однако если у вас есть русские драйверы клавиатуры, то АльтаВиста с тем же успехом индексирует и alt, и CP1251, и KOI8, и любой ивритский текст.

2. Поместите эту страницу на доступный вам WWW сервер. Если у вас его нет - заведите себе директорию в GeoCities, по адресу http://www.geocities.com/. Все удовольствие (включая чтение инструкций) займет минут 15-25, в зависимости от вашего знакомства с Интернетом и английским языком.

3. Зайдите на АльтаВисту по указанному выше адресу интерфейса добавления и укажите там полный адрес (URL) вашей свежесозданной страницы.

4. После получения подтверждения, что страница считана с Сети, выполните поиск в АльтаВисте на слово golovozhopoe.

5. Если АльтаВиста тут же не выдаст вам адрес и содержимое вашей только что зарегистрированной страницы - сообщите об этом мне по известному адресу, и я покаюсь в ламерстве публично.

К сожалению, на этом сегодняшнюю заметку нам придется прервать, так что окончание рассказа об АльтаВисте читайте в завтрашнем выпуске газеты.

Завтра мы завершим путешествие в недра АльтаВисты с отсылкой к Скотту Пакину, который немало почерпнул для себя ценного из нашей публикации за прошлую среду. После этого - уже, видимо, на следующей неделе, - мы ступим на землю заветного архипелага Куличиков...