Rambler's Top100
 
 
  02 декабря 2008 года Компьюлента
CIO
Терралаб
Бизнес-журнал
в поле зрения | обзоры и тесты | своя игра | интерактив
Обозреватель
Автор: Евгений Золотов
Опубликовано 24 марта 2003 года

Оценки количества документов в сегодняшней Сети разнятся, но с цифрой 10 миллиардов согласны многие: да, число страничек в Интернет уже давно превысило численность населения планеты Земля. И рост неутомим - каждый день здесь появляется или обновляется ещё около миллиона страничек. Охватить всё это великолепие не в силах ни одна поисковая машина. Посмотрите на Google, в базе которой всего лишь три с небольшим миллиарда документов и добрая половина из них не соответствует действительности, поскольку давно не проверялась на предмет изменений. Есть ли выход из этой ситуации? Есть. Нужно позвать на помощь рядовых сетян, добровольцев, которые помогут привести базы данных поисковиков в нормальный вид, пожертвовав своё время или ресурсы своих машин.

Идея не новая - впервые она была воплощена в код почти два года назад. Сделали это четверо энтузиастов, объединившихся в рамках проекта Grub. По сути своей, Grub - распределённая поисковая система (часть её кода, кстати, опубликована под лицензией GPL), в которой основная роль отводится не владельцам, а пользователям. Если в обычных поисковых машинах "рытьём" Интернет-контента занимаются программы, работающие на серверах, принадлежащих владельцам машин (такие программы зовутся роботами или пауками - начав с одной странички, они переходят по всем обнаруженным на ней ссылкам, индексируя контент в базе данных поисковика), то в Grub этим занимается программа-клиент, работающая на компьютерах пользователей-добровольцев. Регистрируясь в системе, юзер устанавливает себе программу, которая время от времени связывается с центральным сервером Grub, получает список URL-адресов, требующих индексации или проверки, делает всю необходимую работу (естественно, через Интернет-канал пользователя) и отсылает конечные результаты на сервер. Экономия вычислительных мощностей огромная, но много важней экономия времени: теоретически, таким образом можно в реальном масштабе времени отслеживать состояние всей Сети. Идеальная поисковая машина, иначе говоря. Но что же мешает её развитию - ведь два года спустя после рождения в ней всего 18 миллионов документов и сотня с небольшим активных пользователей?

Популярные распределённые системы вроде SETI@Home, RC5 и им подобные изначально обладают очень важным свойством - т.н. фактором гика, делающим их привлекательными для типичных компьютерных пользователей: поиск инопланетян, лекарства от рака или тайного криптоключа интересны миллионам человек. Задача рутинной индексации Сети, увы, этого достоинства лишена. Grub может быть действительно интересен лишь владельцам сайтов или серверов (где размещено множество сайтов) - жаждущих скорейшей индексации их виртуальных территорий поисковой системой. Чтобы популяризовать Grub среди рядовых пользователей, нужны деньги. К счастью, время Grub пришло. Как выяснилось на днях, в январе компания LookSmart (известная по поисковикам LookSmart и WiseNut) приобрела Grub за 1.3 млн. долл. в акциях. В апреле технология и база Grub будут подключены к двум поисковым машинам LookSmart, после чего, наверняка, придёт и известность: достаточно известные в деловой среде поисковики LookSmart популяризуют идею, а общим результатом станет появление идеальной поисковой машины - которую мы построим своими руками. Получится? Подключайтесь к дискуссии, обсудим!

ТАКЖЕ В РАЗДЕЛЕ
18 февраля 2004 года
Его Величество Баг 
17 февраля 2004 года
Жизнь за окном 
16 февраля 2004 года
Гигабайтом меньше 
13 февраля 2004 года
Делай порно 
12 февраля 2004 года
Великолепная Шестерка 
11 февраля 2004 года
Есть смысл 
 
SQL Server 2008 - это шифрование баз данных, регулятор ресурсов, управление серверами на основе Политик Администрирования, а также готовность управлять большими объемами данных.

TechDays.ru - окунитесь в мир технологий Microsoft
Более 50 технических докладов для ИТ-специалистов и разработчиков. Узнайте самое интересное по каждой технологии за 15 минут. Если интересно - прослушайте дополнительные доклады.

Театр ИТ-кошмаров
Ваша ИТ-инфраструктура не способна выдерживать темп развития бизнеса? Не прячьтесь от реальности. Загляните в Театр ИТ-кошмаров и посмотрите правде в глаза.

/  бумажный номер

Тема номера: Кризис в ИТ Читайте на сайте тему номера "Кризис в ИТ" и другие статьи из журнала "Компьютерра" от 04 ноября 2008 года
  Архив номеров журнала

О проекте | Реклама на сайте | Рассылки сайта | КПК–версия | RSS-трансляция

© ООО «Компьютерра–Онлайн», 1997 — 2008.
При цитировании и использовании любых материалов ссылка на портал «Компьютерра–Онлайн» обязательна (для Интернет–изданий — www.computerra.ru)
Редакция сайта: site@computerra.ru
Техподдержка сайта: websupport@computerra.ru
Редакция журнала: inform@computerra.ru
Отдел рекламы: reklama@computerra.ru
Телефон: (495) 232–22–61, (495) 232–22–63
Работает на «Битрикс: Управление сайтом»
Почта защищена сервером «СПАМОРЕЗ»
Трилан — продвижение сайта,
поисковая оптимизация сайта

Сайт работает на сервере DEPO Computers
Rambler's Top100