Несколько слов о поисковых технологиях. Когда вы пользуетесь поисковой системой Google, вы получаете результаты не «живого» интернета. На самом деле поиск осуществляется по индексу сети, который напоминает предметный указатель в конце книги.
Создавать новую систему индексации нужно было по двум причинам:
- Количество информации в интернете растет, а форматы ее представления становятся все разнообразнее. Страницы стали насыщеннее и сложнее по структуре.
- Материал должен быть доступен сразу же после публикации.
В старом индексе Google было несколько слоев. Одни слои обновлялись регулярнее, чем другие. Большая часть индекса обновлялась каждые две недели. Чтобы обновить слой индекса, Google нужно было проанализировать всю сеть, что создавало задержку между моментом нахождения страницы и тем, когда она становилась доступной пользователю.
Caffeine, в свою очередь, позволяет Google анализировать информацию в сети «по частям» и непрерывно обновлять свой поисковый индекс. Это означает, что результаты поиска будут отображать максимально свежую информацию, вне зависимости от времени публикации.
Каждую секунду система обрабатывает сотни тысяч страниц. Если представить себе, что эти страницы бумажные, стопка из них росла бы со скоростью около 5 км в секунду. В базе данных Caffeine содержится порядка 100 млн. гигабайт данных, а новая информация добавляется со скоростью нескольких сотен тысяч гигабайт в день. Чтобы сохранить такой массив информации, понадобилось 625 тысяч iPod-ов с самым большим объемом памяти.
Кэрри Грим, разработчик Google