♛ FORTRESS-DESIGN

Кэширование в HTTP

Немного о кэшировании

Веб-мастера часто сталкиваются с кэшированием: браузеры и прокси-сервера, пытаясь ускорить работу сайта, стараются сохранить у себя максимально большое количество документов в кэше. Если вы открываете страницу сайта в браузере, потом еще одну, и после этого возвращаетесь на первую, с великой долей вероятности браузер возьмет ее с вашего диска (а то и из оперативной памяти), куда он сохранил страницу при первом посещении.

Понятно, эта операция, как правило, выполняется намного быстрее, чем получение того же документа из сети. Ведь для отображения страницы нужно не только получить HTML код, но и выкачать из сети все сопутствующие документы: CSS-файлы, картинки, скрипты, оформленные в виде отдельных файлов, и т.д. Если вы посмотрите в папки кэша на вашем диске (для IE эта папка обычно находится здесь: «C:\Documents and Settings\имя_пользователя\Local Settings\Temporary Internet Files», для Firefox: «C:\Documents and Settings\имя_пользователя\Local Settings\Application Data\Mozilla\Firefox\Profiles\_случайная_строка_.default\Cache»), то вы заметите, сколько файлов было сохранено вашим браузером.

Конечно же, кэш здорово ускоряет работу, но с другой стороны, кэш может сыграть и отрицательную роль.

Например, если будет кэшироваться страница чата, то пользователи просто не увидят новые сообщения. Веб-мастера часто считают кэш злом, и борются с этим злом в меру своих сил.

Проблема с кешированием в Microsoft Internet Explorer

Internet Explorer кеширует GET-запросы. Те авторы, которые не знакомы с кешированием HTTP, ожидают, что GET-запросы не кешируются, или что кеш может быть обойдён, как в случае нажатия кнопки обновления. В некоторых ситуациях избегание кеширования действительно является ошибкой. Одним из решений является использование метода POST, который никогда не кешируется; однако он предназначен для других операций. Другим решением является использование метода запроса GET, включающего уникальную строку запроса с каждым вызовом, как показано на примере ниже.

req.open("GET", "xmlprovider.php?hash=" + Math.random());

или установки заголовка Expires на прошедшую дату в вашем скрипте, который генерирует содержимое XML. В PHP это будет так:

// disable IE caching
header("Expires: Mon, 26 Jul 1997 05:00:00 GMT");
header("Last-Modified: " . gmdate( "D, d M Y H:i:s") . " GMT");
header("Cache-Control: no-cache, must-revalidate");
header("Pragma: no-cache");
...

Знакомый PHP код? Уверен, вы его писали (как правило, методом Copy-Paste) в своих наработках. Но! Здесь есть очень существенное «НО»: ни в коем случае не умаляя важности и авторитетности Википедии, отметим лишь тот прискорбный факт, что этот код ОШИБОЧЕН! Хотите убедиться? Легко!

Проверяем кэширование

Итак, запустим Apache со стандартными, дефолтовыми настройками. Здесь и далее мы используем Apache и PHP. Но это ни в коем случае не говорит, что описываемой проблемы и вариантов ее решения нет на платформе других серверов, например, у Microsoft IIS. Итак, запустим Apache. Создайте пустую папку test-cache в корне сервера и поместите туда файл test-1.php со следующим содержанием:

<?php
/*
** Проверка работоспособности кода запрета кэширования
*/
header("Expires: Mon, 26 Jul 1997 05:00:00 GMT");
header("Last-Modified: " . gmdate( "D, d M Y H:i:s") . " GMT");
header("Cache-Control: no-cache, must-revalidate");
header("Pragma: no-cache");
echo "<h1>", date("H:i:s"), "</h1>";
?>

Легко увидеть, что в приведенном примере мы пытаемся запретить кэширование по рецепту Википедии, и просто выводим текущее время.

Теперь попробуйте посмотреть вашу папку в браузере. Для этого откройте свой браузер и наберите в адресной строке

localhost/test-cache/

Отлично! Теперь кликните по своему файлу test-1.php и запомните время (для примера я разместил окно браузера рядом с часами Windows):

Великолепно! Теперь нажмите в браузере кнопки «Назад» и потом «Вперед»:

Упc! Время не меняется!!! А что это значит? Да только то, что браузер берет страницу из кэша!!! А как же наш энциклопедичный код? Да он не работает!

Обратимся к первоисточникам

В чем же проблема? Проблема в неправильном использовании заголовков ответа. В спецификации RFC2616 кэшированию посвящена целая глава. Но, к сожалению, веб-мастера не часто читают спецификации. Итак, что же обозначают те заголовки, которые мы только что передали? Давайте их посмотрим. Это очень удобно делать с помощью дополнения к браузеру Firefox Web Developer Toolbar: Information.  View Response Headers (для IE похожий инструмент называется DevToolbar):

Итак, мы передали следующие заголовки:

Expires: Mon, 26 Jul 1997 05:00:00 GMT — этот заголовок устанавливает время актуальности информации. Мы же пытаемся передать дату в прошлом, полагая, что это заставит браузер каждый раз загружать страницу с сервера. Не заставляет, как мы хорошо заметили на опыте.

Last-Modified: Sat, 26 Jan 2008 17:03:02 GMT — Дата и время изменения информации на странице. Этот заголовок ВООБЩЕ никак не влияет на кэширование (читаем в RFC2616!), разве что может использоваться для запроса с валидаторами. Например, поисковый робот может запросить данные так:

GET /megapage.html HTTP/1.1
If-Mofidied-Since: Sat, 26 Jan 2008 17:03:02 GMT

То есть, «дай документ, если он изменился с указанной даты», и сервер должен ответить или 200 («Вот документ, он изменился!» или 304 «Изменений не было». Но чтобы это работало, ваш сервер ДОЛЖЕН передавать заголовок Last-Modified, и не просто передавать, а передавать ПРАВИЛЬНУЮ ДАТУ изменения документа. Но мы сами, своими руками, и бестолковым энциклопедическим кодом полностью разрушили последние надежды на это! То есть, мало того, что мы кэш не запретили, мы еще и поисковикам (а точнее, СЕБЕ) основательно нагадили! Ведь вы передали ТЕКУЩУЮ дату, как дату последнего изменения, помните?

Cache-Control: no-cache, must-revalidate — вот, уже ближе к теме. Именно этот заголовок управляет кэшированием, но не сам, а в совокупности с другими. Сейчас же мы просто передали следующую команду: «использовать информацию следующего запроса без повторной проверки на исходном сервере нельзя» (If the no-cache directive does not specify a field-name, then a cache MUST NOT use the response to satisfy a subsequent request without successful revalidation with the origin server). В основном, в таком виде — это команда не для браузера, а для прокси-сервера.

Pragma: no-cache — устаревшая конструкция. Это из старой версии протокола HTTP/1.0. Практически все браузеры и прокси ее игнорируют. Итак, мы видим, что ни одна из наших строчек PHP кода реально кэш не запретила. Что же делать? А вот что:

Запрет кэширования

Пересохраните файл test-1.php с новым именем test-2.php и измените его следующим образом:

<?php
/*
** Правильный запрет кэширования
*/
header("Cache-Control: no-store");
header("Expires: " . date("r"));
echo "<h1>", date("H:i:s"), "</h1>";
?>

Теперь попробуйте снова открыть нашу тестовую папку //localhost/test-cache/, щелкните по имени test-2.php и теперь наживайте кнопки «Назад», «Вперед». Время каждый раз меняется! И это говорит о том, что браузер не берет страницу из кэша при переходе вперед/назад, а заново запрашивает ее с сервера. Что, собственно, нам было и нужно. Давайте посмотрим заголовки ответа:

Вот оно! Мы передаем два заголовка:

Cache-Control: no-store — страница содержит приватные данные, сохранять в кэше нельзя! (The purpose of the no-store directive is to prevent the inadvertent release or retention of sensitive information (for example, on backup tapes))

Expires: Sat, 26 Jan 2008 20:31:55 +0300 — актуальность страницы истекает мгновенно, то есть сейчас.

И именно эти заголовки запрещают кэширование в браузере. Но все же более правильно дописать в заголовок Cache-Control инструкции и для прокси-серверов (файл test-3.php):

<?php
/*
** Совсем правильный запрет кэширования
*/
header("Cache-Control: no-store, no-cache, must-revalidate");
header("Expires: " . date("r"));
echo "<h1>", date("H:i:s"), "</h1>";
?>

Практическое запрещение кэширования

Таким образом, мы научились выключать кэш. Значит ли это, что нужно приведенный выше код включать во все ваши страницы? Совсем нет! Если вам нужно запретить кэширование во всех файлах папки (а не только для исполняемых php скриптов) можно настроить сервер Apache на передачу нужных нам заголовков. Для этого откройте файл конфигурации сервера Apache и убедитесь что раскомментированы следующие строчки (или раскомментируйте их сами):

LoadModule expires_module modules/mod_expires.so
LoadModule headers_module modules/mod_headers.so
...
AddModule mod_expires.c
AddModule mod_headers.c

Отлично! Теперь просто создайте в своей папке файл .htaccess и впишите в него следующее:

#
# Запрещение кеширования в этой папке
# Необходимо включение модулей
# mod_headers.c и mod_expires.c
#
# Заголовок Cache-Control

<IfModule mod_headers.c>
Header append Cache-Control "no-store, no-cache, must-revalidate"
</IfModule>

# Заголовок Expires
<IfModule mod_expires.c>
ExpiresActive On
ExpiresDefault "now"
</IfModule>

Все! Необходимые заголовки передаются автоматически, и специально из писать в PHP уже не нужно — кэш уже выключен! В этом легко убедится, если посмотреть заголовки, передаваемые при запросе ЛЮБОГО файла этой папки:

Разрешение кэширования

Но, несмотря на то, что подавляющее число веб-мастеров, считают кэш вселенским злом, и пытаются запретить его (и как мы увидели, весьма безуспешно), это не так! Запретив кэширование, вы заставляете браузер каждый раз заново загружать ваши страницы с сервера, и если канал связи у пользователя слабый, то это может привести к заметному замедлению работы с вашим сайтом. Я уже не говорю о том, что это приводит к возрастанию нагрузки на ваш сервер! Если ваша страница или ее часть формируется запросами в БД, вы, к тому же, увеличиваете нагрузку на сервер БД, что крайне негативно может сказаться на производительности вашего сервера в целом. Вы же понимаете, о чем я говорю, например, посмотрите на работу Одноклассники.ру! Некоторые веб-мастера еще и хвастаются, выводя этакую «статистику» внизу страницы: «Страница сформирована за 0.9 сек, выполнено 9 SQL запросов». Ничего, кроме абсолютно бестолковой архитектуры Веб-приложения, это не  показывает!

Так давайте же наоборот постараемся разгрузить сервер, и ускорить работу нашего пользователя! И кэш в этом деле — один из мощных инструментов! Ну скажите пожалуйста, как часто меняется ваша страница «О компании»? Или что случится, если пользователь увидит вашу новость («ура! Мы переехали на новый движок») ЧАСОМ ПОЗЖЕ? Так зачем же запрещать кэширование таких страниц

Попробуйте пересохранить наш тестовый файл с именем test-4.php и напишите в него следующие строчки:

<?php
/*
** Включение кэширования на 1 час
*/
header("Cache-Control: public");
header("Expires: " . date("r", time() + 3600));
echo "<h1>", date("H:i:s"), "</h1>";
?>

Теперь откройте его с помощью браузера, запомните время и попробуйте переходить по разным ссылкам на этот файл. Время не меняется, даже если вы закроете браузер, откроете и заново щелкните по имени файла! В течение часа этот файл будет браться из кэша. То есть в течение часа для пользователя ваш скрипт выполнится ОДИН РАЗ, все остальное время, страница будет загружаться из локального кэша С МАКСИМАЛЬНО ВОЗМОЖНОЙ СКОРОСТЬЮ! И представьте, во сколько раз снизится нагрузка на ваш сервер! И это всего две строчки в коде!

Разрешение кеширования содержимого папки

А можно и вообще без PHP обойтись. Создайте в папке файл .htaccess и впишите в него следующее:

# # Разрешение кеширования в этой папке # Необходимо включение модулей # mod_headers.c и mod_expires.c # # Заголовок Cache-Control <IfModule mod_headers.c> Header append Cache-Control "public" </IfModule> # Заголовок Expires <IfModule mod_expires.c> ExpiresActive On ExpiresDefault "access plus 1 hours" </IfModule>

Возможность включения страниц в кэш существенно улучшит скорость работы веб-сервера и частично освободит от многочисленных повторных обращений к ним. Разрешение кэширования на прокси-сервере указывается в заголовке header:

header("Cache-control: public");

Директива ExpiresActive on включает кеширование изображений, позволяющее ускорить их загрузку при повторном обращении к страницам сайта.

Директивы ExpiresByType image/jpeg "access plus 3 day" и ExpiresByType image/gif "access plus 3 day", в свою очередь, определяют формат изображений и срок, на который будет произведено кеширование. По умолчанию, выполняется кеширование изображений формата .jpeg и .gif сроком на 1 день.

Результат, как говорится, виден невооруженным взглядом. Особенно это эффективно делать для графики сайта, для страниц, содержащих редко изменяемый контент или для часто посещаемых страниц, например, для стартовой.

Только рекомендация: сначала полностью отладьте ваш сайт и только после этого включайте кэширование! Иначе вы рискуете в поисках ошибок поседеть и полностью разочароваться в веб-технологиях Успехов вам и удачи с кэшированием!

Автор статьи: Иван Никитин


Перейти к верхней панели