Архив интернет сайтов

У 9 из 10 наших читателей есть свой сайт или интернет-магазин на 1C-UMI. Кто-то создал его недавно, а кому-то уже можно праздновать юбилей. За годы развития веб-ресурсы претерпевают множество изменений во внешнем виде и функционале. Иногда хочется вспомнить, каким же был ваш проект раньше, когда всё только начиналось. Или поднять какую-то утерянную информацию, которая была на сайте ранее. Сделать это легко при помощи чудо-сервиса Wayback Machine.

Как пользоваться веб-архивом

Откройте сервис, вбейте в строку поиска домен или полный адрес своего сайта. Сервис автоматически начнет поиск и через пару секунд покажет вам результаты в виде временной шкалы и календаря с датами, когда были сделаны снимки ресурса.

Использование сервиса WebArchive
Чтобы перейти к конкретному году, кликните по соответствующему блоку на шкале. Затем в календаре ниже нажмите на одну из дат, выделенных голубым цветом. Если в тот день было сделано несколько снимков, при нажатии на дату вы увидите окно для выбора нужного вам времени. Если снимок был один, вы сразу попадете на сохраненную версию.

Вот так выглядел наш сайт 1C-UMI летом 2012 года:

Вид сайта в прошлом через WebArchive

А вот так его видели наши пользователи осенью 2016 года:
История изменений на сайте в WebArchive

Чем дольше ресурс работает, тем больше его снимков будет в WebArhive. Для путешествия в прошлое используйте временную шкалу и блок переключения месяцев и чисел справа от нее.

Самое классное — что данный сервис не делает скриншоты сайтов, а сохраняет их целиком. Таким образом, вы увидите версию 10-летней давности и, все разделы, формы, почитаете тексты, полистаете изображения и многое другое.

Какие сайты попадают в веб-архив

Оказаться в Wayback Machine может любой сайт. Особенно это касается тех веб-ресурсов, которые находятся в каталоге DMOZ. Но так как сейчас туда свое «детище» уже не добавить, будет достаточно того, что на вашу площадку ссылаются сайты, снимки которых уже присутствуют в веб-архиве. А даже если таких ссылок нет, ваш ресурс все равно может попасть в базу сервиса. Главное, чтобы в его файле Robots.txt не было запрета.

Как проверить? Для сайтов на 1С-UMI откройте раздел «Реклама/SEO → Управление robots.txt» в панели управления сайтом и проверьте, нет ли в нем следующей записи:

User-agent: ia_archiver

Disallow: /

Если такой записи (как выше) нет, все хорошо, ваш сайт имеет шанс на попадание в веб-архив. В противном случае, при поиске своего ресурса в сервисе вы увидите надпись, как на скриншоте ниже.

Попадание в WebArchive

Если вы не хотите ждать, когда сервис соблаговолит сделать снимок вашего сайта, добавьте его в базу WebArchive вручную. Для этого найдите функцию «Save Page Now», которая находится в центральной части страницы справа.

Сохранение сайта в WebArchive

Укажите ссылку на свой ресурс и нажмите на кнопку «SAVE PAGE». Сохранение начнется через несколько секунд и, спустя минуту или около того, будет закончено. За ходом выполнения вы можете наблюдать в небольшом окошке по центру экрана.

Сохранение страниц сайта в WebArchive

После сохранения снимка страницы начнет загружаться только что архивированная версия сайта.

Загрузка сайта в WebArchive

По окончании процесса окно загрузки закроется, и вы сможете просмотреть сохраненный снимок, побродить по всем разделам сайта и т. д.

Чем будет полезен веб-архив для вас

Данный сервис годится не только для того, чтобы смотреть, в каком состоянии была ваша страничка или любой другой ресурс некоторое время назад. С его помощью вы можете восстановить свой сайт, его страницу, какой-то текст или элемент, если вдруг по какой-то причине данные были стерты. Чтобы этого не произошло, не забывайте почаще выполнять резервное копирование вашего сайта, ну, а на экстренный случай имейте в виду WebArchive. Но имейте в виду также, что WebArchive делает снимки по своему усмотрению с непредсказуемой частотой, поэтому нужной вам версии сайта в нем может и не оказаться.

Вручную восстанавливать ресурс из веб-архива очень долго и для этого нужно неплохо разбираться в сайтостроении и верстке. Однако при желании восстановление можно автоматизировать при помощи онлайн-инструмента ARCHIVARIX.

Преимущества WebArchive

До 200 файлов сервис восстанавливает бесплатно, а при большем количестве взимает небольшую плату.

Веб-архив может быть вам полезен и тем, что он содержит колоссальное количество уникальных текстов, которые опубликованы на канувших в небытие ресурсах. Как это можно использовать с выгодой для своего бизнеса? Допустим, вы запускаете сайт. Сами писать тексты не можете из-за отсутствия времени, а на оплату услуг копирайтера денег нет. Чтобы не откладывать запуск проекта, попробуйте найти уникальный контент в Wayback Machine.

Найдите любой сайт, близкий вашему по тематике, откройте его содержимое, скопируйте тексты и прогоните их через софт или сервис проверки на плагиат. Статьи, которые окажутся уникальными (от 90% и выше), вы можете без зазрения совести опубликовать на своем сайте. Это не будет считаться хищением, так как тексты после удаления ресурсов стали ничейными.

Для поиска таких сайтов можно использовать базы хостинговых компаний. Обычно они публикуют список тех доменов, срок действия которых истек или вот-вот истечет. Существуют и специальные программы, которые ищут освободившиеся домены по нужным параметрам.

Несколько фактов о веб-архиве

Первый запуск сервиса WebArchive состоялся в 1996 году. С тех пор этот инструмент сумел накопить в своей базе более 338 миллиардов сайтов. Представьте, сколько это! А дисковое пространство, которое занято информацией в архиве, составляет 1015 Терабайт. Если перевести на математический язык, то это квадриллион.

Подробности о WebArchive

На следующий год после основания сервиса WebArchive добавил в свою базу сам себя. Хотите посмотреть, как он выглядел на тот момент? Тогда взгляните на изображение ниже.

Вид WebArchive

Это самый первый его снимок от 26 января 1997 года.

На данный момент веб-архив считается наилучшим способом из бесплатных для создания снимков интернет-ресурсов. Возьмите его на вооружение.

Веб-архив — это проект web.archive.org, на котором хранятся разные версии всех сайтов с момента их создания при условии, что нет запрета на сохранение ресурса. Благодаря наличию сохраненных копий в веб-архиве, доступно восстановление сайта даже при отсутствии резервной копии. Также в веб-архиве можно найти интересный контент из закрытых сайтов конкурентов, который активно используют создатели PBN-сеток сайтов.

Что такое веб-архив

Веб-архив сайтов позиционируется как своеобразная бесплатная машина времени, позволяющая вернуться на месяцы или годы назад, чтобы увидеть, как выглядел ресурс на тот момент. При этом у каждого сайта сохраняются многочисленные версии от разных дат, которые зависят от посещений проекта краулерами веб-архива. У популярных сайтов может сохраняться тысячи версий, которые обновлялись ежедневно множество раз на протяжении всего периода существования проекта:

Веб-архив основан в начале 1996 года и с этого времени в нем сохранено более 330 миллиардов веб-страниц, включая 20 миллионов книг, 4,5 миллионов аудиофайлов и 4 миллиона видео, занимающие свыше тысячи терабайт. Ежедневно сайт посещают миллионы пользователей, и он входит в ТОП-300 самых популярных проектов мира.

Как использовать архив

Веб-архив используют для следующих целей:

  • восстановление собственного сайта, если он был по какой-либо причине утрачен либо поврежден;
  • просмотр старой информации и медиа-контента, которого уже нет на работающих сайтах;
  • анализ изменения выбранного ресурса с течением времени;
  • поиск удаленной уникальной информации, которую затем можно использовать на собственном проекте.

Чтобы просмотреть старые версии нужного сайта, необходимо на сервис веб-архива, указать адрес домена и нажать «BROWSE HISTORY»:

После этого отобразится временная шкала в диапазоне с даты основания ресурса по текущий момент. После клика мышью по году открывается календарь, в котором выбирается желаемая дата. Доступен выбор любой даты, отмеченной зеленым либо голубым кружком. Диаметр круга зависит от количества обращений робота веб-архива к проекту в этот день. Зеленый цвет обозначает редиректы. После выбора даты кликаем на нее для перехода на нужную версию сайта:

В некоторых случаях старые версии сайта могут отсутствовать в веб-архиве. Такое происходит, если правообладатель обратился с требованием удалить копии принадлежащего ему контента либо проект закрыли в связи с нарушением закона о защите интеллектуальной собственности. Бывает также, что разработчики закрыли возможность сканирования сайта роботами веб-архива.

Иногда нужный ресурс доступен, но могут отсутствовать картинки или элементы дизайна, тогда стоит открыть версию сайта, сохраненную в другой день.

Как добавить современную версию сайта в веб-архив

Для уверенности в том, что все нужные версии собственного проекта будут сохранены в веб-архиве, желательно самостоятельно инициировать сканирование сайта. Для этого введем в разделе «Save Page Now» домен сайта и нажмем «Save page»:

После этого в архив будет добавлена текущая версия сайта. На всякий случай повторяйте подобную процедуру перед всеми существенными изменениями сайта и после их осуществления.

Как запретить добавление сайта в веб-архив

Чтобы сайт не был доступен в веб-архиве, пропишите запрет в файле robots.txt. Для этого нужно зайти в корневой каталог сайта на панели управления хостинг-провайдера и выбрать редактирование данного файла:

Запрет устанавливается с помощью такого кода:

User-agent: ia_archiverDisallow: /User-agent: ia_archiver-web.archive.orgDisallow: /

После этого удалятся существующие версии проекта, а также не будет осуществляться копирование сайта в архив пока домен функционирует и в файле robots.txt присутствуют данные настройки. Когда закончится регистрация доменного имени старые версии сайта вновь станут доступны в веб-архиве.

Восстановление сайта из веб архива

Восстановить удаленный либо взломанный хакерами сайт поможет веб-архив. Восстановление каждой отдельной HTML-страницы проекта слишком трудоемкий процесс, поэтому предпочтительнее использовать специальные программы для парсинга WEB-архива.

Как парсить веб-архив с помощью Robotools

Для скачивания сайта с помощью данного сервиса необходимо выбрать подходящий тариф в зависимости от количества веб-страниц на проекте:

Протестировать работу сервиса можно в демо-версии, после регистрации будет доступно 25 страниц бесплатно:

Перейдем в раздел «Мои задачи», укажем домен, на котором ранее функционировал нужный сайт и нажмем «Запуск»:

Затем выбираем «Восстановить домен или снимок из веб-архива»:

После этого выбираем нужную дату, количество страниц, действия с внешними ссылками в статьях и нажимаем «Начать процесс восстановления»:

После завершения задачи нажимаем на кнопку для скачивания архива с веб-страницами:

Затем нажимаем «Все ОК, собрать ZIP-архив»:

После этого нажимаем «Скачать архив»:

В данном примере рассматривалось восстановление сайта на WordPress, получен архив с такими файлами:

Этот сервис также помогает восстановить старые версии сайтов из веб-архива. Цены зависят от количества файлов на проекте. Начнем работу с выбора раздела «Восстановить из веб-архива». Укажем домен и при желании установим временной диапазон, в правой колонке отметим дополнительные параметры восстанавливаемого проекта:

Затем укажем электронный адрес и нажмем «Восстановить»:

Если сайт содержит более 200 файлов, придет уведомление на почту с предложением оплатить восстановление проекта:

Как найти уникальный контент для своего сайта

Часто возникают ситуации, когда проекты по различным причинам закрывают, удаляя сайт с хостинга. При этом на таком ресурсе могут сохраняться полезные и интересные статьи. Через некоторое время они перестают индексироваться поисковыми системами и текст статей становится уникальным. Для владельцев информационных сайтов подобные статьи на нужную тематику представляют интерес.

Такой контент можно добавлять на собственный проект без угрозы каких-либо санкций со стороны поисковых систем, поскольку для них основное значение имеет уникальность контента на текущий момент, а не его первоисточник. Чтобы найти подходящие статьи, сэкономив время и деньги необходимые на создание собственного контента, нужно предварительно узнать список доменов, которые освободились в последнее время.

Зайдем в раздел продающихся доменов на сервисе Reg.ru, выберем категорию, совпадающую с тематикой собственного проекта, например, здоровье:

Далее выбираем подкатегорию или просматриваем все предложенные домены, выбирая из них варианты для дальнейшего анализа в веб-архиве:

После того как подходящие статьи найдены в веб-архиве необходимо проверить их на уникальность с помощью сервисов антиплагиата, например, text.ru. Если контент уникален, опубликуйте его на собственном сайте.

Запомнить

  1. Веб-архив — масштабный бесплатный проект, созданный для сохранения всего контента, представленного в интернете, даже после его удаления на исходном сайте.
  2. Веб-архив полезен для анализа сайтов клиентов и конкурентов, отслеживания изменений на собственном проекте, проверки доменов перед покупкой.
  3. Используя данные веб-архива, полученные с помощью онлайн-сервисов, доступно восстановление сайта без бэкапа.
  4. В веб-архиве много контента, в том числе уникальные статьи почти на любую тематику.
Как просматривать старые версии сайтов
Advertisement

Wayback Machine — это онлайн-сервис, который сканирует веб-сайты, делая снимки сайтов в определенный момент времени. Используя Wayback Machine, Вы можете увидеть, как выглядел почти любой сайт на протяжении всей его жизни.

Веб-сайты часто меняются, как и законы, регулирующие эти веб-сайты. Будь то потеря данных, новая цензура контента или просто любопытство, Wayback Machine позволяет Вам видеть контент, которого больше нет в сети. Wayback Machine также может использоваться для устранения неполадок.

Примечание: Некоторые сайты могут не отображаться из-за того, что они защищены паролем, заблокированы файлом robots.txt или были недоступны по какой-либо другой причине.

Advertisement

Перейдите на официальный сайт Internet Archive и введите URL-адрес сайта, который Вы хотите просмотреть, в адресной строке Wayback Machine. После ввода нажмите «Browse History».

На следующей странице Вы увидите временную шкалу, содержащую снимки указанного веб-сайта. Также есть примечание о количестве снимков веб-сайта между двумя датами.

Выберите год, который хотите просмотреть.

Advertisement

Вы увидите календарь на выбранный год. В определенные даты в течение года Вы заметите, что они выделены определенным цветом. Вот что они означают:

  • Без цвета: сайт не был сохранен в этот день.
  • Синий: веб-сайт был успешно сохранен в этот день.
  • Зеленый: указывает на перенаправление (3xx).

Вы также заметите, что одни круги больше других. Это означает, что на веб-сайте есть несколько снимков для этой конкретной даты. Обратите внимание, что это не отражает количество обновлений сайта.

Выберите дату и время, которые Вы хотите просмотреть, наведя курсор на дату и выбрав снимок во всплывающем меню.

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *