Разное

Как посмотреть архив сайта в интернете: archive.org — Internet

10.11.1970

Содержание

как пользоваться, чем полезен [Инструкция]

Интернет в привычном для нас виде появился 36 лет назад — за это время он развивался семимильными шагами, а сайты тысячи раз меняли свой дизайн и контент. Web archive представляет собой своеобразную машину времени, которой может воспользоваться каждый пользователь.

Что такое Web Archive?

Это бесплатный сервис, где собраны истории многих интернет ресурсов — их архивные копии. Причем речь идет не о скриншотах, а о полноценных страницах с изображениями, рабочими ссылками и стилевым оформлением.

Получение информации о том или ином домене предполагает не только интересное времяпровождение с отслеживанием эволюции веб-проекта, но еще и возможность:

  • узнать тематику сайта — архив интернета демонстрирует содержимое, благодаря чему легко определить нишу проекта;
  • посмотреть, как выглядел сайт раньше — это находка для охотников за б/у доменами;
  • определить, регистрировался ли до этого анализируемый домен — полезный инструмент для тех, кому принципиальна «стерильность» домена или для того чтобы избежать санкций поисковиков;
  • восстановить свой сайт, если вы почему-то не сделали резервное копирование.
  • отыскать уникальный контент — трудоемкая задача, которая может подарить вам десятки бесплатных статей;
  • увидеть удаленный текст из закладок — шансы найти нужную страницу достаточно высоки.

История создания архива интернета

Wayback Machine является одним из двух главных проектов archive.org. Этот некоммерческий сервис был создан в 1996 году Брюстером Кейлом. Машина времени сайтов имеет четкую цель: сбор и хранение копий ресурсов вместе со всем контентом для возможности свободного просмотра несуществующих или неподдерживающихся страниц в будущем. С 1999-го робот стал фиксировать еще и аудио, видео, иллюстрации, программное обеспечение.

База современного архива собиралась в течение 20 лет, у нее не существует аналогов. Статистика впечатляет: на сегодняшний день в сервисе находится 279 миллиардов страниц, 11 миллионов книг и статей, 100 тысяч программ и миллион картинок.

А знаете ли вы? Веб-архив сайтов часто имеет проблемы на законодательном уровне из-за нарушения авторских прав. По требованию правообладателей библиотека удаляет материалы из публичного доступа.

Как пользоваться веб-архивом?

Сервис очень удобный в применении. Пошаговая инструкция такова:

  1. Зайдите на главную страницу платформы.
  2. Введите в поле название интересующего вас сайта и нажмите Enter (в нашем случае это https://livepage.pro).
  3. Под указанным доменным именем демонстрируется основная информация: когда начинается история проекта, сколько слепков имеет сайт. В примере видно, что ресурс был впервые архивирован 30 сентября 2017 года, библиотека хранит его 43 архивные копии.
  4. Дальше мы обращаем внимание на календарь — голубым цветом в нем отмечены даты создания слепков.Каждый из них доступен для просмотра: нужно лишь выбрать год, месяц и день сохранения. Мы хотим посмотреть, как выглядел сайт раньше: допустим, 3 февраля текущего года. Наводим курсор на голубой кружок и жмем на время сохранения. Проще не бывает!
  5. При желании можно получить общие данные о web-проекте — надо нажать на кнопку Summary над хронологической таблицей и календарем или же ознакомиться с картой сайта (кнопка Site Map).

Алгоритм действий можно сократить. Для работы с сервисом напрямую, введите в строке своего браузера

http://web.archive.org/web/*/http://url.

В нашем случае это

http://web.archive.org/web/*/https://livepage.pro.

Как восстановить сайт из веб-архива?

Плохая новость для тех, кто планирует просто найти архив сайта и скачать его привычным способом: страницы имеют вид статических html-файлов, к тому же их слишком много для того, чтобы заниматься этим вручную. Решить проблему можно при помощи специальных программ, к примеру, приложения на ruby. Необходимо лишь установить все на сервер и запустить восстановление страниц.

  • Установите «Руби».

apt-get install ruby

  • Добавьте саму программу, необходимую для работы.

gem install wayback_machine_downloader

  • Запустите выкачивание сайта из web archive.


wayback_machine_downloader http://www.site.ru -timestamp 20131209110704

Для удобства можно указать отметку снапшота — утилита определит число страниц и выведет выкачиваемые файлы на консоль. После скачивания и сохранения мы получим набор статических данных.

  • Разместите файлы в выбранной папке. Подойдет rsync:

rsync -avh./websites/www.site.com/ /var/www/site.com/

  • Создайте конфигурацию в nginx и дождитесь обновления dns. На этом все!

Как восстановить сайт без бэкапа?

Вернуть ресурс из небытия можно даже без резервного копирования.

  • Как уже говорилось раньше, можно восстановить сайт из веб-архива https://archive.org. Чтобы получить все страницы, введите в специальное поле имя ресурса с добавлением /* (https://livepage.pro/*). Здесь же предусмотрена возможность фильтрации файлов по подстроке в URL. Для скачивания файлов подойдут многие программы, например, Teleport Pro.
  • Страницы интернет-проектов часто хранятся в кэше поисковых систем. По причине того что у каждого поисковика свои параметры, для лучшего эффекта промониторьте не только Google и Яндекс, но и Bing, Rambler:

http://www.google.ru/advanced_search
http://yandex.ru/search/advanced
http://www.bing.com/
http://nova.rambler.ru/srch/advanced

Войдите в режим расширенного поиска и укажите имя сайта. Получив результаты, кликайте по ссылкам «cached» или «копия».

  • Если вы отдаете полный RSS, тогда стоит проверить еще и ридеры, агрегаторы.

Учтите!

Нужный вам проект может и не входить в архив сайтов интернета. Если вы его не нашли в библиотеке — значит, правообладатель потребовал удаления копий или же ресурс закрыли в соответствии с законом о защите интеллектуальной собственности. Возможен и другой вариант: через файл robots.txt был банально внесен соответствующий запрет.

Как найти уникальный контент из веб-архива для вашего сайта?

Статьи, расположенные на заброшенных ресурсах, обычно не представляют никакой ценности для их бывших владельцев. А ведь в мир иной ежедневно уходят десятки сайтов. И среди кучи хлама, выброшенного на помойку истории, можно найти настоящие самородки — приличные тексты, которые достанутся вам бесплатно.

Поисковики хорошо относятся к любому актуальному и уникальному контенту — можно не бояться попасть в их немилость только из-за того, что статьи взяты из веб-архива чужого сайта.

Итак, последовательность действий следующая:

  1. Найдите подходящие вам блоги. Для этого следует зайти на Reg.ru и скачать оттуда список недавно освободившихся доменов.
  2. Посетите архив интернета с целью поиска сохраненных копий.
  3. Проверьте понравившиеся тексты через антиплагиат (контент может быть уже скопирован на другие сайты).
  4. Опубликуйте уникальные статьи на своем ресурсе.

При разумном подходе такой способ пополнения сайта контентом можно поставить на поток. Поиски материалов на мертвых блогах оправданы экономией времени на написание текстов и денег, которые бы вам пришлось заплатить авторам.

Как сделать так, чтобы сайт не попал в библиотеку веб-архива?

Если вы дорожите контентом и не хотите видеть свою онлайн-площадку в электронной библиотеке, пропишите запретную директиву в файле robots.txt:

User-agent: ia_archiver
Disallow: /

User-agent: ia_archiver-web.archive.org
Disallow: /

После изменения в настройках веб-сканер перестанет создавать архивные копии вашего сайта, к тому же удалит уже сделанные слепки. Однако учтите, что ваш запрет действует лишь до тех пор, пока доступен robots.txt — когда закончится срок регистрации доменного имени, машина времени сайтов станет демонстрировать статьи всем желающим.

Важно! Если вы, наоборот, желаете активно пользоваться веб-архивом, введите соответствующий запрос на главной странице сервиса. Просто укажите адрес проекта в разделе Save Page Now, после чего нажмите кнопку Save Page. Повторяйте процедуру после внесения любых правок.

Аналоги Webarchive

Альтернативой рассматриваемой в обзоре электронной библиотеке может стать:

Принцип работы тот же, как и у archive.org.

Webarchive — веб-архив всего интернета и сайтов или машина времени на archive.org

Обновлено 3 января 2021
  1. Как можно использовать архив сайтов интернета?
  2. Условия попадания сайта в archive.org
  3. Как найти нужный веб-архив и восстановить из него сайт?
  4. Как вытянуть из Webarchive уникальный контент?

Здравствуйте, уважаемые читатели блога KtoNaNovenkogo.ru. Не так давно я писал про то, что такое народная энциклопедия Википедия, которая безусловно заслуживает всяких лестных эпитетов, несмотря на присущие ей небольшие недостатки и критику ее статей со стороны научного сообщества.

Сам факт того, что некоммерческий проект уже не одно десятилетие трудится на благо всего интернет сообщества, заслуживает огромного уважения. Но в сети есть еще подобный масштабный проект, который не получая с этого дохода выполняет очень важную роль — сохраняет архивы сайтов, видео, аудио и печатной продукции.

Я говорю, конечно же, про web.archive.org — глобальный проект с казалось бы невыполнимой миссией — создание архива всех сайтов, когда либо размещенных в интернете. Причем, сайты сохраняются не в виде скриншотов, а в виде полноценно работающих веб-страниц со всеми ссылками, картинками и стилевым оформлением (CSS). Причем, для каждого сайта за время его существования в сети в этом архиве может накопиться и по несколько сотен копий, датированных разными этапами жизни ресурса.

Как можно использовать архив сайтов интернета

Чем же может быть полезен данный webarchive?

  1. Ну, во-первых, вы можете погрузиться в приятную ностальгию путешествуя по вашему сайту многолетней давности. Проследить историю изменений можно будет для любого другого ресурса интернета (например, я брал скриншоты для статей про уже умерший Апорт именно из это вебархива, да и скриншоты, иллюстрирующие эволюцию главной страницы Яндекса, имеют тоже самое происхождение).
  2. Но это не все. Если страница добавленного вами в закладки сайта не открывается, то вы, конечно же, можете попробовать вытащить ее из кеша Яндекса или Гугла (читайте подробнее про то, как лучше искать в Google). Но если ресурс недоступен уже очень давно, то такие мертвые ссылки нигде кроме archive.org открыть уже будет не возможно (правда, и там его может не оказаться по описанным чуть ниже причинам).
  3. Так же, если вы по каким-либо форс-мажорным обстоятельствам не делали бэкап (резервное копирование) вашего сайта, то данный web archive будет единственной возможностью восстановить свой сайт. Имеется возможность очистить все ссылки от привязки к web.archive.org и сделать их прямыми именно для вашего ресурса (читайте об этом ниже).
  4. Ну, и последнее, что приходит в голову — поиск уникального контента. Если вы не способны сами создавать уникальный контента для сайта (писать статьи), то здесь вы сможете ими разжиться, правда, усилия приложить все равно придется. Суть такова, что многие сайты умирают и становятся недоступны вместе с имеющимся на них контентом.

    Отыскав такие ресурсы вы сможете вытащить тексты из интернет-архива и разместить их у себя, предварительно проверив их на уникальность. Таким образом вы не занимаетесь плагиатом и не нарушаете авторские права (копирайт), но искать в вебархиве многим может показаться очень уж трудоемкой задачей.

Онлайн сервис Webarchive ведет свою историю аж с 1996 года. Поставленная перед проектом задача казалась невыполнимой даже с учетом того, что сайтов на то время в интернете было значительно меньше, чем сейчас (на несколько порядков). По началу, сайты архивировались не очень часто, но со временем, повышая мощности хранилищ, Веб-архив стал делать все больше и больше слепков сайтов.

Сам себя этот веб архив занес в базу лишь в 1997 году и выглядела его главная страница тогда так:

Сейчас на все про все (включая аудио, видео и отсканированные книги) у этой некоммерческой организации задействовано дисковое пространство чудовищных размеров, измеряемое десяткой с пятнадцатью нулями байт. Сайт имеет зеркала в различных дата центрах, а сам проект с недавних пор получил официальный статус библиотеки. Если рассматривать только архив страниц сайтов, то их уже там насчитывается около ста миллиардов (тут учитываются все слепки страниц когда-либо снятые и сохраненные).

На главной странице доступен не только архив страниц интернета Wayback Machine, но и архивы различных кинохроник, телепередач, аудио записей и отсканированных в различных библиотеках книг:

Но нас интересует именно область WEB с логотипом Wayback Machine. В расположенную там форму можно ввести URL или доменное имя интересующего вас сайта (читайте про то, что такое домен и чем он отличается от URL), чтобы попасть на страницу с календарем:

Из приведенного примера видно, что мой блог был впервые архивирован 27 августа 2009 года (через пять дней после регистрации (покупки) домена ktonanovenkogo.ru). За прошедший интервал времени было создано 125 архивных копий сайта, каждую из которым можно будет посмотреть и потрогать руками (осуществляя переходы по внутренним ссылкам).

Открытие мертвых ссылок и условия попадания сайта в archive.org

В календаре голубыми кружочками отмечены даты, в которые был создан слепок (вебархив) данного сайта. Естественно, что моменты снятия слепка никак не будет коррелироваться с производимыми на вашем ресурсе изменениями, и их время Webarchive определяет строго исходя из своих внутренних алгоритмов и таймеров.

Поэтому использовать архив интернета, как инструмент для открытия временно недоступных сайтов, наверное, не всегда будет резонным. Для этого у Яндекса имеется возможность просмотра архивной копии документа:

Да, и в Google можно всегда посмотреть сохраненную копию веб-страницы:

Данный же онлайн сервис понадобится в особо тяжелых случаях, когда искомая страница уже не существует и вряд ли уже будет существовать в реальном интернете, но зато она по прежнему будет доступна в машине времени.

Правда, тут должно быть соблюдено несколько условий того, чтобы сайт попал в archive.org:

  1. Он не должен содержать в своем файле robots.txt запрет для его индексации роботом с web.archive.org. Такой запрет, обычно выглядит так:

    User-agent: ia_archiver
     Disallow: /

    Когда я писал статью про электронную почту mail.ru, то не смог найти в Архиве Интернета сохраненных копий сайта mail.ru, т.к. его файл robots.txt содержал в себе похожий запрет:

  2. Некоторые сайты Вебархив по каким-либо причинам банально не нашел. Вероятность попадания ресурса в базу повышается, если он будет добавлен в каталог Dmoz или же если на него будут проставлены ссылки с других популярных ресурсов, которые в Webarchive уже находятся. В общем то, даже простой запрос через форму на главной странице этого сервиса может послужить толчком к привлечению внимания этого архиватора к вашему ресурсу.

Как найти нужный веб-архив и восстановить сайт без бекапа

По архивам можно перемещаться и с помощью временной шкалы расположенной вверху страницы, где вертикальными черными черточками отмечены имеющиеся для этого сайта слепки. Иногда, веб-архивы могут быть битыми, тогда придется открыть ближайший к нему слепок.

Щелкнув по голубому кружочку мы можем увидеть ссылки на несколько архивов, отличающихся временем их снятия.

Возможно, что это делается во избежании потери данных за счет неизбежной порчи жестких дисков в хранилищах. Перейдя к просмотру одного из веб-архивов, вы увидите копию своего (в данном примере моего) сайта с работающими внутренними ссылками и подключенным стилевым оформлением. Правда, не идеально работающим.

Например, кое-что из дизайна у меня все же перекосило и боковое меню работающее на ДжаваСкрипте полностью исчезло:

Но это не столь важно, ибо в исходном коде страницы с web.archive.org это меню, естественно, присутствует. Однако, просто так скопировать текст этой страницы к себе на сайт взамен утерянной не получится. Почему? Да потому что путешествие внутри сайта из прошлого будет возможно лишь в случае замены всех внутренних ссылок на те, что генерит Webarchive (в противном случае вас перебросило бы на современную версию ресурса).

Выглядят эти ссылки примерно так:

http://web.archive.org/web/20111013120145/https://ktonanovenkogo.ru/seo/search/samostoyatelnoe-prodvizhenie-sajta-kak-prodvigat-samomu-vnutrennej-optimizaciej.html

Понятно, что можно будет вручную отсечь вступительную часть ссылок (http://web.archive.org/web/20111013120145/), получив таким образом рабочий вариант. Можно этот процесс даже автоматизировать с помощью инструмента поиска и замены редактора Notepad, но еще проще будет воспользоваться встроенной в этот сервис возможностью замены внутренних ссылок на оригинальные.

Для этого копируете адрес страницы с нужным слепком вашего сайта (из адресной строки браузера — начинается с http://web.archive.org/). Он будет иметь примерно такой вид:

http://web.archive.org/web/20111013120145/https://ktonanovenkogo.ru/

И вставляете в него конструкцию «id_» в конце даты (20111013120145), чтобы получилось так:

http://web.archive.org/web/20111013120145id_/https://ktonanovenkogo.ru/

Теперь измененный адрес обратно возвращаете в адресную строку браузера и жмете на Enter. После этого страница c архивом вашего сайта обновится и все внутренние ссылки станут прямыми. Можно будет копировать текст статьи из исходного кода вебархива.

Понятно, что восстановление таким образом огромного сайта займет чудовищное количество времени, но когда другого варианта нет, то и такой покажется манной небесной. К тому же, страдают невозвратной потерей контента обычно только начинающие вебмастера, у которых этого самого контента было мало, а более-менее опытные сайтовладельцы, уж не раз обжигавшиеся на подобных вещах, делают бэкапы файлов и базы по пять раз на дню.

Если вы захотите увидеть все страницы вашего (или чужого) сайта, которые содержатся в недрах этого мастодонта, то вам нужно будет вставить в адресную строку браузера следующий адрес и нажать Enter:

http://wayback.archive.org/web/*/ktonanovenkogo.ru*

Вместо моего домена можно использовать свой. На открывшейся странице вы получите возможность наложить фильтр в предназначенной для этого форме:

Например, я захотел увидеть лишь текстовые файлы своего блога, которые заглотил Web Archive. Зачем — не знаю, но захотел.

Как вытянуть из Webarchive уникальный контент для сайта

Описанный ниже способ лично я не использовал, но чисто теоретически все должно работать. Саму идею я почерпнул на этом молодом ресурсе, где и были описаны все шаги. Принцип метода состоит в том, что каждый день умирают и никогда не возрождаются десятки сайтов.

Причин этому может быть много и большинство из почивших в бозе ресурсов никакой особой ценности в плане контента никогда и не представляли. Но из всякого правила бывают исключения и нужно будет всего-навсего отделить зерна от плевел. Главное чтобы исчезнувшие сайты с более-менее удобоваримым контентом были бы представлены в Web Archive, хотя бы одной копией.

Т.к. после смерти контент этих сайтов постепенно выпадет из индекса поисковых систем, то взяв его из интернет-архива вы, по идее, станете его законным владельцем и первоисточником для поисковых систем. Замечательно, если будет именно так (есть вариант, что еще при жизни ресурса его нещадно могли откопипастить). Но кроме проблемы уникальности текстов, существует проблема их отыскания.

Во-первых, нам нужен список сайтов, которые скоро умрут или уже померли. Автор метода предлагает скачать с сайта регистратора доменных имен Nic.ru список освобождающихся или уже освободившихся доменов.

Что примечательно, в последней колонке этого списка (его можно открыть в Excel) будет отображаться количество архивов, созданных для каждого сайта в Web Archive (правда, проверить наличие домена в веб-архиве можно и в ряде онлайн сервисов).

Список буржуйских доменных имен, освобождающихся или уже освободившихся, предлагается скачать по этой ссылке. Ну, а дальше просматриваем содержимое сайтов, которое сохранил Web Archive и пытаемся найти что-то стоящее. Потом проверяем уникальность этих материалов (ссылку приводил чуть выше) и в случае удачи публикуем их на своем ресурсе, либо продаем в какой-нибудь бирже контента.

Да, способ муторный и мною лично не проверенный. Но, думаю, что при некоторой степени автоматизации и обмозговывания он может давать неплохой выхлоп. Наверное, кто-нибудь уже это поставил на поток. А вы как думаете?

Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

Как зайти в «Архив Интернета» — Российская газета

Интернет-сайты куда более непостоянны, чем кажутся, — практически любой из них может по тем или иным причинам (авария на сервере, отключение электричества, обрыв кабеля, по которому передается информация) выйти из строя и перестать «отзываться», то есть загружаться в вашем браузере.

Может случиться и по-другому — владельцу сайта просто надоело возиться с ним, и он забросил свою «поделку». В результате компания, которая обслуживает онлайн-ресурс, просто закроет его за неуплату. Открыть сайт будет невозможно, и вся информация, которая на нем хранилась, потеряется безвозвратно.

«Мертвые» ссылки

Неработоспособность интернет-сайта может быть как временной (на устранение аварии может уйти от нескольких часов до нескольких дней), так и постоянной. И ссылка, которую вы сохранили в «Избранном», в какой-то момент может оказаться неработоспособной — «пациент» может оказаться «в коме» или вовсе «скончаться во цвете лет». Или же содержимое может измениться до неузнаваемости. А если на таком сайте или какой-то странице хранилось что-то важное? Впадать в панику, разумеется, не стоит. Во-первых, сайт, возможно, испытывает лишь временные перебои в работе и скоро восстановится. А во-вторых, существуют специальные инструменты, которые позволяют в буквальном смысле заглянуть в прошлое.

Архив в Интернете

Еще в середине девяностых годов прошлого века, когда глобальная компьютерная сеть была не так развита, в США появился «Архив Интернета», который стал чем-то вроде всемирной библиотеки. Программисты «Архива Интернета» написали программы, которые принялись ходить по сайтам и сохраняли страницы, картинки, видео- и аудиозаписи и даже программы — в общем, все, что попадалось под руку. На сегодняшний день объем архива выглядит внушительно — он содержит 160 миллиардов страниц. Кроме того, существуют локальные архивы интернет-сайтов — их наполнением и поддержкой занимаются поисковики, такие как «Яндекс», Google и так далее. Они также хранят копии страниц, которые посещали их «роботы», — программы, исследующие Интернет в поисках новых страниц.

Поэтому даже если сайт и приказал долго жить, его содержимое практически всегда можно отыскать в том или ином архиве.

Как заглянуть в прошлое

Сайт «Архив Интернета» находится по адресу: web.archive.org. На первой его странице вы увидите поле для ввода текста. В это поле вы можете ввести адрес сайта, связь с которым прервалась, после чего, если в базе данных отыщется подходящая запись и вы увидите сайт таким же, каким он был, только с небольшой плашкой с рекламой «Архива». С помощью архива можно отслеживать, как менялся дизайн одного и того же сайта с течением времени.

Похожими возможностями может похвастаться сайт под названием «Мертвый адрес» (Dead URL), расположенный по адресу: www.deadurl.com. Скопируйте нерабочую ссылку и вставьте ее в строку на сайте Dead URL и нажмите кнопку поиска. Немного подумав, Dead URL выдаст сразу несколько ссылок. Часть из них будет вести на архив, сохраненный поисковиком Google, а часть — на уже известный нам «Архив Интернета» (Archive.org). Ссылки будут отсортированы по датам — просто выберите интересную вам. Пользоваться архивами поисковых сайтов тоже полезно уметь. В случае с Google достаточно открыть сайт www.google.ru, написать в поисковой строке фразу «cache:» (без кавычек) и после нее без пробелов вставить адрес сайта. Если в архиве имеется эта страница, она без проблем отобразится в вашем браузере. Если нет — попробуйте «спросить» у «Яндекса». Для этого надо ввести адрес страницы и нажать кнопку поиска — в результатах поиска ссылка на страницу будет находиться на первом месте, а под ней обнаружится ссылка «Копия», где хранится «слепок» страницы. А может и не обнаружиться — даже такой крупный поисковик не в состоянии объять необъятный Интернет.

У кого проблемы?

Проблемы с открытием могут объясняться не тем, что сайт, который вы пытаетесь открыть, перестал работать, а проблемами где-то рядом с вами. Например, у интернет-провайдера могла случиться поломка. Чтобы проверить, кто именно виноват в том, что нужный сайт перестал открываться, зайдите на сайт Down Or Not (www.downornot.com, в вольном переводе «Жив или нет») и введите адрес сайта (например, www.yandex.ru) в строку, после чего нажмите «ввод». После краткого анализа ресурс сообщит результат: слово «UP» означает, что сайт по введенному адресу вполне «жив», а «DOWN» говорит о том, что ресурс временно (или уже навсегда — как повезет) не работает. Таким образом, Down Or Not — это сторонний эксперт, который помогает определить, кто виноват в недоступности того или иного сайта — владелец этого сайта или же ваш провайдер (или его партнер).

Вопрос — ответ

— Получил письмо по электронной почте на английском языке. Перевел онлайновым переводчиком. Оказалось, какой-то богач из Африки просит моей помощи, чтобы вывести деньги, обещает мне большой процент. Я слышал, что это «развод», но как именно мошенники получают деньги?

— Такие письма рассылаются по нескольким миллионам адресов сразу. Получателям действительно обещается солидная сумма за помощь в совершении некоей денежной операции. Если вы согласитесь участвовать в этой махинации, мошенники могут попросить у вас номер банковской карточки и затем снять оттуда все деньги (это не так уж сложно). Или предложат отправить им сумму, эквивалентную 10-20 долларам, на некие «текущие расходы». Все это приемы для обмана доверчивых пользователей, вестись на них и вступать в переписку с людьми, предлагающими вам ни с того ни с сего разбогатеть, конечно, не надо.

Словарик

«Мертвый сайт» — ресурс в Интернете, который временно или постоянно прекратил работу по тем или иным причинам.

«Архив сайта» — копия страниц того или иного ресурса, хранящаяся на специальном сервере.

Как пользоваться веб-архивом и посмотреть историю сайта Archive Org

Создание и наполнение онлайн-ресурса — это многоэтапный системный процесс. Контент фирменного сайта, интернет-магазина, лэндинга или портала должен постоянно обновляться с учетом целей и задач компании, изменений предпочтений целевой аудитории и алгоритмов поисковых систем. Но иногда старые тексты могут пригодиться, и тогда их можно найти на веб-архивах.

Что такое веб-архив

Веб-архив (web archive, internet archive) — это онлайн-платформа Wayback Machine, созданная в 1996 году. Здесь хранятся копии контента сайтов, интернет-магазинов, блогов, информационных и развлекательных порталов и других интернет-ресурсов, которые разрешены для сохранения. Это бесплатная онлайн-библиотека web.archive.org, где можно найти разные версии всех веб-ресурсов и просмотреть, как выглядел их контент, сохраненный на дату посещения сайта роботом сервиса.

Со времени создания веб-архива, здесь накопилось и на данный момент хранится больше 330 миллиардов файлов:

  • интернет-страниц;
  • аудио;
  • видео;
  • электронных книг и пр.

Зачем нужен web archive и как его можно использовать

Веб-архивирование нужно для того, чтобы можно было восстановить важную утерянную информацию с сайта, которая может не сохраниться из-за технических проблем или повреждения вирусом.

Например, владелец сайта создал его и наполнил описанием продукции, полезными статьями и изображениями по тематике. Через время веб-ресурс был обновлен и тексты заменены на новые. А еще через время понадобились именно старые тексты. В таких случаях и нужен открытый интернет-архив, в котором можно найти десятки сохраненных версий сайта на разные даты.

Предназначение веб-архивов:

  • Возможность восстановления собственного контента в случае повреждения или удаления старых текстов и изображений.
  • Просмотр старых файлов на других работающих веб-сайтах.
  • Анализ изменений наполнения онлайн-ресурсов (собственных и конкурентных).

Сохранение авторского контента — это важная функция. Намного проще корректировать уже имеющиеся тексты, чем писать новые с нуля. Можно сделать рерайт (переписывание текста другим словами с сохранением смысла и структуры). Особенности использования резервных копий приведены в Табл. 1.

Табл. 1. Для каких целей можно использовать более ранний контент

ЦелиОсобенности применения
Восстановление сайтаБывают случаи непоправимого повреждения онлайн-ресурса — из-за вирусов, хакерских атак. Если не было проведено резервное копирование на своем хостинге, то можно будет найти свои тексты в веб-архиве
Наполнение сайта по похожей тематикеСтарый экспертный текст по своей тематике может понадобиться при создании лэндинга, вспомогательного онлайн-ресурса. Если тексты неуникальны, их нужно рерайтить
Ведение блогаДля привлечения трафика на профильный сайт нужно вести блог с текстами узкой тематики. Это могут быть советы по выбору товаров, использованию продукции и другой контент. Для написания таких текстов может потребоваться информация со старых копий веб-ресурса
Публикации на странице в социальных сетяхБизнес-аккаунт в соцсетях помогает поднять узнаваемость бренда и компании, привлечь новых покупателей, расширить рынки сбыта. Для постов в социальных сетях можно использовать тексты, которые ранее были опубликованы на сайте (если они не дублируются с новыми)

 

Как просмотреть старые версии сайтов на Wayback Machine

Если вам необходимо найти старую версию страниц какого-либо веб сайта, выполните следующие действия:

  1. Наберите в поисковой строке адрес https://web.archive.org/.
  2. С главной страницы архива сайтов перейдите по ссылке на нужный раздел (файлы, видео, изображения и пр.), укажите адрес домена и нажмите «BROWSE HISTORY».
  3. Во временной шкале будут отображены все копии сайтов. Словно с помощью машины времени, здесь можно найти любую созданную ранее архивную копию и даже скачать ее при помощи специальных инструментов.
  4. В открывшемся календаре можно выбрать дату, отмеченную зеленым или голубым кружком (диаметр этого кружка зависит от числа обращений робота сервиса к онлайн-проекту в указанный день). Зеленым кружком обозначены редиректы.

Важно! Если веб-страницу через некоторое время не удается просмотреть, это может быть вызвано несколькими причинами:

  • Правообладатель обратился на платформу архива интернета с требованием удалить копии.
  • Сам веб-проект был закрыт из-за нарушения авторских прав и закона об использовании интеллектуальной собственности.
  • Разработчики закрыли страницы своего онлайн-ресурса от индексации роботами поисковых систем.

Если вы хотите посмотреть, как выглядел веб-сайт, но на сохраненной копии нет изображений или других элементов дизайна (иногда они не сохраняются), нужно открыть другую версию, которую веб-архив сохранил в другой день.

Как добавить современную версию сайта в веб-архив Wayback Machineи выполнить другие действия

Онлайн-платформа по веб-архивированию сайтов предоставляет множество возможностей разработчикам и владельцам ресурсов (Табл. 2).

Табл. 2. Как работать с веб-архивом

ВозможностиОсобенности выполнения
Сохранение нужной версии сайта на платформе интернет-архиваНужно самостоятельно инициировать сохранение. В разделе платформы «Save Page Now» нужно забить домен онлайн-ресурса и нажать «Save page». Такую процедуру рекомендуется повторять каждый раз, когда в контент были внесены исправления или дополнения
Запрет на добавление интернет-ресурса в память веб-архиваДля запрета добавления нужно прописать это в файле robots.txt. В панелях хостеров есть корневой каталог, в котором предусмотрена возможность редактирования файлов. При введении кода User-agent: ia_archiverDisallow: /User-agent: ia_archiver-web.archive.orgDisallow: / файл будет скрыт от копирования. При введении такого кода из веб-архива удаляется и текущая версия сайта и не осуществляется системное копирование (до тех пор, пока в файле robots.txt есть такие настройки или пока не закончится срок регистрации домена)
Восстановление веб-сайта из интернет-архиваЕсли сайт был поврежден вирусами или есть другие технические проблемы, из-за которых контент был нарушен, можно восстановить файлы из онлайн-хранилища. Для этого применяются специальные сервисы. Есть платные и бесплатные варианты, которые выбираются с учетом количества страниц для восстановления

 

Уникальный контент из веб-архива

Многие коммерческие сайты через некоторое время существования закрываются. Если на них был опубликован полезный контент (экспертные статьи, аналитические обзоры и другая важная информация), то после закрытия первоисточника они могут быть востребованными. То есть, сайт уже не работает и ранее написанные статьи могут использоваться на информационных порталах (если они уникальны).

Веб-архив является очень полезным сервисом, который может пригодиться в различных ситуациях. Быстрое восстановление потерянных данных может значительно сэкономить время и финансы, если сайт подвергнется хакерской атаке или же перестанет работать из-за серьезной технической проблемы. Веб-архив дает возможность не только просматривать старые версии своего сайта, но и анализировать контент конкурентов, сохраненный в разные периоды времени.

Как узнать историю сайта в 2021: 4 основных способа

Узнать историю сайта является важной задачей при анализе конкурентов, позволяющей развитие компании, применяемые способы, обновление дизайна и многое другое.

Как узнать историю сайта в web.archive.org?

Для того, чтобы увидеть, как сайт выглядел некоторое время назад требуется посетить сервис:

http://web.archive.org/

Здесь достаточно ввести нужный URL в поле «Enter a URL».

После выбираем год.

Далее опускаемся ниже и кликаем на нужную дату (все доступные даты выделены голубым цветом).

Теперь мы видим саму страницу и то, как она выглядела.

Проверка WhoIS домена

Получить информацию об истории домена можно через сервис WhoIS. Например:

https://www.reg.ru/whois/

В итоге получаем:

  • Домен зарегистрирован: 11 марта 2019 года;
  • Зарегистрирован: на частное лицо;
  • Делегирован: timeweb.

Проверка ИКС (ТИЦ) и качество домена

Анализировать качество ресурса можно введя домен в поисковой системе Яндекс, после кликнув на стрелочку «Вниз» и выбрав «Информация о сайте».

Здесь представлены полученные (достигнутые) значки, ИКС и отзывы.

Подключившись к Яндекс.Вебмастеру и воспользовавшись инструментов «Качество» можно увидеть историю изменения ИКС за длительный период.

Добавить конкурента можно кликнув на соответствующую кнопку.

Изменение видимости в поисковых системах

Анализ данных о видимости и состоянии ресурса в поисковых системах можно проверить через:

Serpstat

Удобный инструмент для полного анализа как отдельных URL так и домена в целом.

Показывает статистику в каждом отдельном поисковике и анализирует фразы, по которым ресурс занимает лидирующие позиции.

Также дает динамику видимости за год.

Be1

Простой и бесплатный инструмент для быстрого SEO-аудита.

Помогает понять, насколько ресурс популярен в поисковиках.

Megaindex

Популярный инструмент для комплексного анализа сайта.

Помогает увидеть основные запросы, ссылки, динамику видимости и источники трафика.

Webarchive ᐈ как пользоваться веб архивом и посмотреть историю сайта

Содержание:

Webarchive – история всего интернета на одном сайте

Практическое использование веб-архива

История web.archive.org

Открытие мертвых ссылок

Восстановление сайта без «бэкапа» и поиск нужного архива

Уникальный контент из «мертвых» сайтов

Итоги

Сайт web.archive.org имеет за собой большую и почти невыполнимую миссию – сохранить всю историю интернета. Причем информация в архиве выглядит как стандартная веб-страница. Данный ресурс может сохранить большое количество копий одного сайта за все время его существования. Так что по амбициям этот ресурс не уступает знаменитой Википедии.

В первую очередь данный архив интернета полезен тем, кто по каким-либо причинам не сделал копию собственного ресурса. В таком случае при непредвиденных обстоятельствах сохранится возможность восстановить свой сайт только с помощью веб-архива. Для этого необходимо будет отменить все ссылки от привязки к веб-архиву и сделать их прямыми для вашего сайта.

Также web.archive.org может быть полезен тем, кто ищет некий уникальный контент. Поскольку за время существования интернета «умерло» великое множество разнообразных страниц, на просторах архива можно будет отыскать действительно полезную информацию, которая с легкостью сможет пройти проверку на уникальность. Основная проблема заключается в том, что отыскать нужный контент в огромных «дебрях» archive.org довольно трудно. Необходимо четко представлять, что и где искать.

Очевидно, что через веб архив сайтов возможно пройти по «мертвым» ссылкам, даже если они уже исчезли из кеша Гугла или Яндекса.

Ну и для любителей поностальгировать существует возможность узнать, как менялась история любого сайта, который существовал за время работы web.archive.org. Ведь archive.org – это своеобразная «машина времени», в которой доступна история всего интернета. Своеобразный взгляд в прошлое.

Данный сервис начал свое существование в 1996 году. Но, что интересно, сам себя archive.org внес в базу лишь в последующем году.

Так выглядела стартовая страница ресурса в то время

Архив использует невероятный объем памяти (больше тысячи терабайт), включая аудио- и видеофайлы, а также страницы отсканированных книг. Можно отыскать не только веб-страницы ресурсов (которых уже насчитывается больше ста миллиардов), но и просмотреть телепередачи, которых уже давно нет в эфире. Такая функция называется «Waybackmachine»

Как попасть в веб-архив

Фактически попасть в базу данных этого ресурса очень просто. Сайт не должен содержать в своем файле robot.txt запрет на его индексацию роботом архива. Чаще всего такой запрет отображается так:


User-agent: ia_archiver

 Disallow: /

Также некоторые сайты archive.org может попросту не найти, поскольку они отсутствуют в базах данных. Чтобы повысить вероятность попадания в них, ссылки на ваш сайт должны быть размещены на других ресурсах, которые уже есть в базе данных архива.

Веб архив не учитывает прямые изменения на сайте, поскольку он делает слепки любого ресурса беря за основу собственные таймеры и алгоритмы. Именно поэтому использовать сервис как доступ к временно неработающим ссылкам бесполезно. Тем более, что как Google, так и Yandex предоставляет возможность просмотра сохраненной копии из кеша.

Данный сервис представляет ценность именно для тех людей, которые хотят посмотреть уже несуществующую страницу.

По архивам можно перемещаться с помощью календарного меню вверху страницы. Синим кружком помечены даты, когда сделаны слепки. Нажав на него, можно увидеть точное время создания слепка и их количество в заданный день. Эта делается во избежание потери информации, поскольку данные в хранилищах со временем могут испортиться, а также отдельные копии могут быть битыми.

Нажав на просмотр любого слепка, вы перейдете на полностью рабочую страницу ресурса. То есть, все внутренние ссылки будут работать. Однако, сервис может неидеально воспроизвести оформление, а также могут исчезнуть некоторые элементы меню. Паниковать не стоит, поскольку код страницы идентичен вашему. Но простым копированием кода восстановить утерянную информацию не удастся. Поскольку веб хранилище само генерирует ссылки внутри каждого слепка, иначе вы бы перешли на актуальную версию, а не на историю сайта.

Чтобы заставить все работать, нужно удалить вступительную часть ссылки. Однако, во избежание рутинной работы сервис имеет инструмент замены внутренних ссылок на оригинальные. Чтобы воспользоваться им, нужно скопировать веб-адрес страницы с нужным слепком и в конце даты добавить конструкцию «id_».

Адрес должен иметь такой вид

https://web.archive.org/web/20090206215515/http://football.ua:80/

Вставляем конструкцию «id_»

https://web.archive.org/web/20090206215515id_/http://football.ua:80/

Далее возвращаем веб-адрес в строку и нажимаем Enter. Очевидно, что восстановление ресурса таким образом займет просто невероятное количество времени. Но когда выхода нет – выбирать не приходится. Чтобы никогда не пользоваться таким неудобным способом восстановления – лучше делайте бэкапы своего сайта по несколько раз в день. Это поможет уберечь ваши нервы от лишнего стресса.

Если вам нужно отобразить все страницы необходимого сайта, введите такой веб-адрес в строку браузера:

https://web.archive.org/web/*/football.ua

На странице, которая открылась, существует возможность отфильтровать файлы по разным форматам.

Каждый день из интернета исчезают десятки и даже сотни разнообразных сайтов. Стоит отметить, что абсолютное большинство не представляет особой ценности, но в каждой реке можно найти много крупинок золота. Главное, чтобы полезные сайты имели хотя бы один работающий слепок в archive.org.

Поскольку информация из умерших сайтов поступенно перестает индексироваться поисковыми системами, такой контент становится уникальным (конечно, если он не был «сплагиачен» до этого). Выставив эту информацию на свой ресурс, вы станете ее правообладателем или первоисточником для поисковых систем. Главное, предварительно проверить ее на уникальность, чтобы не нарушить ничей копирайт. Но как именно отыскать подобные ресурсы среди гор мусора?

К счастью, существует один способ.

С помощью регистратора домена nic.ru можно получить список доменов, которые освободились или освободятся в скором времени. В таком списке можно увидеть количество архивов в Archive.org для каждого исчезнувшего домена, однако проверить наличие домена можно и в нескольких онлайн-сервисах. Например, в этом, http://www.seogadget.ru/wa или этом http://r-tools.org/page/tools/webarchive_checker.

Проверить наличие домена иностранного веб-адреса можно, скачав файл по ссылке: http://www.pool.com/Downloads/PoolDeletingDomainsList.zip

После этого нужно всего лишь просматривать информацию Webarchive с каждого ресурса, который вас заинтересовал. Безусловно, такой метод предполагает наличие внимательности, а также терпения, поскольку качество большинства данного контента будет низкопробным.

Как видим, ресурс Archive.org имеет не только практическую пользу, в виде поиска уникального контента и последующей возможности восстановить собственную страницу. Для некоторых людей этот сервис – шанс узнать, как выглядел интернет раньше. Отыскать и зайти на любимый сайт детства проще простого с помощью данного сервиса. Archive.org может показать совершенно новый и незнакомый мир. 

как пользоваться и найти удаленный сайт

Как найти информацию в Интернете, которую не отображают такие продвинутые поисковые системы как Google или Яндекс? Можно ли найти сайты, которые когда-то существовали в сети, но уже не работают, удалены или же заменены новыми? На эти вопросы мы постараемся дать ответ в этой статье.

Всемирный Веб архив сайтов интернета

Хранилище интернет-архив конечно не содержит всех страниц, которые когда-либо были созданы. Но шанс найти интересующий вас сайт и его архивную копию достаточно велик.

Самый мощный архив веб-сайтов доступен на Archive.org по адресу www.archive.org. Он индексирует  веб, виде-, аудио и текстовые материалы, которые доступны в интернете.

Запустите ваш любимый веб-браузер и введите www.archive.org в адресной строке . Через некоторое время вы увидите главную страницу сайта  интернет-архива. Она разделена на несколько частей. Каждая часть позволяет искать различный тип контента.

Раздел видео, содержит на момент написания статьи более 830 тысяч фильмов.

Раздел аудио, включает в себя более 2 миллионов записей, при это доступен еще раздел живой музыки, который насчитывает около 200 тысяч прямых трансляций с концертов в Интернет.

Однако наиболее интересным и значимым разделом сайта  Archive.org является  раздел  web-страницы. На сегодняшний день он позволяет получить доступ к более чем 349 миллиардам архивных веб-сайтов. Для данного раздела даже выделен отдельный поддомен web.

Главная страница сайта Archive.org

Как пользоваться веб архивом

Если вы хотите выполнить поиск в архиве веб-страниц, введите в адресную строку вашего браузера адрес web.archive.org.ru, после чего в поле поиска укажите адрес интересуемого сайта. Например, введите адрес домашней страницы  Яндекса http://yandex.ru и нажмите клавишу «Enter».

Сохраненные копии главной страницы Яндекс на сайте web.archive.org

Зелеными кружочками обозначены даты когда была проиндексирована страница, нажав на него вы перейдете на архивную копию сайта. Для того чтобы выбрать архивную дату, достаточно кликнуть по временной диаграмме по разделу с годом и выбрать доступные в этом году месяц и число. Так же если вы нажмете на ссылку «Summary of yandex.ru» то увидите, какой контент был проиндексирован и сохранен в архиве для конкретного сайта с 1 января 1996 года ( это дата начала работы веб архива).

Какой контент сохраняет веб-архив интернета

Нажав на выбранную дату, вам откроется архивная копия страницы, такая  как она выглядела на веб-сайте в прошлом. Давайте посмотрим на Яндекс в молодости, ниже приведен снимок главной страницы Яндекса на 8 февраля 1999 года.

Веб архив копия сайта Яндекс на 08.02.1999

Вполне возможно, что в архивном варианте страниц, хранящемся на веб-сайте Archive.org, будут отсутствовать некоторые иллюстрации, и возможны ошибки форматирования текста. Это результатом того, что механизм архивирования  веб-сайтов, пытается, прежде всего, сохранить текстовый контент web-сайтов. Помните об еще одном ограничении онлайн-архива. При поиске конкретного контента, размещенного на определенной архивной странице, лучше всего вводить ее точный адрес, а не главный адрес данного веб-сайта.

Возвращаясь к нашему примеру: вы получили доступ к архивному контенту, размещенному на главной странице Яндекса, при нажатии на ссылки в архивной версии могут как загружаться так и не загружаться другие страницы сайта. Так в нашем варианте страница «последние 20 запросов» была найдена, а вот страница «Реклама на yandex.ru» не нашлась.

Подводя итоги можно сказать, что web.archive.org поистине уникальный и грандиозный  проект. Он  действительно является машиной времени для интернета, позволяя найти удаленные сайты и их архивные версии . Как использовать предоставляемые возможности решать только вам, но использовать их можно и нужно обязательно !

Как скачать сайт из веб архива

Если вы желаете восстановить сайт из веб-архива, то вам в этом поможет программа Web Archive Downloader 6.0

Как просмотреть кэшированную версию веб-сайта

Легко забыть о непостоянстве Интернета. Страницы редактируются без предупреждения, и веб-сайты могут исчезнуть в мгновение ока.

Существует множество способов потерять доступ к сайту или веб-странице. Возможно, серверы не работают, или, возможно, владелец сайта изменил или удалил контент, который вы пытаетесь найти. В этих случаях одним из вариантов является просмотр кэшированной версии.

Google регулярно сканирует Интернет в поисках новых страниц для индексации, а также сохраняет резервные копии сканируемых страниц.Веб-браузеры делают то же самое, чтобы страницы загружались быстрее. Эти снимки сохраняются в кэше — области вашего локального жесткого диска, которая временно становится доступной, если сайт выходит из строя или какое-то содержимое удаляется. Не все веб-сайты индексируются Google или сохраняются в кеше, но вот как получить к ним доступ.


Просмотр кэша

Чтобы просмотреть кэш страницы, запустите поиск и найдите страницу, которую вы ищете. В Google щелкните меню с тремя точками рядом с результатом, чтобы открыть всплывающую страницу Об этом результате .Нажмите кнопку Cached во всплывающем окне, чтобы просмотреть кешированную версию веб-сайта.

Когда сайт загрузится, Google сообщит вам, что это более старая версия, и укажет, когда был сделан снимок. У вас также будет возможность просмотреть текстовую версию страницы, а также ее исходный код. Однако имейте в виду, что вы не сможете переходить к другим страницам и оставаться в кэшированной версии; вы попадете на действующий сайт, если попытаетесь.

Пользователям Bing нужно только найти результат поиска, который они ищут, а затем щелкнуть стрелку рядом с URL-адресом сайта.Выберите «Кэшировано» в небольшом меню, чтобы открыть кешированную версию веб-сайта с баннером, указывающим, что это не действующая страница.

Намного более простой способ просмотреть кэшированный веб-сайт — использовать модификатор поиска. введите cache: в адресной строке и добавьте URL-адрес, не оставляя пробела. Браузер откроет кешированную версию рассматриваемого веб-сайта.


Wayback Machine

Просмотр кешированных версий веб-сайтов идет только пока. Ряд организаций посвящены сохранению истории Интернета; наиболее известным является некоммерческий Интернет-архив, в котором размещаются веб-сайты, тексты, видео, аудио, программное обеспечение и изображения, которые трудно найти где-либо еще.Вы можете просматривать даже более старые версии веб-сайтов с помощью Wayback Machine, которая работает как для живых, так и для автономных веб-сайтов.

Введите URL-адрес, который вы хотите изучить, и поисковая машина по архивам покажет календарь, который указывает, когда Wayback Machine просканировала эту страницу. Щелкните дату в календаре, чтобы увидеть, как сайт выглядел в тот день. Wayback Machine — отличный способ просмотреть историю Интернета; заархивированные версии PCMag.com датируются 19 декабря 1996 года.


Архив.Сегодня

Сайт архивации Archive.Today позволяет пользователям сохранять текущие веб-страницы, а также искать существующие записи, которые были ранее сохранены. Ввод URL-адреса для сохранения позволяет просматривать веб-страницу в том виде, в котором она существует в настоящее время, сохранять ее на сайте и загружать страницу на свой компьютер.

Если вы хотите просмотреть заархивированные версии веб-сайта, введите URL-адрес в соответствующую строку поиска, и Archive.Today заполнит результаты для домашней страницы и связанных отдельных страниц.Если существует несколько версий одной и той же страницы, они будут сложены вместе для удобства просмотра.

Веб-сайт PCMag, например, заархивирован еще в 2012 году и в настоящее время имеет четыре различных версии домашней страницы, сохраненных в сервисе.


Расширения браузера также могут обращаться к кэшированным сайтам. Добавьте средство просмотра веб-кэша в Chrome и щелкните правой кнопкой мыши любую страницу, чтобы просмотреть версию веб-страницы для Google или Wayback Machine. Расширение Web Archives для Chrome и Firefox идет еще дальше, позволяя просматривать кешированные версии веб-страниц из более чем десятка поисковых систем, включая Bing, Baidu и Yandex.

Другие онлайн-инструменты включают Cached Page, которая выполняет поиск по заданному URL-адресу в веб-кэше Google, Internet Archive и службу архивирования WebCite. Google Cache Checker также проверяет, проиндексирован ли сайт Google, и открывает все найденные кешированные веб-страницы.

Этот информационный бюллетень может содержать рекламу, предложения или партнерские ссылки. Подписка на информационный бюллетень означает ваше согласие с нашими Условиями использования и Политикой конфиденциальности. Вы можете отказаться от подписки на информационные бюллетени в любое время.

Получение и архивирование информации с веб-сайтов — документация The Kit 1.0

Вкратце: Вы изучите способы найти и восстановить исторические и «потерянные» информация с веб-сайтов, чтобы служить доказательством того, что что-то существовало в Интернете, а также способы архивирования и сохранения ваших собственных копий веб-страниц для дальнейшего использования.

Иногда, когда вы хотите проверить информацию в Интернете, вы оказываете следуя по следу, ведущему к неработающим ссылкам или к веб-сайтам, которые не являются доступно больше.

В других случаях вы встретите веб-сайты с важной информацией, которая может повысить ценность истории, но вы не осознаете ее ценность, пока позже.

Когда вы повторно посетите этот веб-сайт, чтобы задокументировать его, вы можете обнаружить, что он больше не существует, что конкретная веб-страница, которую вы помните был удален или что нужная вам информация больше не доступен и был заменен новым контентом.

Вы, вероятно, столкнетесь со всеми этими проблемами в какой-то момент во время ход ваших расследований.

Что, если бы существовал способ отправиться в прошлое и получить копию эта веб-страница или даже ее часть до того, как она была изменена или взята вниз?

К счастью, есть несколько простых способов восстановить старый контент и удалить его. страниц, чтобы вы могли ссылаться на них в своем расследовании. Ты можешь также сохраните доступные в данный момент страницы, чтобы вы могли использовать их позже, даже если они тем временем изменены или удалены.

Есть несколько таких сервисов, которые автоматически архивируют предыдущие версии сайтов.Помимо контента, эти цифровые архивы часто содержат информацию, которая может помочь вам идентифицировать другие важные данные, такие как как владелец веб-сайта, полезные имена, контактные данные, документы и ссылки на другие сайты. Некоторые из этих услуг позволяют вам вносить свой вклад в список веб-сайтов, которые они архивируют, время от времени сохраняя веб-страницы вручную на ваш выбор. Затем вы (и другие) можете получить снимки этих веб-сайты позже.

Скриншот копии Wayback удаленной в настоящее время веб-страницы Facebook в разделе «Истории успеха — Правительство и политика».

Что еще важнее, некоторые старые контент доступен, так как некоторые старые ссылки с заархивированной страницы все еще работают, поэтому вы можете на самом деле читал о деталях их проектов политической кампании.

В заархивированных версиях веб-сайтов, подобных этому, сохраняется информация, которая может быть невероятно ценным для следователей.

Безопасность прежде всего!

Когда вы направляете службу архивации на интересующую вас веб-страницу, она просканирует эту веб-страницу и сохранит ее копию.Когда это произойдет, веб-страница, находящаяся в архиве, автоматически добавит запись к текущему «Журнал доступа» (который ведется на большинстве веб-сайтов) о том, когда и по какому IP адресов, он был посещен.

Внимательный администратор сайта или автоматизированный процесс может затем поймите, что часть их сайта была заархивирована Wayback Machine.

Это, в свою очередь, может дать им ключ к разгадке того, что кто-то расследует конкретный фрагмент контента или лицо, имеющее к нему отношение. В некоторых случаях это само по себе может снизить влияние вашего расследования, если вы являются деликатными и должны храниться вдали от посторонних глаз, поскольку хоть какое-то время.

Как минимум, администратор сайта может иметь архивные материалы. удалено из Wayback Machine. (Это одна из причин, почему это хороший идея сделать свою собственную офлайн-копию всего, что важно для вашего расследование.) Этот администратор может также удалить или изменить аналогичные контент, который вы еще не нашли.

Большинство служб архивирования также хранят журналы доступа.

Webcite , например, записывает операционную систему компьютера и Интернет браузер каждого пользователя, а также доменное имя интернет-сервиса каждого пользователя провайдеры (политика конфиденциальности Webcite).это поэтому рекомендуется активировать виртуальную частную сеть (VPN) или использовать Tor Браузер при работе с архивами.

Кроме того, некоторые службы требуют, чтобы каждый пользователь создал учетную запись, чтобы выбрать имя пользователя, предоставить платежную информацию, подтвердить электронную почту адресов или связать профиль в социальных сетях.

Вам следует рассмотреть возможность создания отдельного набора учетных записей для использования с такими сервисами, чтобы разделить (отделить) ваши следственная работа с использованием вашей личной информации в Интернете.

В некоторых случаях вы можете даже захотеть создать одноразовую «идентификационную информацию» для конкретного расследования и избавиться от нее после завершения исследования.

В любом случае первым шагом будет создание относительно безопасного, разделенная учетная запись электронной почты, которую вы можете довольно легко сделать на tutanota.de или protonmail.com.

Оплата коммерческих услуг способом, не имеющим обратной связи с вашим личность намного сложнее. Если вы живете в регионе, где вы можете купить предоплаченную кредитную карту наличными, это может быть вашим лучшим вариант.

В потенциальной ситуации выше — администратор сайта, который замечает внезапный интерес со стороны Wayback Machine — стоит отметить что предмет вашего расследования не обязательно может отследить это интерес вернулся к вам. Если вы, ваша служба архивирования заслуживает доверия, и если никто не имеет доступа как к журналам веб-сайта, так и к архиву журналы службы, этому администратору может быть трудно подключиться точки.

Тем не менее, лучше принять меры предосторожности, рекомендованные выше, чем полагаться на это предположение.- Предположим, например, что только горстка IP-адресов просмотрели заархивированную страницу в тот же день, когда она была добавлен в Wayback Machine. Было бы легко понять из того, что за ними наблюдают из определенного места.

Любое небольшое вложение времени, прежде чем вы начнете свое расследование, может помочь вам ограничить такого рода риски.

Архивирование и получение контента с помощью Wayback Machine

The Wayback Machine — проект некоммерческий Интернет в Сан-Франциско Архив, цифровая библиотека, которая была посвященный сохранению миллиардов веб-сайтов с 1996 года, в рамках усилия по архивированию Интернета и обеспечению всеобщего доступа для всех знание.По состоянию на начало 2019 года в нем хранится около 345 миллиардов веб-сайты.

Машина обратного пути

The Wayback Machine — незаменимый инструмент для исследователей, историков, исследователи и ученые. Он находится в свободном доступе для общественности и может помочь вам получить доступ к архивным снимкам веб-страниц, сделанным в различных точках во время.

Автоматические сканеры Wayback Machine (также называемые пауками) могут получать доступ и архивировать практически любой общедоступный веб-сайт. Однако у сканеров нет фиксированного шаблон принятия решения о том, какие веб-сайты они посещают и как часто они это делают, поскольку они подвержены ограниченным ресурсам и политическим решениям, которые влияют на их работу.

В результате вы не всегда можете найти архивную версию из определенного день, месяц или даже год. Кроме того, веб-сайты могут отказаться от заархивированы такими сервисами, как Wayback Machine. Публикуя набор ограничения в текстовом файле robots.txt, веб-сайт может указать поисковые роботы, чтобы исключить часть или все его содержание из архива или индексация. Тем не менее, огромный массив данных Wayback Machine будет вероятно, будет незаменим во многих ваших исследованиях.

Примечание:

Роботы.txt — это файл, который находится на веб-сайте и перечисляет части сайт, который должен или не должен быть доступен сканерам. Если на сайте есть файл robots.txt, вы можете просмотреть его, добавив «/robots.txt» в его домен. или субдомен. Например: https://google.com/robots.txt.

Веб-сайты могут использовать этот файл для блокировки поисковых роботов от Wayback Machine, из поисковых систем, таких как Google, или из любого другого индексации или архивирования услуга. Есть ряд причин, по которым некоторые администраторы веб-сайтов выберите роботов с ограничениями.txt: чтобы ограничить расходы на пропускную способность, снизить нагрузку на перегруженные серверы, чтобы защитить изображения товарных знаков или оставить незаконченными например, не показывать веб-сайты в результатах поиска. В некоторых случаях, однако они делают это для того, чтобы скрыть потенциально конфиденциальный контент.

В то время как Wayback Machine не всегда исполнять с этими ограничениями по-прежнему есть много веб-сайтов, которые его сканеры отказаться от архивации из-за директив robots.txt. Если у тебя есть проблемы с использованием Wayback Machine для просмотра или архивирования некоторых, но не всех страницы на веб-сайте, вы можете проверить его robots.txt, чтобы узнать, есть ли части сайта «запрещены».

Помимо простого интерфейса для автоматического получения заархивированные веб-сайты, Wayback Machine также позволяет вручную сохранять снимки веб-страниц, чтобы вы могли убедиться, что они внезапно не пропадать.

Эта служба может не только архивировать веб-страницы, относящиеся к вашему расследования, но это также дает вам простой способ цитировать исследования и ссылки на контент по мере того, как ваше расследование приобретает форму.

Хотя часто бывает полезно сохранять копии важных файлов в формате HTML или PDF, веб-страниц на свои устройства, чтобы убедиться, что у вас есть несколько резервные копии, архивирование их с помощью Wayback Machine может добавить элемент нейтралитет и доверие, если вы в конечном итоге поделитесь этими архивами с другими. Кроме того, для большинства людей это намного удобнее, чем поддерживать автономная библиотека цифровых файлов.

Поиск страниц с помощью Wayback Machine

Чтобы найти страницу, которая больше не доступна, или просмотреть старую версию веб-страницы, просто перейдите на https: // web.archive.org и войдите в сеть адрес, который вы ищете.

Если страница ранее была заархивирована, даты ее сохранения будут появляются в календаре текущего года. Вы можете перейти к предыдущему лет, используя временную шкалу, которая также отображает график того, как часто страница архивировалась каждый год. После нажатия на год, в котором вы находитесь интересно, архивы этого года будут отмечены в календаре значком цветные точки.

Здесь мы используем пример https: // cambridgeanalytica.org /, веб-сайт, который был закрыт в 2018 году из-за закрытия компании (см. выше пример скандала с Cambridge Analytica).

Скриншот календаря Wayback Machine для доступа к веб-сайту Cambridge Analytica

Синяя точка означает, что на данном веб-сайте был сделан полный захват веб-страницы. Дата. Обычно это именно те архивы, которые вы ищете. Зеленые точки указывает на то, что когда сканер получил доступ к этому веб-адресу, он был автоматически перенаправляется на другую страницу того же веб-сайта.Эти архивы могут не содержать того контента, который вы ищете. Оранжевые и красные точки указывают на то, что во время архивирования произошла ошибка. процесс, возможно, из-за ошибки сканера или веб-сайта сервер. Большая точка означает, что несколько архивы хранились в тот день. Вы можете навести на них курсор, чтобы выбрать конкретное архивирование в зависимости от времени суток.

После выбора архивной версии страницы Wayback Machine панель навигации отображается в верхней части экрана.Это позволяет вам просматривать различные архивы этой страницы с помощью шкалы времени или нажав на кнопки «следующий» и «предыдущий».

* Заархивированная страница Cambridge Analytica в Wayback Machine *

Наконечник:

Чтобы помочь установить действительность ваших онлайн-доказательств, вам может потребоваться проверить точную дату и время, когда Wayback Machine просканировала и заархивировала веб-страницу. Вы можете сделать это, проверив «отметку времени», встроенную в веб-адрес архива.Эта метка времени имеет формат из четырех цифр года, за которым следуют две цифры месяца, дня и т. Д. час, минута и секунда, когда архив был захвачен. Вы можете найти его между «https://archive.org/web/» и веб-адресом заархивированной страницы. Например, следующий архив был снят в 2017 году, 31 st августа, в 06:00 и 27 секунд: https://web.archive.org/web/20170831060027/https://cambridgeanalytica.org.

Методы быстрого поиска с помощью браузера

The Wayback Machine также позволяет запрашивать определенный веб-сайт. архив, который он хранит, не просматривая его интерфейс поиска.Вместо этого вы можете сделать это в собственном браузере, правильно зайдя в отформатированный веб-адрес.

Просто добавьте адрес веб-сайта в конец Wayback Machine. адрес:

«https://web.archive.org/www.yoursite.com/» (где «www.yoursite.com/» — это любой сайт, на котором вы хотите выполнить поиск)

  • в вашем браузере будет отображаться последняя заархивированная версия сайта, который вы желаю посмотреть.

Далее:

  • Если вы разделите два адреса звездочкой (*), ваш браузер загрузит представление календаря архива: «Https: // web.archive.org/*/www.yoursite.com/ »
  • Если вы также добавите звездочку в конец, Wayback Machine будет показать вам все архивы в этом домене, а не только домашняя страница: «https://web.archive.org/*/www.yoursite.com/*»

Например, переход к https://web.archive.org/web/*/cambridgeanalytica.org/* отобразит постраничный список всех cambridgeanalytica.org страницы, заархивированные Wayback Machine.

Список страниц Cambridge Analytica в Wayback Machine

Использование Wayback Machine для архивирования веб-страниц

Еще одной ключевой особенностью Wayback Machine является возможность архивирования веб-страницы по запросу.

Если вы хотите сохранить и сохранить информацию для расследование или обеспечение доступности вашей опубликованной работы, вы можете перейти на https://archive.org/web и найти «Сохранить страницу Сейчас »к нижнему правому углу страницы. Просто введите веб-адрес (например, «http://www.yoursite.com/projects») и щелкните кнопку «СОХРАНИТЬ СТРАНИЦУ».

Если только указанный вами веб-сайт не запретил доступ к Интернет-архиву краулеры, как описано в файле robots.txt выше, Wayback Машина начнет его архивирование. Вы увидите индикатор выполнения, который будет сообщит вам, когда страница будет сохранена. В этот момент вы будете может просматривать архив страницы, а на временной шкале будут отображаться любые предыдущие снимки с этого сайта.

Веб-страница Saving Guardian на Cambridge Analytica в Wayback Machine

Сохраненная веб-страница Guardian на Cambridge Analytica в Wayback Machine

Примечание:

Приведенные выше шаги будут архивировать только отправленную вами страницу («http: // www.yoursite.com/projects », в данном случае) не все исходящие ссылки и контент на этом веб-сайте. Если вы хотите заархивировать весь веб-сайт с помощью этого метода, вам нужно будет отправить каждую страницу отдельно или создать бесплатную учетную запись в Интернет-архиве, что позволит вам получить доступ к большему количеству функций. Новая и улучшенная версия функции «Сохранить страницу сейчас» , запущенная в конце 2019 года , позволяет пользователям, которые создают бесплатную учетную запись, также сохранять исходящие ссылки веб-страницы и получать по электронной почте отчет о состоянии запроса на архивирование.

Однако эти функции не гарантируют, что обычные архивы страница будет сохранена в будущем, поэтому вы можете захотеть вернуться Wayback Machine время от времени запрашивать дополнительные снимки.

Internet Archive и его Wayback Machine постоянно стремятся улучшить функции и услуги архивирования контента, поэтому следите за их блогами и объявлениями, чтобы регулярно обновлять их.

Скачивание содержимого архива

К сожалению, Интернет-архив не позволяет выполнять поиск в полный текст всех сайтов в огромном архиве.Хотя он предлагает функция поиска по основным страницам определенных архивов, она не в настоящее время индексируются все 345 миллиардов страниц. Если вы хотите искать через заархивированный контент из определенного домена, однако есть способ сделать это.

Если вы установите язык программирования Ruby на свой компьютер (версия 1.9.2 или выше), вы можете использовать Wayback Машина Загрузчик сценарий для загрузки всех заархивированных файлов в данном домене. Этот сценарий позволяет указать диапазон дат, который вы хотите загрузить, что может будет полезно, если вы работаете с сайтами, которые были заархивированы для несколько лет.

Ограничения машины обратного пути

Как упоминалось выше, не все веб-сайты автоматически или регулярно заархивировано Wayback Machine.

сайтов выбираются на основе алгоритмов, использующих такие критерии, как частота люди посещают их и как часто другие веб-сайты ссылаются на них (что также показатель достоверности). Некоторые из этих данных получены из рейтинг произведен Alexa , ведущим веб-трафик, статистика и аналитика компании.

Кроме того, Интернет-архив запускает собственные поисковые роботы и работает с сотни добровольцев, которые выполняют поиск и архивируют веб-сайты в сохранить изобилие информации в Интернете.

Хотя вы можете архивировать определенные страницы вручную, как показано выше, вы не можете влиять на набор веб-сайтов, которые Wayback Machine будет автоматически и регулярно архивировать.

У Wayback Machine есть и другие ограничения. Примеры включают:

  • Сайты, защищенные паролем, не архивируются.
  • Динамические веб-сайты, которые в значительной степени полагаются на JavaScript, не могут быть заархивированы должным образом.
  • Администраторы веб-сайтов могут явным образом требовать, чтобы их сайты не можно заархивировать, опубликовав ограничительный файл robots.txt, как см. выше, или отправив прямой запрос в Интернет-архив.
  • Администраторы веб-сайта могут запросить ранее заархивированный контент быть удаленным из Wayback Machine.
  • В настоящее время полнотекстовый поиск в Интернете недоступен. Архив.

Пример:

Чтобы проиллюстрировать, как иногда могут исчезать архивы, был использован Интернет-архив. недавно был в центре дебатов по поводу блога журналиста Джой-Энн. Рид. Адвокаты Рейда обратились к Интернет-архиву и попытались удалить заархивированные версии ее блога, утверждая, что некоторые из ее статьями манипулировала неизвестная сторона, вставившая мошенническое содержание в ее трудах — содержание, которое затем было заархивировано с блог.

Когда это не помогло, блог Рейда просто изменили свои robots.txt файл, чтобы ограничить доступ сканеров Wayback Machine. Когда поисковые роботы уловили изменение и автоматически удалили архив в целом. Этот случай показывает, как люди и организации может использовать как юридические, так и технические средства для удаления содержания из этих сторонние архивы.

В Европейском Союзе и некоторых других регионах Право на забвение предоставляет людям возможность запрашивать поисковые системы и цифровые архивы удаляют связанный с ними проиндексированный контент, который, по их мнению, вредные или клеветнические.Это право имеет ограничения, поэтому не все могут или будут удалены по запросу, но стоит помнить, что некоторые субъекты вашего расследования (политики, преступники и др. противоречивые цифры) могли использовать возможность снятия связанный с ними интернет-контент, имеющий отношение к вашему расследованию.

Примечание:

Имейте в виду, что доменные имена можно продавать, а заброшенные доменные имена можно перерегистрировать. Как В результате иногда одним доменом с течением времени управляют несколько владельцев.В таких случаях веб-сайт архивная история может быть непостоянной, а старые материалы могут не иметь отношения к вашему расследованию.

Другие способы получения и архивирования веб-страниц

Архив сегодня

Archive.today (ранее archive.is) веб-страницы очень похожи на Wayback Machine.

Archive.today отличается тем, что хранит только отдельные страницы, а чем целые веб-сайты, и делает это только по запросу пользователей, не автоматически.

Вот пример заархивированных страниц из https://cambridgeanalytica.org/:

* Cambridge Analytica доступно в Archive.today *

Поскольку он не сканирует сайты, у него нет почти полного информацию вы можете найти на Wayback Machine.

Однако он предоставляет три ключевые функции:

  • Во-первых, в отличие от Wayback Machine, он позволяет искать по всему текст его архивов.
  • Во-вторых, он игнорирует любые ограничения, которые могут быть указаны в роботы.txt веб-сайтов, которые он архивирует. В результате это может сохранять снимки некоторых страниц, которые Wayback Machine не может, такие как общедоступные профили в Facebook и сообщения в Twitter.
  • В-третьих, он также сохраняет как текстовую копию, так и графический снимок экрана заархивированных страниц. Иногда это дает большая точность, чем сохранение самой страницы, особенно когда архивирование быстро меняющегося содержимого (например, прокручивающихся изображений или снимки сообщений форума и т. д.).

Вы можете найти архив веб-страницы, введя ее точный веб-адрес (например, как «https: // cambridgeanalytica.org ») или используйте подстановочный знак (*) чтобы найти заархивированные поддомены или подкаталоги веб-сайта (например, «* .Cambridgeanalytica.org»). Вот поиск * .cambridgeanalytica.org в архиве. сегодня:

Найдите Cambridge Analytica в архиве. Сегодня

Как и Wayback Machine, archive.today предоставляет вам прямые ссылки к заархивированному контенту с использованием веб-адресов со встроенными отметками даты, как следующее: http://archive.today/2018.01.01-042001/ https://ocean.cambridgeanalytica.org/

Наконечник:

Archive.today также предлагает сервис Tor onion на сайте archivecaslytosk.onion. Доступ к сервисам Onion можно получить только через браузер Tor, но они упрощают сохранение ваших взаимодействие с сервисом анонимно. Это особенно полезно и жизненно важно, если вы исследуете деликатная тема, или вы подозреваете, что ваши действия в Интернете могут отслеживаться.

Кэш Google

Google Cache — еще один способ найти страницу, которая была недавно занята вниз или недоступен по иным причинам.

Когда Google обращается к веб-странице, он создает кэшированную версию или копию этой страницы в качестве резервное копирование. Он часто делает эти копии доступными в результатах поиска.

Чтобы получить доступ к кэшированной версии страницы Google, используйте поисковая система для поиска страницы, которую вы хотите найти, нажмите на маленькая стрелка справа от веб-адреса результата поиска и выберите «Кэшировано». Это загрузит кешированную версию веб-сайта, который был поддержан поднял Google, когда его сканеры ранее проиндексировали сайт.

Скриншот Google Cache

В приведенном выше случае мы попытались найти кеш ныне несуществующей веб-сайт http://cambridgeanalytica.org/, но по состоянию на 28 февраля 2019 г. больше не доступен в поиске Google (мы могли найти только веб-форму вместо). Однако его кешированная версия все еще была доступна 26 января. Февраль 2019 г., и, как показано ниже, мы смогли захватить с помощью архив.сегодня

Cambridge Analytica в архиве.сегодня

В отличие от упомянутых выше служб архивирования, кеш Google не предоставить исторические записи о страницах, которые он хранит.

Вместо этого он отображает содержимое этих страниц в последний раз, когда поисковые роботы получили к ним доступ, поэтому они могут выявить контент, который отсутствует в текущую версию веб-страницы или предоставить вам доступ к странице, на которой с тех пор был снят.

Обнаружение кэшированной веб-страницы указывает на то, что она когда-то существовала, но кеши часто перезаписываются обновленным содержимым или полностью исчезают (как в нашем случае выше).Кроме того, администраторы веб-сайтов могут запросить у Google удаление страниц из кеша.

По той или иной причине Google не может долго хранить кешированную страницу. достаточно, чтобы вы могли использовать его в качестве доказательства в своем расследовании, так что это часто бывает полезно создать резервную копию самой кэшированной страницы с помощью дополнительных сервис, такой как archive.today, и сделать свою автономную копию как резервное копирование. Снимки экрана и PDF-файлы полезны для документирования того, как вы нашли конкретная версия страницы и может помочь вам позже, если вам нужно продемонстрировать, что информация точна.

Наконечник:

Когда вы архивируете веб-страницу с помощью службы, такой как Wayback Machine или archive.today, особенно если у нее длинный и сложный веб-адрес, например, архивная копия записи в Google Cache, обязательно запишите эту ссылку где-нибудь в файле на компьютер, в защищенной облачной папке или в другом месте. Полагаться на историю вашего браузера, чтобы найти такие вещи, — это верный путь к катастрофе.

WebCite

Webcite — это бесплатный сервис, предлагает способ сохранить ссылки, которые были процитированы в статьях или журналы, включая веб-страницы или другой цифровой контент в Интернете.

Веб-сайт

Этой службой обычно пользуются авторы, редакторы, исследователи и издатели, которые хотят сохранить онлайн-ссылки в своей работе.

WebCite позволяет быстро вручную сохранять отдельные веб-страницы. адреса. Также есть служба, которая автоматически «прочесывает» загруженные текстовые документы, чтобы сохранить все цитаты из онлайн-источники.

WebCite поддерживает несколько различных способов поиска цитируемого материала. В Помимо удобочитаемых и сокращенных веб-адресов, WebCite также предоставляет цитаты с более продвинутыми справочными форматами, такими как DOI (Digital Идентификатор объекта) и криптографические хэши.

Вы можете отправлять контент в WebCite, используя букмарклет или веб-форму по адресу https://www.webcitation.org/archive.

Примечание: Визуальные мониторы

Еще одна возможность получать содержимое веб-сайта и оставаться в курсе, если таковые имеются изменения происходят в использовании визуальных мониторов сайта. Это услуги, которые может отслеживать и отслеживать визуальные изменения на веб-страницах, происходят ли они в код, изображения, текст и т. д. Они могут быть очень полезны для исследователей и помочь автоматизировать часть работы, если вам нужно отслеживать множество веб-сайтов, полезны в вашем расследовании.

Visual site отслеживает архивные веб-страницы иначе, чем инструменты и услуги, которые мы исследовали выше. Вы оказываете услугу особую раздел веб-страницы для просмотра, и он делает снимок, а затем отслеживает страницу для видимых изменений.

Если будут какие-то изменения, большие или маленькие, монитор сайта пришлет вам электронное письмо, чтобы вы знали.

В электронном письме будет ссылка на веб-сайт, на котором вы можете увидеть больше подробности. Некоторые мониторы сайтов прикрепляют скриншоты до и после менять.

Как следователь, вы можете использовать монитор участка в сочетании с служба архивации, чтобы быть в курсе важных обновлений веб-сайта.

Чтобы уведомлять вас об изменениях, эти инструменты требуют, чтобы вы настроили учетной записи и предоставить им доступ к адресу электронной почты или телефону номер. Вы можете избежать раскрытия своей истинной личности и контактных данных, создание отдельного адреса электронной почты, особенно если вы работаете с конфиденциальными расследования.

Визуализация

Visualping предлагает бесплатный план, который позволяет отслеживать до 62 веб-страниц в месяц.Это означает, что он может проверить все, что находится между двумя веб-страниц в день (он дает вам обновления для двух разных веб-страниц ежедневно, если происходят изменения) или несколько страниц в неделю, до 62 веб-страниц a в месяц (где он проверяет 62 страницы на предмет изменений один раз в месяц) — или другое комбинации, которые работают на вас. Бесплатная версия может запускать проверки ежечасно, ежедневно, еженедельно или ежемесячно для сравнения веб-страницы с ее предыдущими версиями и сообщать вам по электронной почте об изменениях текста, изображений, ключевых слов или любые выбранные области страницы занимают место.Сервис также работает через Tor Браузер, и мы рекомендуем использовать эту опцию для дополнительного уровня конфиденциальность и безопасность.

Скриншот Visualping

ChangeTower

ChangeTower предлагает бесплатный план, который отслеживает до трех веб-сайтов и проводит до шести проверок в день (в этом случае может сканировать веб-сайт для смены два раза в день). Он может отслеживать определенный URL-адрес (веб-страницу), весь веб-сайт или различные варианты (вы можете выбрать, какие страницы веб-сайт, который вы хотите отслеживать).Он может искать изменения в содержании (текст), визуальный контент, HTML, ключевые слова и т. д. В бесплатном плане хранятся ваши мониторинг результатов до месяца. Сервис также работает через Tor Браузер, и мы рекомендуем использовать эту опцию для дополнительного уровня конфиденциальность и безопасность.

Скриншот ChangeTower


Опубликован в апреле 2019 г.

Глоссарий

журнал доступа к терминам

Протокол доступа — a файл, в котором записываются все просмотры веб-сайта и документов, изображений и другие цифровые объекты на этом веб-сайте.Он включает такую ​​информацию как кто посещал сайт, откуда, как долго и какой контент они доступ

терм-алгоритм

Алгоритм — установленная последовательность шагов для решения конкретной проблема.

полоса пропускания

Пропускная способность — в вычислениях максимальная скорость передачи информации на единица времени по заданному пути.

термин-букмарклет

Букмарклет — сложный веб-адрес, который вы можете добавить в свой список «закладки» или «избранное» браузера.Когда вы щелкаете букмарклет, он обычно отправляет информацию о странице, которую вы в настоящее время посещаете сторонний сервис.

термин-сломанная ссылка

Неработающая ссылка — URL-адрес, к которому больше не прикреплены нужные данные.

просмотр терминов повторное расширение

Расширение браузера — также называемые надстройками, это небольшие части программное обеспечение, используемое для расширения функциональных возможностей веб-браузера. Эти могут быть чем угодно из расширений, которые позволяют делать скриншоты посещаемые вами веб-страницы на тех, кто проверяет и исправляет вашу орфографию или блокирование нежелательных добавлений с веб-сайтов.

термокэш

Cache — временное высокоскоростное хранилище данных, которые были использованы или обрабатывается и может быть быстро восстановлен, а не при посещении исходный источник или повторные вычисления, связанные с запрошенными данными.

краулеры

Crawlers — программное обеспечение, которое автоматически просматривает интернет-страницы на выполнять типично исследовательские функции.

термин-криптографический хэш

Криптографический хеш — способ идентификации данных путем отправки файла или другая часть информации через алгоритм, который суммирует ее с буквенно-цифровая строка фиксированной длины (комбинация букв и числа до 100 знаков).Эту струну очень сложно сломать математически, что означает, что вы можете передать его кому-нибудь в помощь определить, является ли файл большего размера правильным или нетронутым.

справочник терминов

Каталог — контейнер, который используется для категоризации файлов или других контейнеры файлов и данных.

срок-дои

Цифровой идентификатор объекта (DOI) — уникальный идентификатор, который относится к опубликованной работе, аналогично ISBN, но для работ, опубликованных в цифровом виде.Распределение и администрирование DOI координируется DOI Foundation https://www.doi.org/.

термин-доменное имя

Доменное имя — также называемое веб-доменом, обычно используется для доступа к веб-сайту, который переводится в IP-адрес.

терм-ip

IP-адрес — набор числа, используемые для идентификации компьютера или местоположения данных, к которому вы подключаетесь на (например, 213.108.108.217)

термин-вредоносное ПО

Вредоносное ПО — вредоносное ПО, которое обычно скрыто от пользователей.

термин-роботstxt

Robots.txt — файл на веб-сайте, который инструктирует автоматизированные программы (боты / роботы / сканеры) о том, как вести себя с данными на веб-сайте.

термин-сервер

Веб-сервер — также известный как «Интернет-сервер», система, которая размещает веб-сайты и доставляет их контент и услуги в конечные пользователи через Интернет.

термин-скриншот

Скриншот — изображение экрана устройства, снятое в цифровом формате.

термин-сценарий

Скрипт — список команд, выполняемых программой.

термин-поддомен

Поддомен — обычно дополнительный идентификатор добавляется перед доменным именем, чтобы указать подкатегорию данных или страниц. например, google.com — это доменное имя, translate.google.com — это субдомен.

термин-сторонний

Третья сторона — физическое или юридическое лицо, не являющееся непосредственно часть контракта, но, тем не менее, может иметь связанную с ним функцию.

термостат

Браузер Tor — а браузер, который сохраняет конфиденциальность ваших действий в Интернете, маскируя ваши идентичность и защита вашего веб-трафика от многих форм Интернета наблюдение

база терминов

База пользователей — список пользователей, связанных с определенной платформой или системой.

термин-впн

VPN — программное обеспечение, которое создает зашифрованный «туннель» из ваше устройство на сервер, управляемый вашим поставщиком услуг VPN, маскируя ваши фактический IP-адрес при посещении веб-сайтов

термин-сайт

Сайт — набор страниц или данные, предоставляемые удаленно, обычно для людей с Интернетом или сетью доступ.

term-webpage

Веб-страница — документ (страница), который доступны через Интернет, отображаются в веб-браузере.

Как просматривать старые версии веб-сайтов (и почему вам это нужно)

Интернет движется с головокружительной скоростью. Веб-сайты постоянно обновляются и обновляются. В некоторых случаях информация теряется в этом процессе, будь то из-за того, что сайт был отключен или просто из-за неправильного хранения.

Исторические онлайн-записи позволяют просматривать старые версии веб-сайтов, записанные в определенные моменты времени.Возможность делать это полезна не только для путешествий по переулкам памяти, так что давайте поговорим об интернет-архивах!

Подпишитесь на наш канал Youtube

Почему вы хотите видеть старые версии веб-сайтов

Существует множество причин, по которым вы можете захотеть увидеть старые версии ваших любимых (или наиболее часто используемых) веб-сайтов. На многих сайтах со временем меняется многое, в том числе:

  • Их общий дизайн
  • Данные, к которым у вас есть доступ
  • Отдельные страницы, которые удаляются или обновляются

Рассмотрим, например, наш собственный веб-сайт.Он существует с 2008 года, и, как вы можете себе представить, с его первых дней многое изменилось:

Возможность заглянуть в прошлое невероятно полезна. Вы можете найти вдохновение для дизайна на старых веб-сайтах и ​​получить доступ к мультимедийным файлам, которые больше не доступны.

Что еще более важно, интернет-архивы позволяют вам видеть информацию, которая была утеряна временем. Например, если один из ваших любимых веб-сайтов отключается от сети, вы сможете найти его сохраненную копию в Интернете:

Наличие доступа к старым версиям веб-сайтов также позволяет в некоторых случаях обойти цензуру.Если ваш интернет-провайдер (ISP) или правительство подвергает цензуре часть Интернета, вы можете преодолеть эти барьеры и просмотреть заархивированные сайты.

Помимо более практических соображений, очень важно вести учет Интернета, каким он был и есть сегодня. Интернет-архивы выполняют ту же функцию, что и библиотеки, позволяя нам заглянуть в прошлое и увидеть, как все изменилось с течением времени.

3 инструмента, которые можно использовать для просмотра старых версий веб-сайтов

Существует удивительное количество служб, которые хранят или кэшируют старые копии веб-сайтов.В большинстве случаев они делают «снимки» определенных сайтов и страниц по запросу. Это означает, что вы можете получить архив, который со временем сохраняет тысячи копий вашего веб-сайта, в зависимости от его популярности. Давайте посмотрим на некоторые из этих услуг и на то, что они могут предложить.

1. Машина обратного пути Интернет-архива

The Internet Archive — это некоммерческая организация, которая занимается созданием цифровой библиотеки веб-сайтов, книг, аудиозаписей, видео, изображений и даже программного обеспечения.Если вы хотите убить немного времени, в Интернет-архиве есть даже эмулированные версии старых игр, в которые можно играть прямо из браузера:

Что касается веб-сайтов, то в Интернет-архиве хранится более 448 миллиардов страниц, и вы можете перемещаться по ним с помощью инструмента Wayback Machine:

Для начала введите URL-адрес веб-сайта, который хотите проверить. Wayback Machine покажет вам график, который отслеживает, как часто копии этого веб-сайта сохранялись за эти годы.Если вы выберете конкретный год на этой диаграмме, вы сможете получить доступ к отдельным копиям сайта с помощью календаря:

Чтобы дать вам представление о том, насколько тщательным является этот архив, Wayback Machine сохранила более 19 700 копий веб-сайта Elegant Themes.

После того, как вы выберете снимок, который хотите увидеть, Wayback Machine загрузит эту кэшированную копию на новой вкладке:

Имейте в виду, что время загрузки, вероятно, будет не таким быстрым, как вы привыкли.Однако как только страница загрузится, вы сможете взаимодействовать с ней как обычно. Вы можете переходить со страницы на страницу, сохранять изображения, читать комментарии и т. Д.

Однако в некоторых случаях вы не сможете перемещаться по старым кэшированным копиям веб-сайта. Это связано с тем, что некоторые страницы, на которые есть ссылки, могут не кэшироваться, что характерно для сайтов с огромными библиотеками контента.

2. oldweb.today

oldweb.today — это служба, которая позволяет загружать копии старых веб-сайтов, имитируя старые браузеры, чтобы обеспечить вам полноценную работу.Если вы никогда не испытывали удовольствия от использования Netscape или старых версий Internet Explorer, oldweb.today может помочь вам избавиться от этого зуда.

Эта служба извлекает копии страниц, которые вы хотите просмотреть, из сторонних архивов. К ним относятся Интернет-архив и национальные библиотеки со всего мира, что обеспечивает довольно комплексное обслуживание.

Однако, как и следовало ожидать, эмуляция старых браузеров и получение данных из нескольких источников требует времени. oldweb.today часто требует от вас подождать в виртуальной очереди, прежде чем вы сможете увидеть то, что хотите:

По окончании ожидания служба запустит эмулируемую версию браузера, который вы выбрали, и отобразит веб-сайт, который вы хотели увидеть:

Каким бы увлекательным ни было просмотр старых веб-сайтов, время ожидания означает, что oldweb.today — не лучший вариант, если вы хотите проверить несколько версий одного и того же сайта. Ожидание часто может длиться несколько минут, так что время складывается довольно быстро.

3. Библиотека Конгресса

В Американской библиотеке Конгресса находится самая большая коллекция книг, записей, газет, и веб-сайтов в мире. Однако его коллекция веб-сайтов работает иначе, чем два предыдущих предложения.

Если вы попытаетесь найти определенный веб-сайт с помощью функции поиска в библиотеке, вы, вероятно, найдете набор случайных результатов.Вот что появляется, когда мы ищем «reddit», например:

Когда вы открываете отдельные ссылки, библиотека позволяет вам просматривать страницы, которые хранятся в ней, используя систему, идентичную Wayback Machine:

Библиотека также сохраняет описания и другую полезную информацию для каждого веб-сайта в своем архиве, что делает ее особенно полезной для исследования:

Аналогичным образом, вы можете просматривать сам архив, не выполняя поиск, поскольку библиотека предлагает подробную систему категорий, которая включает в себя все его записи:

Хотя архив веб-сайта библиотеки не такой обширный, как у Wayback Machine, он предлагает гораздо больше деталей.Библиотека также позволяет просматривать страницы, не думая о конкретном веб-сайте, чего не могут сделать другие архивы.

С другой стороны, эта библиотека также содержит огромную коллекцию изображений, которые вы можете использовать бесплатно, иногда без указания авторства:

Некоторые из этих наборов являются изображениями из Интернета. Это делает этот сайт ценным ресурсом для стоковой графики, если вам когда-нибудь надоест более традиционные варианты.

Заключение

Есть много практических причин, по которым вы захотите взглянуть на старые версии определенных веб-сайтов.Возможно, вы ищете контент, которого больше нет, и изображения, которые хотите использовать повторно, а может быть, вы просто пытаетесь обойти цензуру.

В любом случае, интернет-архивы служат для всех нас огромной общественной услугой. Вот три ваших лучших варианта, если вы хотите заглянуть в прошлое Интернета:

  1. Машина обратного пути Интернет-архива: Навигация по самому большому архиву кэшированных страниц в Интернете.
  2. oldweb.today: Используйте эмулированные версии старых браузеров для навигации по веб-сайтам из прошлого.
  3. Библиотека Конгресса: Просмотрите библиотеку, используя подробную систему категорий, или просмотрите определенные веб-сайты.

Какой ваш любимый старый веб-сайт больше не существует? Поделитесь своими воспоминаниями в разделе комментариев ниже!

Миниатюра статьи изображение Leremy / shutterstock.com

7 ЛУЧШАЯ альтернатива Wayback Machine (веб-сайт интернет-архива)

Wayback Machine архивирует информацию, доступную в WWW (World Wide Web).Он широко используется исследователями и историками для сохранения цифровых артефактов. Однако у Wayback Machine есть некоторые ограничения, например, он очень медленный и не отвечает на многие сканируемые веб-сайты.

Вот список лучших приложений, способных заменить Wayback Machine. Список содержит как программное обеспечение с открытым исходным кодом (бесплатное), так и коммерческое (платное).

Самые популярные сайты, такие как Wayback Machine (сайты веб-архивов)

1) Archive.fo

Archive.fo — это онлайн-инструмент, который поможет вам создать копию веб-страницы.Эта копия останется в сети, даже если исходная страница будет удалена.

Характеристики:

  • Это приложение сохраняет текст и графическую копию страницы для большей точности.
  • Это одна из лучших альтернатив Wayback Machine, которая дает короткую ссылку на неизменяемую запись любой веб-страницы.
  • Этот инструмент позволяет отслеживать изменения на веб-сайте, содержащем предложения о работе, прайс-лист, сообщения в блоге, список объектов недвижимости и т. Д.
  • Сохраненные страницы не содержат вредоносных программ и всплывающих окон.

Ссылка: https://archive.fo


2) Perma.cc

Perma.cc — это приложение для веб-архивирования, разработанное и поддерживаемое библиотекой Гарвардской школы права. Это помогает вам создавать постоянные записи о веб-сайтах.

Функции:

  • Вы можете удалить ссылки в течение 24 часов после создания.
  • Это помогает вам просматривать архивные записи через ссылку Perma.cc
  • URL-адреса могут быть вставлены через блог или бумажные статьи.
  • Эта альтернатива Wayback Machine позволяет вам создать Parma, который посещает веб-сайт, и записывать содержимое этого веб-сайта.
  • Если сохранить не удалось, это приложение предложит вам варианты загрузки PDF-файла или изображения.
  • Физические лица могут получить доступ к постоянным ссылкам через многоуровневую подписку.
  • Вы можете назначить пользователей в любую организацию, просто отправив адрес электронной почты пользователя в эту облачную программу.

Ссылка: https: // perma.cc


3) Pagefreezer

PageFreezer — это сервис SaaS, который обеспечивает архивирование блогов, веб-сайтов и социальных сетей. Он помогает фирмам и предприятиям, предоставляющим финансовые услуги, записывать онлайн-разговоры, обеспечивает отслеживание рисков.

Особенности:

  • Это онлайн-приложение проверяет подлинность и целостность ваших записей.
  • Эта альтернатива Wayback Machine может собирать динамический веб-контент в реальном времени.
  • PageFreezer может захватывать внутренние социальные сети.
  • Он может записывать разговоры в корпоративном чате и отслеживать активность на предмет потенциальных рисков.
  • Вы можете архивировать SMS или текстовые сообщения.
  • Помогает собирать онлайн-контент и управлять им.
  • Вы можете получить доступ к прошлой сети по запросу.

Ссылка: https://www.pagefreezer.com


4) Actiance

Приложение Actiance помогает организациям фиксировать и архивировать электронные сообщения. Это один из таких сайтов, как Wayback Machine, который поддерживает более 80 каналов.

Функции:

  • Сохраняйте все необходимые сообщения.
  • Вы можете идентифицировать риски и управлять ими, а также извлекать выгоду из своих данных для бизнеса.
  • Он позволяет создавать, упаковывать и доставлять контент по запросу.
  • Это облачное приложение предоставляет аналитическую панель для лучшей визуализации данных.
  • Это один из лучших веб-сайтов с архивами, который включает расширенный поиск, а также поиск по всем каналам.
  • Предлагает полную и настраиваемую отчетность.

Ссылка: https://www.smarsh.com


5) Stillio

Stillio — это инструмент, который автоматически делает снимки веб-сайтов, архивы и публикации для других пользователей. Вы можете управлять историей своего сайта и сэкономить много времени.

Функции:

  • Вы можете установить частоту скриншотов в соответствии с вашей индивидуальной продолжительностью
  • Вы можете добавить несколько URL-адресов одновременно.
  • Вы можете сохранить снимок экрана в Dropbox.
  • Поддерживает совместное использование URL.
  • Это один из лучших сайтов веб-архивов, который позволяет фильтровать URL-адреса по домену.
  • Вы можете использовать собственные заголовки, чтобы все было организовано.
  • Машина времени веб-сайта Stillio помогает сделать снимок экрана с географического местоположения веб-сайта, указав его IP-адрес.
  • Вы можете скрыть нежелательные элементы, такие как оверлеи, баннеры или всплывающие окна файлов cookie.

Ссылка: https://www.stillio.com


6) Веб-архив Великобритании

Веб-архив Великобритании ежегодно собирает сведения о многочисленных сайтах и ​​сохраняет их на будущее.Это один из лучших сайтов веб-архивов, который фокусируется на теме, событии или областях интересов, а также на социальных сетях для архивирования.

Характеристики:

  • Вы можете использовать этот веб-сайт для поиска в веб-архивах Великобритании.
  • Это позволяет открывать веб-сайт по различным темам и темам.
  • Это приложение собирает изображения, видео, HTML-страницы, PDF-файлы и т. Д.
  • Это один из лучших интернет-архивов, который выполняет автоматический сбор данных с британских веб-сайтов за один год.

Ссылка: https://www.webarchive.org.uk/ukwa/


7) Memento Time Travel

Memento time travel помогает вам искать и просматривать версии веб-страниц, которые существовали в прошлом. Это один из лучших архивов веб-сайтов, который поддерживает поиск сувениров в веб-архивах.

Функции:

  • Проверяет весь спектр серверов для поиска веб-страниц.
  • Этот веб-сайт отображает компоненты веб-страницы в зависимости от запрошенного вами времени.
  • Самоархивирует содержимое веб-сервера.
  • Он ориентирован на различные компоненты, такие как HTML, таблицы стилей, изображения и т. Д.
  • Распределение архивных данных DateTime можно увидеть с помощью временной шкалы.
  • Эта машина времени в Интернете предоставляет гистограмму, показывающую отмеченные и отсутствующие компоненты.

Ссылка: http://timetravel.mementoweb.org/

FAQ

❓ Что такое Wayback Machine?

Wayback Machine — это служба, которая архивирует информацию, доступную в WWW (World Wide Web).Это позволяет пользователям увидеть, как раньше выглядели веб-сайты. Многие исследователи и историки широко используют его для сохранения цифровых артефактов. Однако у Wayback Machine есть некоторые ограничения, например, он очень медленный и не отвечает на многие сканируемые веб-сайты.

🏅 Как пользоваться Wayback Machine?

Вы можете выполнить следующие шаги, чтобы использовать Wayback Machine для просмотра архива веб-сайта:

  • Шаг 1) Откройте эту ссылку в своем веб-браузере
  • Шаг 2) Введите URL-адрес сайта, который вы хотите сохранить в Поле «Введите URL-адрес или слова, относящиеся к домашней странице сайта»
  • Шаг 3) Нажмите кнопку «Enter»
  • Шаг 4) Выберите год на гистограмме
  • Шаг 5) Выберите дата
  • Шаг 6) Просмотрите различные архивные версии сайта

❗ Какие сайты, такие как Wayback Machine, являются лучшими?

Ниже приведены некоторые из лучших сайтов, таких как Wayback machine:

  • архив.сегодня
  • Perma.cc
  • Pagefreezer
  • Actiance
  • Stillio
  • Веб-архив Великобритании
  • Memento Time Travel

Пять лучших способов найти старый контент в Интернете

Вы хотите найти копии старых веб-сайтов или содержимого в Интернете? Это не невозможно. Знаете ли вы, что по данным Центра социальных сетей IACP ежеминутно создается 571 новый веб-сайт? Интернет расширяется с головокружительной скоростью, но средняя продолжительность жизни веб-страницы составляет всего 44 дня.Однако есть способы получить контент и информацию, к которым больше нельзя получить доступ через поисковые системы или путем ввода URL-адреса. Вот как найти старый контент в Интернете.

The Internet Wayback Machine

Internet Wayback Machine была запущена в 1998 году и с тех пор сохраняет снимки экрана веб-страниц. Контент, сохраненный Internet Wayback Machine, особенно ценен, потому что он часто включает изображения, контент Javascript и CSS. Все, что вам нужно сделать, это найти URL-адрес конкретной веб-страницы, и Internet Wayback Machine получит различные снимки экрана, сделанные для этого URL-адреса.

Коллекции Archive-It

В рамках проекта Archive-It Collections архивируется контент государственных организаций и государственных агентств. Содержимое архива организовано в коллекции, которые могут быть очень полезны, если вы исследуете конкретную тему. Вы также можете найти ключевые слова или ввести URL-адрес веб-страницы, которую вы хотите получить.

Веб-сайт

WebCite архивирует веб-страницы с 2005 года. Веб-страницы, добавленные в этот архив, обычно упоминаются в статьях.Это отличный вариант, если вам нужны источники или вы изучаете какую-либо тему. WebCite не позволяет вам искать ключевые слова, но вы можете искать определенный URL.

Кэш Google

Вы когда-нибудь замечали, что Google включает в результаты поиска ссылку на кешированную версию веб-страниц? Вы найдете синюю ссылку с надписью «Кэшировано» под описанием результата поиска. Если страница не загружается, потому что она больше не доступна, попробуйте щелкнуть эту ссылку, чтобы получить доступ к кэшированной текстовой версии страницы.

Bing, Yahoo, ZoomInfo или Ask Cache

Если Google не проиндексировал кешированную версию веб-страницы, она могла быть доступна другим поисковым системам. Вам следует попробовать найти страницу, к которой вы хотите получить доступ, в различных поисковых системах, чтобы узнать, существует ли кешированная версия страницы.

Эти пять методов помогут вам получить контент, который больше не доступен в Интернете. Это может быть отличным способом исследовать старые дела, найти юридическую информацию или провести справочное исследование о человеке или компании.Свяжитесь с отцом закона. Возможно, мы сможем помочь вам найти и защитить заархивированные материалы в Интернете.

советов по поиску в веб-архиве | Исследователям | Веб-архивирование | Программы | Библиотека Конгресса

Начало работы

Пользователи, которые не знакомы с веб-архивами, могут пожелать ознакомиться со страницами Глоссария и Часто задаваемых вопросов перед использованием веб-архивов Библиотеки.

Поиск и просмотр описательных записей

Описательные записи для веб-архивов доступны для поиска с помощью окна поиска Библиотеки по всему сайту. Быстрая ссылка на формат веб-архива также представлена ​​на вкладке в верхней части сайта этой программы. Используйте ссылку «Веб-архивы» выше, чтобы просмотреть веб-архивы, которые в настоящее время доступны для общего доступа. На https://www.loc.gov/web-archives/ пользователи могут также использовать параметры фасетного поиска, а также основную панель поиска loc.gov для поиска описательных записей для веб-архивов.

В каждом веб-архиве есть страница элемента, на которой отображается описательная запись и эскизы (обычно взятые из самого раннего захвата в архиве) для каждого URL-адреса, собранного для организации или человека, для которого мы нацелены на архивирование. В веб-архиве будет несколько эскизов, если URL-адрес изменился с течением времени. Для разных частей одной организации может быть несколько веб-архивов.

Описательные записи идентифицируют событие или тематическую коллекцию (-ы), с которой связан веб-архив, подразделение библиотеки, ответственное за разработку коллекции, и информацию, такую ​​как дополнительные URL-адреса, которые были собраны, связанные с исходным URL-адресом — обычно контент, размещенный на стороннем сервере. сайты или другие связанные домены, которые Библиотека определила для архивирования.

Описательные записи будут содержать ссылку на заархивированные ресурсы; найдите ссылку «Просмотр снимков» или щелкните миниатюру. Отобразится диапазон дат, показывающий доступные снимки. Если доступ ограничен только использованием на месте, инструкция Access Condition уведомит пользователя, и ссылка на архив не появится. Чтобы ограничить поиск контентом, доступным за пределами библиотеки, выберите «Доступно в Интернете» с помощью фасета «Условия доступа».

Поиск по URL

Библиотека использует OpenWayback для воспроизведения веб-архивов.Поиск по URL-адресу архива позволяет перемещаться по времени и внутри архива. Это также позволяет искать контент, который может не иметь описательных записей. Используйте его для перехода к определенному году, дате и времени, чтобы увидеть версию заархивированного ресурса.

Советы по поиску

  • В поле поиска введите или вставьте любой домен или URL-адрес и щелкните значок «НАЙТИ», чтобы найти результаты из веб-архива библиотеки.
  • По умолчанию результаты отображаются в календаре, показывающем самые последние доступные даты захвата.Голубые пузыри обозначают доступные захваты; чем больше пузырь, тем больше снимков в библиотеке за определенный день.
  • Временная шкала под полем поиска предоставляет обзор того, сколько и когда сайт был заархивирован. Щелкните в любом месте временной шкалы, чтобы перейти к более раннему году.
  • OpenWayback библиотеки показывает все даты, когда ресурс был заархивирован библиотекой. Некоторый контент появляется в архиве за пределами временного периода коллекций, для которых они были выбраны.Причины включают:
    • Сканер собирает фрагменты и фрагменты других веб-сайтов, поскольку он архивирует целевой URL-адрес, в связи с характером того, как веб-сайты связаны между собой, и когда он находит встроенный контент.
    • В процессе проверки качества, если были обнаружены проблемы с процессом архивирования, сканирование контента может выполняться дольше, чем ожидалось, чтобы получить лучший захват контента.
    • Библиотека приняла копии контента .gov, собранные Интернет-архивом с 1996-2001 гг., В результате чего был получен некоторый правительственный контент, который предшествовал дате начала собственной программы Библиотеки в 2000 году.
  • Ошибка «Не в архиве» или другая ошибка, ограничивающая доступ, может появиться при навигации по архиву, указывая на ресурсы, которые не были заархивированы Библиотекой или доступ к которым был ограничен на месте. Подробнее см. Для исследователей.
  • Дата захвата может меняться по мере навигации по архиву, поскольку архивы взаимосвязаны и связаны. Если ресурс не был заархивирован на определенную дату, OpenWayback укажет вам ближайший ресурс с отсутствующим содержимым.

Расширенный поиск URL

Опытным пользователям может быть интересно узнать, как лучше понять заархивированный URL-адрес и как более грамотно редактировать URL-адрес. Во время навигации по архиву вы можете заметить, что строка URL-адреса браузера изменяется. Этот URL-адрес можно редактировать, чтобы сузить результаты или расширить их, или найти конкретный URL-адрес в архиве.

Типичный URL-адрес в архиве будет выглядеть так: http://webarchive.loc.gov/all/19970101000000-20161231235959*/http://loc.губ.

В этот URL-адрес встроено много информации об архивном ресурсе. Вот что означают различные компоненты и как их можно редактировать:

  • webarchive.loc.gov = веб-архив библиотеки.
  • / all / = это означает, что вы находитесь в публичной версии архива Библиотеки. Пользователи также могут видеть / legacy / во время навигации по некоторым из наших более ранних коллекций, например, в веб-архиве от 11 сентября.
  • 19970101000000-20161231235959 * = эта строка чисел представляет дату и время захвата, год, месяц, день и время суток, переведенные как ггггммддччммсс.Отредактируйте любой из этих компонентов, чтобы сузить временные рамки, или увеличьте, чтобы увидеть больше. Например:
  • /loc.gov = URL-адрес, который вы ищете в архиве. Измените это, если вы хотите перемещаться по архиву простым способом — просто отредактируйте URL-адрес в конце, чтобы перейти к другому URL-адресу.

Обратите внимание: если какой-либо из этих компонентов исчезнет во время навигации по архиву, возможно, вы покинули архив и перешли в «живую» сеть. Когда вы используете веб-архив, если сайт не заархивирован на 100% или если сайт построен определенным образом, в некоторых случаях вы можете перейти на действующий сайт.

Вопросы об использовании веб-архива?

Свяжитесь с командой веб-архивирования или спросите библиотекаря.

Как найти старые или просроченные веб-сайты

Q. Иногда я захожу на старый веб-сайт и обнаруживаю, что он заменен страницей с рекламой. Куда делись все оригинальные сайты?

A. Многие действующие веб-сайты с годами потемнели, поскольку их владельцы отключили серверы, на которых размещались страницы, для публичного просмотра и отказались от зарегистрированных доменных имен, которые когда-то направляли посетителей на сайт.Известно, что другие предприниматели используют доменные имена с истекшим сроком действия для других целей, например, размещая страницы с рекламными ссылками (или другим контентом), чтобы приветствовать людей, ищущих исходный веб-сайт.

Если вы испытываете ностальгию по тому, как раньше выглядели некоторые старые сайты, вы можете увидеть копии страниц такими, какими они когда-то были, посетив Wayback Machine, расширяющуюся коллекцию из 455 миллиардов веб-страниц, которая продолжает расти. (И да, этот сайт был назван в честь машины времени, которую использовал мистер Ф.Персонаж Пибоди из мультсериала, впервые вышедшего в эфир в конце 1950-х годов.)

Хотя запасы Wayback Machine датируются серединой 1990-х годов, не все веб-сайты включены в коллекцию. Но вы, вероятно, сможете найти образцы большинства коммерческих сайтов за последние 15 лет или около того. Просто введите адрес сайта, который вы ищете, чтобы увидеть, что могло быть сохранено.

The Wayback Machine является частью Интернет-архива, бесплатной онлайн-библиотеки цифровых носителей и электронных артефактов.В дополнение к коллекции веб-страниц, Интернет-архив также содержит исследовательскую библиотеку программ телевизионных новостей, записей живой музыки и других аудио- и текстовых файлов, а также электронных книг, фильмов и тысяч старых компьютерных программ, включая видеоигры для игровых автоматов. , компьютеры и консоли.

Поиск подходящей скорости широкополосного доступа

Q. Моя текущая широкополосная услуга медленная, и загрузка фильма занимает вечность. Я хочу перейти на более быстрый уровень, но это становится дорого.Какая скорость мне нужна для потоковой передачи фильма Netflix без остановки, видеозвонка или загрузки взятого напрокат цифрового фильма за меньшее время, чем требуется для его просмотра?

A. При расчете необходимой скорости учитывайте все действия в сети, которые вы хотите выполнять (потоковая передача, загрузка, игры, видеоконференции и т. Д.), И проверьте минимальную скорость соединения, необходимую для каждого из них. Обычно вы можете найти рекомендации, перечисленные на веб-сайтах компаний и служб, которыми вы пользуетесь.Действия, связанные с видео, обычно требуют большей скорости и пропускной способности сети, чем такие вещи, как потоковая передача звука или базовый просмотр веб-страниц.

Например, Netflix рекомендует соединение со скоростью не менее трех мегабит в секунду для потоковой передачи видео в стандартном разрешении и соединение со скоростью пять мегабит в секунду для просмотра контента высокой четкости без заиканий или буферизации. (Если вы выбираете новую широкополосную компанию, исходя из ваших потребностей в потоковой передаче видео, Netflix ежемесячно публикует в своем блоге собственный рейтинг скорости интернет-провайдеров.) Как и в случае с потоковой передачей, скорость загрузки файлов может пострадать из-за общей перегрузки Интернета и сервера, но соединение со скоростью 25 мегабит в секунду может позволить вам загрузить файл фильма размером шесть гигабайт менее чем за 20 минут.

Служба видеозвонков Skype от Microsoft рекомендует подключение со скоростью 1,5 мегабит в секунду для видеозвонков высокой четкости, а на странице поддержки Google Hangouts предлагается скорость 2,6 мегабита в секунду в качестве «идеальной пропускной способности для наилучшего взаимодействия». Сайты поддержки большинства онлайн-видеоигр должны также указать минимальную скорость широкополосного соединения среди требований к процессору, памяти и другим аппаратным факторам.Если вы планируете публиковать собственные фотографии или видео в Интернете, план, который предлагает приличную скорость загрузки данных, заставит вас меньше ждать этого.

После того, как вы собрали свои выводы о скоростях подключения для предпочитаемых онлайн-сервисов, проверьте пакеты, доступные у местных интернет-провайдеров, предлагающих кабельное, спутниковое, оптоволоконное или широкополосное соединение DSL. Например, если вам в первую очередь нужны плавные потоки фильмов высокой четкости от Netflix, получите тарифный план, который предлагает как минимум рекомендуемое соединение со скоростью пять мегабит в секунду.Также следует учитывать количество людей, одновременно использующих широкополосное соединение, поэтому вы можете получить более быстрый план, если в семье есть онлайн-геймеры, а также любители кино.

По мере того, как провайдеры Интернет-услуг наращивали свои широкополосные сети на протяжении многих лет, они смогли расширить свои предложения, чтобы удовлетворить более широкий диапазон потребностей клиентов и бюджетов, поэтому вы можете увидеть четыре или пять предлагаемых планов обслуживания; максимальная скорость загрузки и выгрузки должна быть указана для каждого уровня обслуживания.В январе этого года Федеральная комиссия по связи обновила свой эталонный показатель для «широкополосного доступа» на 2010 год со скорости загрузки с четырех мегабит в секунду до 25 мегабит в секунду, поэтому названия и типы тарифных планов, предлагаемые интернет-провайдерами, могут снова измениться в будущем.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *