Сайт машина времени интернета: Internet Archive 25th Anniversary – Universal Access to All Knowledge

03.03.1978 alexxlab

Содержание

Роскомнадзор заблокировал «машину времени» интернета

24 Октября 2014 17:1024 Окт 2014 17:10 | Поделиться Роскомнадзор провел рейд против нескольких сотен сайтов, содержащих ролик экстремистской организации ИГИЛ. В результате под блокировку попал известный ресурс Wayback Machine, ряд иностранных видео-хостингов, некоторые торрент-трекеры и файлообменные площадки.

Роскомнадзор сообщил о «рейде», проведенном в интернете в отношении ролика «Звон мечетей», снятого террористической организацией «Исламское государство Ирака и Леванта» (ИГИЛ). Ролик был признан незаконным решением Минераловодского районного суда Ставропольского Края и внесен в Федеральный список экстремистских материалов.

Это первый случай, когда Роскомнадзор самостоятельно ищет ссылки на контент, включенный в Федеральный список экстремистских материалов.

Обычно ведомство блокирует только те ссылки, которые ему присылают уполномоченные органы (в случае экстремизма это Генпрокуратура и региональные суды). В ведомстве такой шаг пояснили «большой опасностью», исходящей от ИГИЛ.

В ходе «рейда» Роскомнадзор обнаружил около 400 сайтов, содержащих этот ролик. В соответствии с действующим порядком, Роскомнадзор выслал им уведомления о необходимости удаления противоправного контента. Требование российских властей исполнили 303 ресурса, включая YouTube и «Вконтакте».

Хотя Роскомнадзор подчеркнул, что запросы рассылались владельцам сайтов и обслуживающим их хостинг-провайдерам «по всем доступным контактам и формам обратной связи», на требование Роскомнадзора не ответили 70 ресурсов.

К настоящему времени трехдневный срок, установленный законом для реакции на требования Роскомнадзора, истек для владельцев 32 ресурсов из 70, и ведомство включило их в Реестр запрещенных сайтов для блокировки со стороны интернет-провайдеров.

В числе заблокированных сайтов оказался ресурс Wayback Machine (web.archive.org). С 1990-х годов он занимается автоматическим сохранением копий различных сайтов со всего мира. Посетители ресурса могут узнать, как выглядел интересующий их сайт на определенную дату. Сервис поддерживается некоммерческой американской организацией Internet Archive при поддержке корпорации Alexa Internet.

Главная страница сайта Wayback Machine в день его блокировки Роскомнадзором

Кроме того, в числе заблокированных ресурсов оказались: торрент-трекер Bittorrent.su, украинский файлообменный сервис Ex.ua, сайт по исследованию проблем исламского экстремизма Jihadology.net и ряд зарубежных видеохостингов (Videopress.com, Uploadhero.co и др). Остальные 38 сайтов, получивших уведомления Роскомнадзора и не ответивших на них, подвергнутся блокировке в предстоящие выходные.

Игорь Королев

Что такое Веб-архив (Web Archive) и как его использовать

Веб-архив сайтов — это сервис, который собирает и хранит копии сайтов. Это своего рода машина времени интернета, которая позволяет отследить развитие веб-ресурса с начала его создания, просмотреть уже несуществующий сайт, а также восстановить его даже при отсутствии резервной копии.

В этой статье вы найдете обзор базовых возможностей веб-архива сайтов и детальные инструкции по использованию сервиса.

Что такое Web Archive и зачем он нужен

Архив интернета — это некоммерческая библиотека книг, программного обеспечения, сайтов, аудио- и видеозаписей. Наиболее популярным проектом — Wayback Machine, также известный как веб-архив сайтов.

Это бесплатный сервис, где собраны архивные копии веб-ресурсов за разные даты. Копии появляются при сохранении вручную, а также когда веб-краулеры посещают сайт.

Веб-краулер, он же паук или бот — это программа, которая посещает сайты, оценивает содержимое, а затем переносит их в базу поисковых систем или веб-архива, как в нашем случае.

С помощью интернет-архива можно узнать, как выглядел сайт раньше: месяц или несколько лет назад.

Копия сайта hostiq.ua в Wayback Machine за 24 февраля 2018

Именно это и было изначальной целью проекта. Однако за последнее время функций у машины времени сайтов стало больше.

Веб-архив сайтов используют, чтобы:

просмотреть, как сайт выглядел раньше;
восстановить сайт, даже если у вас нет резервной копии;
проанализировать изменения ресурса в определенный период;
найти уникальную информацию, которую удалили;
проверить репутацию доменного имени перед регистрацией — если ранее его использовали для размещения сомнительного контента, могут возникнуть трудности и сейчас.

Как пользоваться веб-архивом

Интерфейс веб-архива сайтов интуитивный в использовании.

Перейдите на страницу машины времени сайтов, укажите URL-адрес и нажмите «BROWSE HISTORY»:

Как найти веб-страницу в Wayback Machine

По умолчанию веб-архив подгружает секцию «Calendar», где можно посмотреть старые версии нужного сайта:

Секция «Calendar» в Wayback Machine

После обработки запроса вы сразу же увидите общую информацию о веб-странице: количество сгенерированных архивов и шкалу времени, начиная с первой копии по текущий момент:

Общая информация о веб-странице в Wayback Machine

Выберите год на шкале времени.

Ниже вы увидите календарь, где цветными маркерами обозначены даты, когда веб-краулеры интернет-архива сканировали страницу:

Календарь копий веб-ресурса в Wayback Machine

Маркеры отмечены одним из четырех цветов:

Синий значит, что веб-краулер получил в ответ код со статусом 200 OK, то есть сайт стабильно работал.
Зеленый соответствует коду 3хх — в тот момент создания копии на сайте был настроен редирект.
Оранжевый и красный цвета значат, что веб-ресурс был недоступен, и веб-краулер получил код ошибки 4хх и 5хх.

Диаметр круга зависит от количества обращений робота веб-архива к странице в этот день. Чем больше круг, тем больше копий за этот день создал веб-краулер.

Попробуйте хостинг с кучей плюшек: автоустановщиком 330 движков, конструктором сайтов и теплой поддержкой 24/7!

Выбрав дату, наведите курсор на нее и нажмите на время сохранения:

Время сохранения копии веб-ресурса в Wayback Machine

Вы увидите желаемую версию веб-страницы.

Бывают ситуации, когда в интернет-архиве нет старых версий ресурса: правообладатель потребовал удалить принадлежащий ему контент или сайт закрыт из-за нарушения закона о защите интеллектуальной собственности. Дополнительно, на сайте могут быть настройки, которые ограничивают работу веб-краулеров. Таким образом, боты его не сканируют.

Иногда нужный ресурс доступен, но в копии нет картинок или части контента. Это происходит, если сайт был не полностью заархивирован Wayback Machine. В таком случае попробуйте открыть версию сайта за другой день.

Дополнительную информацию о сайте можно найти в секциях «Summary» и «Site Map»:

Секции «Summary» и «Site Map» в Wayback Machine

В секции «Summary» собрана статистика по типу файлов, например HTML, CSS, PNG, на вашем сайте.

Функционал секции «Site Map» группирует все архивы нужного ресурса по годам, а затем строит визуальную карту сайта — радиальную диаграмму. Центральный круг — это «корень» сайта, его главная страница.

Следующие кольца — остальные страницы. При наведении курсора на кольца и ячейки обратите внимание, что URL-адреса вверху меняются. Вы можете выбрать страницу, чтобы перейти к архиву этого URL-адреса.

Чтобы выявить и отобразить изменения в содержимом архивов, используйте секцию «Changes»:

Секция «Changes» в Wayback Machine

Выберите две даты и нажмите кнопку «Compare»:

Как сравнить две версии веб-страницы в Wayback Machine

На новой странице появятся две версии сайта. Удаленный контент окрашен в желтый цвет. Синий указывает на добавление содержимого.

Как сохранить текущую версию сайта в веб-архиве

Копии сайтов попадают в веб-архив благодаря веб-краулерам, которые их сканируют. Однако это не единственный способ. Просканировать сайт можно самостоятельно.

Чтобы создать копию одного URL-адреса, найдите опцию «Save page now» на главной странице Wayback Machine, введите ссылку и нажмите «Save page»:

Как сохранить текущую версию веб-ресурса в Wayback Machine

Таким образом, в веб-архив сайтов добавится текущая версия заданного URL-адреса.

Повторяйте это действие перед важными изменениями на сайте и после них. В случае поломки или утери данных вы всегда сможете восстановить сайт через веб-архив.

Создавать копию всего сайта постранично трудоемко. Интернет-архив предоставляет платный сервис, который архивирует сайт в несколько кликов — Archive It.

Статья по теме:

Как запретить добавление сайта в веб-архив

Запретите добавление веб-ресурса в Wayback Machine, если вы:

дорожите уникальностью контента и не хотите, чтобы его использовали даже после удаления сайта;
планируете продать доменное имя и не хотите, чтобы ваш контент ассоциировался с новым владельцем;
хотите удалить личную информацию из открытого доступа.

Запретить добавление сайта в архив интернета можно двумя способами:

обратиться в поддержку веб-архива;
использовать файл robots.txt.

Если вы обратитесь в поддержку, вся существующая информация о сайте будет удалена из архива интернета. Дополнительно, веб-краулеры не будут сканировать сайт в будущем.

Чтобы запросить полное удаление вашего сайта из веб-архива, напишите на адрес [email protected], указав доменное имя в тексте сообщения.

Файл robots.txt позволяет лишь заблокировать доступ для веб-краулеров. После этого они не будут сканировать сайт, и информация о нем не попадет в архив интернета. Но весь предыдущий материал будет доступен в Wayback Machine. То есть пользователи смогут посмотреть, как сайт выглядел раньше.

Для запрета доступа добавьте в файл robots.txt директиву:

User-agent: ia_archiver Disallow: /

User-agent: ia_archiver-web.archive.org Disallow: /

Важно, чтобы файл robots.txt был в корневом каталоге для вашего домена.

Также веб-краулеры не посещают сайты, которые защищены паролем.

Как восстановить сайт из веб-архива

Если сайт был утерян или взломан, а резервной копии нет, попробуйте восстановить контент с Wayback Machine. Вот несколько вариантов, как это можно сделать:

скопировать контент вручную;
скопировать контент с помощью скрипта;
обратиться к сторонним службам.

Первый способ лучше использовать, если вам нужна копия всего одной или нескольких страниц. Второй и третий подойдет тем, кто хочет скопировать контент всего сайта.

Пробуйте надежный хостинг с автоматическими бэкапами и аптаймом 99,5%!
Наша теплая поддержка на связи 24/7

Скопируйте контент вручную

У веб-архива сайтов нет услуг по хранению резервных копий и восстановлению работы веб-ресурсов. Потому встроенного функционала, который позволит в несколько кликов получить архив всего сайта, нет. Однако вы можете вручную скопировать текст и код страниц, а также сохранить картинки.

Чтобы скопировать код страницы, перейдите на нее в Wayback Machine, кликните правой кнопкой мыши и выберите «View page source». Скопируйте код и вставьте его в текстовый редактор, где вы можете сохранить его как HTML-файл.

Скопируйте контент с помощью скрипта

Восстановление каждой отдельной HTML-страницы проекта слишком трудоемко, поэтому вы можете использовать специальные скрипты. Они позволяют извлечь все содержимое сайта за один раз.

Некоторые из наиболее популярных вариантов:

Обратитесь к сторонним службам

Существует множество сторонних служб, которые помогают с восстановлением сайта из веб-архива. Цены за услуги будут отличаться в зависимости от объема сайта.

Однако большинство служб дают протестировать их работу бесплатно.

Перечень служб, которые могут помочь с восстановлением сайта:

Что запомнить о веб-архиве

Интернет-архив сайтов — бесплатный проект, цель которого сохранить весь размещенный в интернете контент.
Наиболее популярный инструмент проекта — Wayback Machine. Это своеобразная машина времени, которая позволяет посмотреть, как сайт выглядел раньше.
Веб-архив полезен для анализа сайтов, отслеживания изменений и составления статистики, проверки доменов перед покупкой.
Веб-архив — это запасной вариант по восстановлению сайта при отсутствии резервной копии.

Надеемся, что эта информация и практические советы по использованию архива интернета были полезны для вас. Пишите в комментариях, работали ли вы с веб-архивом сайтов или его аналогами.

Нужен сайт?
Сделать сайт самому для бизнеса или хобби с нашими готовыми решениями легко как раз-два-три. Бесплатный тест 30 дней!

На каких серверах держится Архив Интернета? / Блог компании VDSina.ru / Хабр

Фото 1. Один из дата-центров Internet Archive в Сан-Франциско

Internet Archive — некоммерческая организация, которая с 1996 года сохраняет копии веб-страниц, графические материалы, видео- и аудиозаписи и программное обеспечение. Каждый может зайти в Wayback Machine и посмотреть, как выглядел Хабр в 2006 году или «Яндекс» в 1998 году, хотя загрузка архивных копий занимает около минуты (это не для реализма 90-х, а по техническим причинам, см. ниже).

Архив быстро растёт. Сейчас объём всех накопителей достиг 200 петабайт. Но Internet Archive принципиально не обращается к стороннему хостингу или облачному сервису вроде AWS. У некоммерческой организации собственные дата-центры, свои серверы и свои инженеры. Это гораздо дешевле, чем услуги AWS.

Технические подробности серверного устройства Internet Archive

раскрыл

Джона Эдвардс (Jonah Edwards), руководитель инженерной группы Core Infrastructure Team.

По его мнению, понятие «облако» многих людей вводит в заблуждение как нечто абстрактное. На самом деле это просто чужие компьютеры, то есть серверы посторонней компании. Для Internet Archive это неприемлемо. У организации собственные серверные в собственных зданиях, компьютеры принадлежат им, и персонал тоже свой.

Четыре дата-центра Internet Archive располагаются в Сан-Франциско, Ричмонде и Редвуд-Сити (это пригороды Сан-Франциско)

Кто-то может посчитать такой подход архаичным, но в некоторых случаях он действительно оправдан. В случае Internet Archive на то есть три причины: это дешевле, обеспечивает лучший контроль за серверами и даёт гарантию, что пользователей не отслеживают рекламные трекеры.

Деньги на обслуживание инфраструктуры и зарплаты сотрудникам собираются преимущественно за счёт пожертвований и грантов, годовой бюджет составляет около $10 млн.

Что представляет собой инфраструктура, которой управляет Core Infrastructure Team? На февраль 2021 года цифры такие:

750 серверов, возраст до 9 лет;

1300 виртуальных машин;

30 000 устройств хранения данных;

более 20 000 жёстких дисков в парах друг с другом (paired storage), обычно пара разнесена по дата-центрам или странам для надёжности;

общий объём накопителей почти 200 петабайт.

Разумеется, техника постепенно обновляется. На смену старым накопителям приходят новые. Например, маленькие диски на 2 и 3 терабайта полностью вышли из обращения в 2017 и 2018 годах, соответственно, а с прошлого года постоянно растёт доля дисков на 16 ТБ.

Как показано на графике ниже, несмотря на увеличение ёмкости накопителей, общее число HDD тоже постепенно растёт: за три года оно выросло с 15 тыс. до 20 тыс.

Количество жёстких дисков разного объёма на серверах Internet Archive

Диски реплицируются по дата-центрам, для производительности контент по запросу выдаётся одновременно со всех копий. Все элементы Архива представляют собой директории на дисках. Веб-страницы Wayback Machine хранятся в файлах WARC (Web ARChive, сжатые файлы Web Archive). При запросе отдельной страницы её нужно извлечь из середины архива WARC, а если страница требует загрузки дополнительных ресурсов, то процесс повторяется. Это одна из причин, почему полная загрузка страниц из Wayback Machine достигает 90 секунд, хотя закэшированные копии и популярный контент загружаются быстрее.

Для надёжности копии Архива хранятся не только в Сан-Франциско, но и ещё в нескольких локациях по всему миру, в том числе в Амстердаме (Нидерланды) и Новой Александрийской библиотеке (Египет).

В 1996 году первые серверы Internet Archive подняли на недорогих компьютерах из стандартных комплектующих: по сути, на обычных десктопах под Linux. Хотя инфраструктура сильно выросла, в качестве операционной системы всегда использовали только Linux. С 2004 года все серверы перешли на Ubuntu, сейчас продолжается миграция на Ubuntu 20.4 LTS (Focal Fossa).

В последнее время объём Архива возрастает примерно на 25% в год, сейчас это соответствует 5−6 петабайтам в квартал. С учётом резервных копий нужно добавлять накопителей на 10−12 петабайт в квартал.

Одна копия Архива занимает более 45 петабайт, но на дисках и лентах хранится минимум две копии каждого объекта.

Как видно на графике вверху, обновление дискового массива происходит только за счёт моделей максимальной ёмкости. Например, в конце 2021 года планируется переход на диски по 20 ТБ, и тогда в серверы будут устанавливать только их. Остальные HDD постепенно доживают свой век, и их количество медленно снижается.

Internet Archive возлагает большие надежды на новые технологии записи данных, такие как HAMR (heat-assisted magnetic recording), чтобы ёмкость HDD увеличивалась ещё быстрее. Технология HAMR предусматривает предварительное нагревание магнитной поверхности лазером в процессе записи, что позволяет значительно уменьшить размеры магнитной области, хранящей один бит информации — и увеличить плотность записи. Нагрев выполняется с помощью лазера, который за 1 пс разогревает область записи до 100 °C.

Разработка этой технологии затянулась на 15 лет, но в январе 2021 года были официально представлены первые диски HAMR на 20 ТБ. Пока что они официально поставляются только избранным клиентам в рамках фирменного сервиса Seagate Lyve, но вскоре должны появиться в свободной продаже.

Seagate обещает, что HAMR позволит наращивать ёмкость HDD на 20% в год. Поэтому в ближайшее время можно ожидать модель на 24 ТБ, а в будущем — диски на 30 и 50 ТБ. Internet Archive тоже надеется на это и внимательно следит за последними разработками.

На текущем размере дисков понадобится 15 вот таких серверных стоек, чтобы разместить одну копию Архива:

У Internet Archive 750 серверов и 20 000 жёстких дисков

Сейчас в дата-центрах установлено 75 серверных стоек, что обеспечивает некоторый запас и избыточное копирование.

По состоянию на февраль 2021 года на серверах хранились копии 534 млрд веб-страниц, 16 млн аудиозаписей, 8,7 млн видеозаписей фильмов, клипов и телепередач, 3,8 млн изображений, 629 тыс. компьютерных программ, более 29 млн книг и текстов, в том числе 72 771 текстов на русском языке.

Любой пользователь может создать аккаунт и добавить в архив медиафайлы.

Internet Archive поддерживает API для внешних сервисов. Например, сторонний сервис может забирать контент из хранилища и показывать его на своём сайте или в приложении. Можно строить собственные каталоги на базе этого хранилища, эксплуатируя IA просто как удалённый бесплатный хостинг файлов с хотлинками. Подобную модель использует книжный каталог Open Library на базе Internet Archive. Хотлинки и модель подобной «эксплуатации» собственных ресурсов поощряется со стороны Архива. Кстати, аналогичные правила действуют в Wikimedia Commons: хотлинкинг разрешён и даже поощряется, что недавно вызвало казус с фотографией цветка: по непонятной причине ежедневно в сеть Wikimedia Commons поступало около 90 млн одинаковых запросов на получение одного файла AsterNovi-belgii-flower-1mb.jpg. Будем надеяться, что у Internet Archive таких инцидентов не случится.

В 2020 году Internet Archive пережил серьёзный рост количества запросов и объёма внешнего трафика с 40 до 60 Гбит/с. Из-за пандемии коронавируса и самоизоляции ресурсы Архива стали более востребованы. Количество запросов росло так быстро, что в определённый момент маршрутизаторы Internet Archive перестали справляться с нагрузкой, пришлось делать апгрейд сетевой инфраструктуры быстрее, чем планировалось. Сейчас веб-сайт входит в топ-300 крупнейших сайтов интернета.

Работа на собственных серверах имеет и свои недостатки. Основные причины сбоев Internet Archive — обрывы оптоволокна из-за строительных работ в городе, сбои энергоснабжения, случайные провалы напряжения в сети. Впрочем, прошлый год сайт завершил с аптаймом 99,9%.

Internet Archive планирует расширять внешний канал. Ожидается, что в ближайшее время внешний трафик вырастет до 80 Гбит/с.

Примерно так выглядит дизайн внутренней сети:

Дата-центры подключены к нескольким провайдерам первого уровня (Tier 1) и соединены между собой по оптоволокну с применением технологии плотного спектрального уплотнения (DWDM). Локальные университетские сети подключаются к этому кольцу напрямую через локальные точки обмена трафиком.

Вместо нынешнего оптоволокна планируется проложить пары 100-гигабитных кабелей по всему кольцу из четырёх дата-центров, так что внешний трафик тоже можно будет увеличить до 100 Гбит/с.

Прокладка новых кабелей по Сан-Франциско — весьма хлопотное и дорогое дело. Приходится перекладывать асфальт на автомобильных дорогах и тротуарах. К счастью, Internet Archive удалось получить официальный статус библиотеки, что даёт доступ к государственным субсидиям, в том числе к бюджету Федеральной комиссии по связи США (FCC) на подключение всех библиотек к интернету. Таким образом, львиную долю расходов на прокладку, обслуживание оптоволокна и трафик оплачивает FCC по программе E-Rate Universal Service Program.

С 2005 года Internet Archive начал проект Open Library по сканированию книг. С одной стороны, это действительно важный общественный проект. С другой стороны, он позволил получить государственные льготы и финансирование в качестве публичной библиотеки.

Кроме государственных грантов и пожертвований, организация оказывает платные услуги по сканированию книг, в основном, для других библиотек и университетов. Это ещё один источник финансирования.

Инженеры Internet Archive сейчас обдумывают варианты использования SSD и GPU в основных серверах, чтобы увеличить их производительность. Главная проблема здесь в том, что все дата-центры находятся в стеснённых городских условиях Сан-Франциско и пригородов с очень ограниченными возможностями охлаждения (см. фото 1). Так что каждый апгрейд требуется хорошо обдумать: не приведёт ли он к повышению температуры.

Интересно наблюдать за ростом инфраструктуры Internet Archive с увеличением количества серверных стоек. Есть подозрение, что рано или поздно наступит момент, когда сложность поддержания своей инфраструктуры превысит некий порог — и библиотека откажется от собственных дата-центров. Но пока что инженеры Core Infrastructure Team успешно справляются с работой.

В зависимости от методологии расчёта, хранение данных в собственных дата-центрах Internet Archive обходятся в 2−5 раз дешевле, чем в облаке. И это только хранение. Сложно даже посчитать, сколько будет стоить круглосуточный исходящий трафик 60 Гбит/с на AWS. Вероятно, он обойдётся даже дороже, чем хранение 200 петабайт.

Похоже, что некоторые сервисы просто «слишком велики» для облака. Компаниям приходится поднимать собственные дата-центры, потому что у них нет выхода. Другой вопрос: должна ли библиотека заниматься этим самостоятельно? Получается, что современная цифровая библиотека — это по сути хостинг-провайдер и дата-центр?

На правах рекламы

Эпичные серверы

— это

надёжные VDS

на Linux или Windows с мощными процессорами семейства AMD EPYC и очень быстрой файловой системой, используем исключительно NVMe диски от Intel. Попробуйте как можно быстрее!

Как удалить сайт из интернет-архива Wayback Machine

Интернет-архив, Wayback Machine — портал, сохраняющий базы с историей сайтов.

Роботы архива периодически обходят и индексируют сайты в интернете, которые они заносят в свою базу. Некоторые сайты могут долго не попадать в веб-архив, хотя со временем, вероятнее всего они там будут. Но чтобы не ждать, можно самостоятельно добавить URL страниц своего ресурса в интернет-архив.

Копии сайтов в веб архиве выглядят по разному, некоторые ресурсы отражаются корректно, другие — нет.

Wayback Machine — своего рода «машина времени», где можно увидеть как выглядел тот или иной сайт в прошлом. Не только увидеть, но и восстановить страницы если необходимо.

Возможно кто-то не желает, чтобы его сайт находился в базе архива и желает его удалить.

Лучший способ запретить сохранять в интернет архиве страницы сайта — это прописать в файле robors. txt запрещающую директиву:

User-agent: ia_archiver

Disallow: /

Директива работает — проверено. Но если существуют сомнения, можно подстраховаться и добавить в файл .htaccess запись:

order allow,deny

allow from all

</Files>

SetEnvIfNoCase User-Agent ia_archiver bad_bot

Order Allow,Deny

Allow from all

Deny from env=bad_bot

Страницы сайта не будут сохраняться в интернет-архиве, а уже имеющиеся скоро удаляться из базы.

***

Сохранить копию сайта в веб архив Internet archive Wayback Machine

Как обновить компьютер с Windows 7 до Windows 10

< Назад
Вперёд >

Вопросы и ответы по Amazon EC2 – Amazon Web Services

Вопрос. Что такое спотовый инстанс?

Спотовые инстансы – это свободные ресурсы EC2, которые позволяют сэкономить до 90 % средств по сравнению с инстансами по требованию. При этом AWS может прервать работу спотовых инстансов после соответствующего уведомления, отправленного за 2 минуты. Для спотовых инстансов используются те же базовые инстансы EC2, что и для инстансов по требованию и зарезервированных инстансов, при этом спотовые инстансы лучше всего подходят для отказоустойчивых и гибких рабочих нагрузок. Спотовые инстансы – это дополнительный вычислительный ресурс, который можно использовать вместе с инстансами по требованию и зарезервированными инстансами.

Вопрос. Чем отличается спотовый инстанс от инстанса по требованию или зарезервированного инстанса?

Во время работы спотовые инстансы ничем не отличаются от инстансов по требованию или зарезервированных инстансов. Основное отличие состоит в стоимости спотовых инстансов, которые обычно оказываются дешевле инстансов по требованию. Кроме того, в зависимости от потребности в ресурсах Amazon EC2 может прервать работу инстансов после соответствующего уведомления, отправленного за 2 минуты до отключения. При этом спотовые цены постепенно корректируются в соответствии с долгосрочными тенденциями предложения и спроса на свободные ресурсы EC2.

Дополнительную информацию о спотовых инстансах см. здесь.

Вопрос. Как приобрести и запустить спотовый инстанс?

Спотовые инстансы можно запускать с помощью тех же инструментов, которые в настоящее время используются для запуска инстансов, включая Консоль управления AWS, группы Auto Scaling, команду запуска инстансов и спотовые группы. Кроме того, запуск спотовых инстансов поддерживают многие сервисы AWS, например EMR, ECS, Datapipeline, Cloudformation и Batch.

Для запуска спотового инстанса нужно просто выбрать шаблон запуска и указать количество инстансов, которое необходимо запросить.

Дополнительную информацию о запросе спотовых инстансов см. здесь.

Вопрос. Сколько спотовых инстансов может запросить пользователь?

Количество запрашиваемых спотовых инстансов должно быть в рамках лимита инстансов, установленного для каждого региона. Следует отметить, что для новых клиентов AWS установленное ограничение может иметь меньшее значение. Дополнительную информацию о лимитах для спотовых инстансов см. в Руководстве пользователя Amazon EC2.

При необходимости получения большего количества заполните документ Форма запроса инстанса Amazon EC2 с указанием примера их использования, после чего мы рассмотрим возможность увеличения количества инстансов. Увеличение лимитов распространяется на тот регион, для которого оно было запрошено.

Вопрос. Какая плата будет начисляться за использование спотовых инстансов?

Вы будете производить оплату по спотовой цене, которая действует для работающего инстанса в начале каждого инстанс-часа. Если цена на спотовый инстанс изменится после его запуска, это будет учтено при начислении платы со следующего часа работы инстанса.

Вопрос. Что такое пул спотовых ресурсов?

Пул спотовых ресурсов – это набор неиспользуемых инстансов EC2 с тем же типом инстанса, операционной системой, зоной доступности и сетевой платформой (EC2-Classic или EC2-VPC). Цены разных пулов спотовых ресурсов могут отличаться в зависимости от предложения и спроса.

Вопрос. Какие существуют рекомендации по использованию спотовых инстансов?

Настоятельно рекомендуется использовать несколько пулов спотовых ресурсов для максимального увеличения доступных спотовых ресурсов. EC2 предоставляет встроенные возможности автоматизации, позволяющие найти самые экономичные ресурсы среди множества пулов спотовых ресурсов с помощью спотовой группы, группы EC2 или EC2 Auto Scaling. Дополнительную информацию см. в Рекомендациях по использованию спотовых инстансов.

Вопрос. Как узнать состояние запроса на спотовые инстансы?

Состояние запроса на спотовые инстансы можно узнать с помощью кода состояния запроса на спотовые инстансы и соответствующего сообщения. Доступ к информации о состоянии запроса на спотовые инстансы можно получить на странице спотовых инстансов консоли EC2 в Консоли управления AWS, API и интерфейсе командной строки. Дополнительную информацию см. в Руководстве по Amazon EC2 для разработчиков.

Вопрос. Есть ли возможность заказывать спотовые инстансы любых семейств и размеров в любых регионах?

Спотовые инстансы доступны во всех публичных регионах AWS. Спотовые инстансы доступны практически для всех семейств и размеров инстансов EC2, включая самые новые типы инстансов: оптимизированные для вычислений, инстансы с применением графического ускорения и инстансы FPGA. Полный список типов инстансов, поддерживаемых в каждом регионе, см. здесь.

Вопрос. Какие операционные системы доступны на спотовых инстансах?

В список доступных систем входят Linux/UNIX, Windows Server и Red Hat Enterprise Linux (RHEL). Windows Server с SQL Server в настоящее время недоступна.

Вопрос. Можно ли использовать спотовый инстанс с платным AMI для стороннего программного обеспечения (например, программных пакетов IBM)?

В настоящий момент нет.

Вопрос. Могу ли я остановить запущенные мной спотовые инстансы?

Да, вы можете остановить запущенные спотовые инстансы, когда они не нужны, и сохранить их для последующего использования вместо их завершения или отмены запроса на спотовые инстансы. Остановить можно постоянные запросы на спотовые инстансы.

Вопрос. Как остановить спотовые инстансы?

Можно остановить свои спотовые инстансы, вызвав API StopInstances и предоставив идентификаторы для спотовых инстансов. Эти действия похожи на те, которые предпринимаются для остановки инстансов по требованию. Перевести инстанс в спящий режим можно в Консоли управления AWS, указав нужный инстанс, а затем выбрав «Actions > Instance State > Stop – Hibernate».

Вопрос. Как запустить остановленные спотовые инстансы?

Можно запустить остановленные спотовые инстансы, вызвав API StartInstances и предоставив идентификаторы для спотовых инстансов. Эти действия похожи на те, которые предпринимаются для запуска инстансов по требованию. Можно возобновить работу инстанса в Консоли управления AWS, указав нужный инстанс, а затем выбрав «Actions > Instance State > Start».

Примечание. Спотовые инстансы будут запущены, только если спотовые ресурсы все еще доступны в пределах вашей максимальной цены. Каждый раз, когда вы запускаете остановленный спотовый инстанс, он оценивает доступность ресурсов.

Вопрос. Как узнать, остановил ли я свой спотовый инстанс или его работа была прервана?

Узнать, был спотовый инстанс остановлен или все же его работа была прервана, можно с помощью кода состояния запроса на спотовые инстансы. Информация отображается как состояние запроса на спотовые инстансы на соответствующей странице в Консоли управления AWS или посредством ввода команды DescribeSpotInstanceRequests API в поле «status-code».

Если код состояния запроса на спотовые инстансы – «instance-stopped-by-user», это означает, что вы остановили свой спотовый инстанс.

Вопрос. Как будет начисляться плата, если работа моего спотового инстанса остановлена или прервана?

Если работа спотового инстанса будет прервана или остановлена Amazon EC2 во время первого часа работы инстанса, это время его использования оплачиваться не будет. Однако если вы завершите или остановите работу спотового инстанса самостоятельно, будет начислена плата с округлением до ближайшей секунды. Если работа спотового инстанса будет прервана или остановлена Amazon EC2 в любое время в течение любого последующего часа работы инстанса, будет начислена плата за фактическое время использования с округлением до ближайшей секунды. Если вы используете ОС Windows или Red Hat Enterprise Linux (RHEL) и при этом завершите или остановите работу спотового инстанса самостоятельно, будет начислена плата за полный час.

Вопрос. Когда работа моего спотового инстанса может быть прервана?

За последние 3 месяца 92 % прерываний работы спотовых инстансов происходили на стороне клиентов, которые вручную останавливали работу инстансов после завершения работы приложений.

EC2 может потребоваться отозвать спотовые инстансы, выделенные клиенту, по двум возможным причинам. Основная причина – это потребности в ресурсах Amazon EC2 (например, использование инстансов по требованию или зарезервированных инстансов). Во втором случае, если задан параметр «максимальная спотовая цена», при этом спотовая цена превысила указанную цену, через две минуты после соответствующего уведомления инстанс будет остановлен. Указанный параметр определяет максимальную цену, которую клиент готов заплатить за час работы спотового инстанса, при этом по умолчанию его значение соответствует цене инстанса по требованию. Как и прежде, работа спотовых инстансов будет оплачиваться по рыночной спотовой цене, действующей в момент запуска инстанса, а не по указанной максимальной цене, при этом плата будет начисляться на посекундной основе.

Вопрос. Что произойдет со спотовым инстансом, когда его работа будет прервана?

У клиентов есть возможность выбрать, что произойдет со спотовым инстансом, если его работа будет прервана: завершить работу, остановить или перевести в спящий режим. Остановка и перевод в спящий режим доступны для постоянных заявок на спотовые инстансы и спотовых групп с включенным параметром «maintain». По умолчанию работа инстансов завершается.

Дополнительную информацию об обработке прерываний см. в разделе, посвященном спящему режиму для спотовых инстансов.

Вопрос. В чем разница между остановкой и спящим режимом?

При переходе инстанса в спящий режим данные оперативной памяти сохраняются. В случае остановки инстанс отключается, а данные оперативной памяти удаляются.

В обоих случаях данные из корневого тома EBS и любых подключенных томов данных EBS сохраняются. Неизменным остается как частный IP‑адрес, так и эластичный IP‑адрес (если такой используется). Поведение на сетевом уровне будет аналогично тому, что описано для рабочего процесса EC2, связанного с остановкой‑запуском. Остановка и спящий режим доступны только для инстансов на базе Amazon EBS. Локальное хранилище инстансов не сохраняется.

Вопрос. Что делать, если объем корневого тома EBS недостаточен для сохранения состояния памяти (ОЗУ) для спящего режима?

Для записи данных из памяти на корневом томе EBS должно быть достаточно места. Если места на корневом томе EBS недостаточно, попытка перехода в спящий режим завершится ошибкой, при этом инстанс будет выключен. Убедитесь, что том EBS имеет достаточный объем для сохранения данных памяти, прежде чем выбирать спящий режим.

Вопрос. В чем преимущество перевода инстанса в спящий режим при прерывании его работы?

В спящем режиме работа спотовых инстансов в случае прерывания будет приостановлена и возобновлена, что позволяет продолжить выполнение рабочих нагрузок с момента остановки. Спящий режим можно использовать, если один или несколько инстансов должны сохранять свое состояние между циклами отключения-запуска, т. е. когда работа приложений, запущенных на спотовых инстансах, зависит от контекстных, деловых или сеансовых данных, хранящихся в ОЗУ.

Вопрос. Что нужно сделать, чтобы включить спящий режим для спотовых инстансов?

Дополнительную информацию о включении спящего режима для спотовых инстансов см. в разделе, посвященном спящему режиму для спотовых инстансов.

Вопрос. Будет ли взиматься плата за использование спящего режима для спотовых инстансов?

Дополнительная плата за использование спящего режима для инстанса не взимается. Оплачивается только хранилище EBS и любые другие используемые ресурсы EC2. При переводе инстанса в спящий режим плата за пользование инстансом не взимается.

Вопрос. Можно ли возобновить работу инстанса, находящегося в спящем режиме?

Нет. Нельзя напрямую возобновить работу инстанса, находящегося в спящем режиме. Amazon EC2 управляет циклами перехода в спящий режим, а также выхода из него. Если спотовый инстанс был переведен в спящий режим, он будет восстановлен Amazon EC2, когда ресурсы станут доступны.

Вопрос. Какие инстансы и операционные системы поддерживают спящий режим?

В настоящее время спящий режим для спотовых инстансов поддерживается для образов Amazon Linux AMI и операционных систем Ubuntu и Microsoft Windows, работающих на любом типе инстансов семейств C3, C4, C5, M4, M5, R3 и R4 с объемом памяти (RAM) до 100 ГиБ.

Перечень поддерживаемых версий ОС см. в разделе, посвященном спящему режиму для спотовых инстансов.

Вопрос. Как начисляется плата, если спотовая цена изменяется во время работы инстанса?

Оплачиваться будет полный час работы каждого инстанса с округлением до ближайшей секунды по ценам, которые устанавливаются в начале каждого инстанс-часа.

Вопрос. Где получить информацию об истории использования спотовых инстансов и платежах?

Консоль управления AWS создает подробный отчет о платежах, в котором указывается время запуска и завершения работы/остановки по каждому инстансу. Используя API, клиенты могут сравнить отчет о платежах с данными истории для проверки соответствия платежей и спотовых цен.

Вопрос. Будет ли прерываться работа блоков спотовых инстансов (спотовых инстансов фиксированной продолжительности)?

Блоки спотовых инстансов настроены на бесперебойную работу и будут работать непрерывно в течение всего заданного срока независимо от рыночной спотовой цены. В редких случаях работа блоков спотовых инстансов может прерываться из-за возросшего потребления ресурсов платформой AWS. В подобных случаях за две минуты до прекращения работы инстанса система выдает предупреждение (предупреждение о прекращении работы), при этом плата за работу затронутых инстансов взиматься не будет.

Вопрос. Что такое спотовая группа?

Спотовая группа позволяет автоматически запрашивать сразу несколько спотовых инстансов и управлять ими, что позволяет обеспечить наименьшую цену за единицу ресурсов для кластера или приложения, например задания пакетной обработки, рабочего процесса Hadoop или высокопроизводительных распределенных вычислений. Можно включать те типы инстансов, которые может использовать приложение. С учетом требований приложения задается необходимый объем ресурсов (можно указать количество инстансов, виртуальных ЦПУ, объем памяти, емкость хранилища или пропускную способность сети) и обновляется необходимый объем ресурсов после запуска группы. Спотовые группы позволяют запускать и поддерживать целевой уровень ресурсов, а также автоматически запрашивать ресурсы для замещения инстансов, работа которых была прервана или прекращена вручную. Подробнее о спотовых группах.

Вопрос. Взимается ли дополнительная плата за запросы на спотовые группы?

Нет, дополнительная плата за запросы на спотовые группы не взимается.

Вопрос. Какие существуют ограничения по запросам на спотовые группы?

Ознакомьтесь с разделом Ограничения для спотовых групп Руководства пользователя Amazon EC2, чтобы узнать о существующих ограничениях по запросам на спотовые группы.

Вопрос. Что происходит, если запрос на спотовую группу пытается запустить спотовые инстансы и при этом превышается ограничение на спотовые запросы для данного региона?

Если запрос на спотовую группу превышает ограничение на запросы спотовых инстансов для данного региона, отдельные запросы спотовых инстансов будут отклонены с состоянием «Превышено ограничение запросов на спотовую группу». В истории запросов на спотовые группы будут отображаться все ошибки, связанные с превышением ограничений на спотовые запросы. Ознакомьтесь с разделом Мониторинг спотовых групп Руководства пользователя Amazon EC2, чтобы узнать, как отобразить историю запросов на спотовые группы.

Вопрос. Есть ли гарантия, что запросы на спотовые группы будут выполнены?

Нет. Запросы на спотовые группы позволяют одновременно размещать запросы на несколько спотовых инстансов, при этом к ним применимы те же самые параметры доступности и цены, что и к запросам на отдельные спотовые инстансы. Например, если нет доступных ресурсов для типов инстансов, указанных в запросе спотовой группы, запрос не может быть выполнен частично или полностью. Рекомендуется включать в спотовую группу все возможные типы инстансов и зоны доступности, которые подходят для рабочих нагрузок.

Вопрос. Можно ли подать запрос на спотовую группу в нескольких зонах доступности?

Да. Ознакомьтесь с разделом Примеры спотовых групп Руководства пользователя Amazon EC2, чтобы узнать, как подать запрос на спотовую группу в нескольких зонах доступности.

Вопрос. Можно ли подать запрос на спотовую группу в нескольких регионах?

Нет, запросы на группы в нескольких регионах не поддерживаются.

Вопрос. Каким образом спотовые группы распределяют ресурсы между различными пулами спотовых инстансов, заданными в параметрах запуска?

API RequestSpotFleet позволяет воспользоваться одной из трех стратегий распределения: capacity‑optimized, lowestPrice и diversified. Стратегия распределения с оптимизацией ресурсов пытается выделить спотовые инстансы из пула с наибольшей доступностью, анализируя метрики ресурсов. Эта стратегия хорошо подходит для рабочих нагрузок с высокой стоимостью прерывания, к которым относятся большие данные и аналитика, рендеринг изображений и мультимедийного контента, машинное обучение и высокопроизводительные вычисления.

Стратегия lowestPrice позволяет распределять ресурсы спотовой группы между пулами инстансов с минимальной стоимостью единицы ресурсов на время передачи запроса. Стратегия diversified позволяет распределять ресурсы спотовой группы между несколькими пулами спотовых инстансов. Эта стратегия позволяет поддерживать целевой уровень ресурсов группы и повысить доступность приложения в процессе колебаний объема спотовых ресурсов.

Запуск ресурсов приложения в неоднородных пулах спотовых инстансов позволяет дополнительно сократить эксплуатационные расходы группы с течением времени. Подробности см. в Руководстве пользователя по Amazon EC2.

Вопрос. Возможно ли с помощью тега отметить запрос на спотовую группу?

Теги можно использовать, чтобы запросить запуск спотовых инстансов с помощью спотовой группы. Назначение тегов для самой группы не поддерживается.

Вопрос. Как посмотреть, к каким спотовым группам принадлежат мои спотовые инстансы?

Чтобы посмотреть, какие спотовые инстансы принадлежат к спотовой группе, укажите запрос на группу. Запросы на группы остаются доступны в течение 48 часов после прекращения работы всех спотовых инстансов. Дополнительную информацию об отображении запроса на спотовую группу см. в Руководстве пользователя Amazon EC2.

Вопрос. Можно ли изменить запрос на спотовую группу?

В настоящее время можно изменять только целевые ресурсы запроса на спотовую группу. Чтобы изменить другие параметры конфигурации запроса, вам может потребоваться отменить текущий запрос и отправить новый.

Вопрос. Можно ли указать различные образы AMI для каждого типа инстанса, который будет использоваться?

Да, для этого достаточно указать нужный образ AMI в каждой конфигурации запуска, которая указывается в запросе на спотовую группу.

Вопрос. Можно ли использовать спотовую группу вместе с сервисами Elastic Load Balancing, Auto Scaling или Elastic MapReduce?

Спотовую группу можно использовать с такими возможностями сервиса Auto Scaling, как отслеживание целевых значений, проверка работоспособности, метрики CloudWatch и т. д. Кроме того, можно подключать инстансы к балансировщикам нагрузки сервиса Elastic Load Balancing (как к Classic Load Balancer, так и к Application Load Balancer). В Elastic MapReduce есть функция под названием «Группы инстансов», которая предоставляет возможности, подобные возможностям спотовой группы.

Вопрос. Может ли запрос на спотовую группу прекратить работу спотовых инстансов, если они больше не выполняются в спотовом пуле с самой низкой ценой или оптимизацией по ресурсам, и затем повторно запустить их?

Нет, запросы на спотовые группы не предусматривают автоматического прекращения работы запущенных спотовых инстансов и повторного их запуска. Тем не менее,если пользователь прекращает работу спотового инстанса, спотовая группа заменит его новым спотовым инстансом из нового пула с самой низкой ценой или оптимизацией по ресурсам в соответствии с выбранной стратегией распределения.

Вопрос. Можно ли использовать со спотовой группой модели поведения, связанные с остановкой или переходом в спящий режим после прерывания работы?

Да. Остановка-запуск и спящий режим-возобновление работы поддерживаются спотовой группой при включенном параметре «maintain» группы.

Как узнать вид сайта в прошлом через WebArchive

У 9 из 10 наших читателей есть свой сайт или интернет-магазин на 1C-UMI. Кто-то создал его недавно, а кому-то уже можно праздновать юбилей. За годы развития веб-ресурсы претерпевают множество изменений во внешнем виде и функционале. Иногда хочется вспомнить, каким же был ваш проект раньше, когда всё только начиналось. Или поднять какую-то утерянную информацию, которая была на сайте ранее. Сделать это легко при помощи чудо-сервиса Wayback Machine.

Как пользоваться веб-архивом

Откройте сервис, вбейте в строку поиска домен или полный адрес своего сайта. Сервис автоматически начнет поиск и через пару секунд покажет вам результаты в виде временной шкалы и календаря с датами, когда были сделаны снимки ресурса.

Чтобы перейти к конкретному году, кликните по соответствующему блоку на шкале. Затем в календаре ниже нажмите на одну из дат, выделенных голубым цветом. Если в тот день было сделано несколько снимков, при нажатии на дату вы увидите окно для выбора нужного вам времени. Если снимок был один, вы сразу попадете на сохраненную версию.

Вот так выглядел наш сайт 1C-UMI летом 2012 года:

А вот так его видели наши пользователи осенью 2016 года:

Чем дольше ресурс работает, тем больше его снимков будет в WebArhive. Для путешествия в прошлое используйте временную шкалу и блок переключения месяцев и чисел справа от нее.

Самое классное — что данный сервис не делает скриншоты сайтов, а сохраняет их целиком. Таким образом, вы увидите версию 10-летней давности и, все разделы, формы, почитаете тексты, полистаете изображения и многое другое.

Какие сайты попадают в веб-архив

Оказаться в Wayback Machine может любой сайт. Особенно это касается тех веб-ресурсов, которые находятся в каталоге DMOZ. Но так как сейчас туда свое «детище» уже не добавить, будет достаточно того, что на вашу площадку ссылаются сайты, снимки которых уже присутствуют в веб-архиве. А даже если таких ссылок нет, ваш ресурс все равно может попасть в базу сервиса. Главное, чтобы в его файле Robots.txt не было запрета.

Как проверить? Для сайтов на 1С-UMI откройте раздел «Реклама/SEO → Управление robots.txt» в панели управления сайтом и проверьте, нет ли в нем следующей записи:

User-agent: ia_archiver

Disallow: /

Если такой записи (как выше) нет, все хорошо, ваш сайт имеет шанс на попадание в веб-архив. В противном случае, при поиске своего ресурса в сервисе вы увидите надпись, как на скриншоте ниже.

Если вы не хотите ждать, когда сервис соблаговолит сделать снимок вашего сайта, добавьте его в базу WebArchive вручную. Для этого найдите функцию «Save Page Now», которая находится в центральной части страницы справа.

Укажите ссылку на свой ресурс и нажмите на кнопку «SAVE PAGE». Сохранение начнется через несколько секунд и, спустя минуту или около того, будет закончено. За ходом выполнения вы можете наблюдать в небольшом окошке по центру экрана.

После сохранения снимка страницы начнет загружаться только что архивированная версия сайта.

По окончании процесса окно загрузки закроется, и вы сможете просмотреть сохраненный снимок, побродить по всем разделам сайта и т. д.

Чем будет полезен веб-архив для вас

Данный сервис годится не только для того, чтобы смотреть, в каком состоянии была ваша страничка или любой другой ресурс некоторое время назад. С его помощью вы можете восстановить свой сайт, его страницу, какой-то текст или элемент, если вдруг по какой-то причине данные были стерты. Чтобы этого не произошло, не забывайте почаще выполнять резервное копирование вашего сайта, ну, а на экстренный случай имейте в виду WebArchive. Но имейте в виду также, что WebArchive делает снимки по своему усмотрению с непредсказуемой частотой, поэтому нужной вам версии сайта в нем может и не оказаться.

Вручную восстанавливать ресурс из веб-архива очень долго и для этого нужно неплохо разбираться в сайтостроении и верстке. Однако при желании восстановление можно автоматизировать при помощи онлайн-инструмента ARCHIVARIX.

До 200 файлов сервис восстанавливает бесплатно, а при большем количестве взимает небольшую плату.

Веб-архив может быть вам полезен и тем, что он содержит колоссальное количество уникальных текстов, которые опубликованы на канувших в небытие ресурсах. Как это можно использовать с выгодой для своего бизнеса? Допустим, вы запускаете сайт. Сами писать тексты не можете из-за отсутствия времени, а на оплату услуг копирайтера денег нет. Чтобы не откладывать запуск проекта, попробуйте найти уникальный контент в Wayback Machine.

Найдите любой сайт, близкий вашему по тематике, откройте его содержимое, скопируйте тексты и прогоните их через софт или сервис проверки на плагиат. Статьи, которые окажутся уникальными (от 90% и выше), вы можете без зазрения совести опубликовать на своем сайте. Это не будет считаться хищением, так как тексты после удаления ресурсов стали ничейными.

Для поиска таких сайтов можно использовать базы хостинговых компаний. Обычно они публикуют список тех доменов, срок действия которых истек или вот-вот истечет. Существуют и специальные программы, которые ищут освободившиеся домены по нужным параметрам.

Несколько фактов о веб-архиве

Первый запуск сервиса WebArchive состоялся в 1996 году. С тех пор этот инструмент сумел накопить в своей базе более 338 миллиардов сайтов. Представьте, сколько это! А дисковое пространство, которое занято информацией в архиве, составляет 1015 Терабайт. Если перевести на математический язык, то это квадриллион.

На следующий год после основания сервиса WebArchive добавил в свою базу сам себя. Хотите посмотреть, как он выглядел на тот момент? Тогда взгляните на изображение ниже.

Это самый первый его снимок от 26 января 1997 года.

На данный момент веб-архив считается наилучшим способом из бесплатных для создания снимков интернет-ресурсов. Возьмите его на вооружение.

Машина времени для web-сайтов. Обзор сервиса. | PingMeUp

Сегодня, в рубрике «Полезные сайты» я хочу рассказать об очень полезном сервисе для просмотра и восстановления удаленных или заблокированных сайтов. Есть в Сети такой сервис, схожий по своим принципам с работой поисковиков, отличие рассматриваемого в обзоре сервиса от поисковых систем заключается в том, что Wayback Machine позволяет в доступной и понятной пользователю форме ввести www-адрес ресурса, и посмотреть историю его создания, например можно узнать как выглядела страница поисковой системы Яндекс в декабре 1998 года:

Главная страница поисковика Яндекс образца декабря 1998 года восстановленная Wayback Machine. Кликните для увеличения.

Давайте я подробно расскажу как у меня это получилось, как всем этим добром пользоваться и при каких сценариях сервис может вас выручить.

Для этого нам понадобится открыть сайт по адресу https://web.archive.org. В адресную строку на сайте вводим url-адрес сайта, который мы собираемся просматривать, нажимаем “Browse History”:

web.archive.org: Выбираем год, месяц из доступных сохраненных диапазонов.

Далее, выбираем интересующий нас год, месяц и дату из доступных дат, когда была создана копия сайта в календаре (они обведены в кружочек и подчеркнуты гиперссылкой:

После клика по дате – откроется страница в том виде, и с той информацией на сайте которая была на нем в выбранный временной диапазон.

Так же сайт очень удобен для хождения по заблокированным ресурсам, например можно удобно пользоваться как rutracker.org и остальными ресурсами, попавшими под «горячую руку» властей, не прибегая при этом к использованию сторонних расширений, анонимайзеров и т. п.:

Заходим на заблокированный rutracker.org с помощью бесплатного сервиса wayback machine. Кликните для увеличения. Выбираем желаемый год и дату. Кликните для увеличения. Открывшаяся через wayback machine страница rutracker.org. Анонимайзеры и VPN сервисы при этом отключены. Кликните для увеличения.

Из минусов можно отметить то, что количество дат сканированных копий сайта ограничен (но, как правило, есть из чего выбрать и это не критично).
Второй минус – не всегда в сохраненных сайтах подгружается таблица стилей CSS. Если вам необходим просто доступ к информации удаленного или заблокированного сайта – то данный минус не критичен и на него можно закрыть глаза.
В заключение обзора хочу добавить, что пользование сервисом свободное и не требует никакой регистрации от пользователей. На этом на сегодня всё.

Ссылка на сайт: https://web.archive.org

Подписывайтесь на обновления блога, поделитесь записью в соцсетях и следите за новыми обзорами и статьями! Всем добра!

Facebook

Twitter

Мой мир

Вконтакте

Одноклассники

Google+

Альтернативы машинам с обратным ходом 10 — Цифровой траулер

Интернет — обширное и сложное место. Средняя продолжительность жизни веб-страницы составляет около 100 дней до ее редактирования или удаления (1). Чтобы идти в ногу со временем, ваш сайт должен постоянно развиваться. Хороший способ продвинуться вперед — изучить успешные страницы, которые были до вас. WayBack Machine — это платформа, которая делает возможным доступ к архивной веб-информации, однако в зависимости от ваших целей вы можете рассмотреть более эффективные альтернативы.Ниже мы рассмотрим преимущества использования альтернатив WayBack Machine.

Содержание

Что такое устройство WayBack?
Список альтернатив
- Time Travel
- Archive.today
- Stillio
- Page Freezer
- Alexa
- WebCite cc
- Actiance
- Кэшированный вид
- Восстановить страницы
Заключение
Ресурсы

Что такое WayBack Machine?

WayBack Machine работает как интернет-архив. Это онлайн-платформа, которая позволяет пользователям получать доступ к контенту, который был опубликован в сети и больше не доступен. Люди обычно обращаются к WayBack Machine с целью изучения конкурирующих бизнес-методов и стратегий. Если вы создаете новый веб-сайт и хотите исследовать популярные веб-сайты прошлого для дизайна, навигации и эстетического вдохновения, WayBack Machine — очень полезный инструмент. Знание того, что сработало для другого бизнеса, тоже может помочь вам!

WayBack Machine дает представление об истории веб-сайтов, способах их создания и их функциях.Проще говоря, это архив истории веб-сайтов. Благодаря WayBack Machine люди могут получить доступ к контенту, который был изменен или удален с исходного сайта.

Использование единого веб-сайта для доступа к истории Интернета с 1996 года — сомнительное решение. Вот почему мы рассмотрим плюсы и минусы 10 лучших альтернатив WayBack Machine в этой статье, чтобы найти наиболее подходящую для ваших целей. Если WayBack Machine не работает, вам нужна альтернатива, готовая к принятию важных решений. Помимо этого, некоторые из альтернатив предлагают различные возможности, которые могут помочь вам по-разному. Давайте рассмотрим особенности, цены, преимущества и недостатки альтернатив.

Список альтернатив

Time Travel — отличная альтернатива WayBack Machine, поскольку она бесплатна и проста в использовании. Как следует из названия, этот инструмент позволяет вам путешествовать во времени, чтобы посетить веб-сайт в определенный момент времени. Этот инструмент построен с использованием API archive.today, который мы рассмотрим более подробно позже.Преимущество этого заключается в том, что он позволяет пользователю выбирать из любого веб-архива, а это означает, что ваши предпочтения будут учтены.

Различия между WayBack Machine и Time Travel очень важны. Time Travel позволяет пользователям посещать веб-страницы со сложной визуализацией. Это означает, что вы можете посещать заархивированные сайты, на которых есть другие вещи, кроме текста, изображений и таблиц стилей. Time Travel — отличная простая альтернатива WayBack Machine, если вы хотите посетить предыдущие версии сайтов.

Подобно WayBack Machine и Time Travel, Archive.today — это бесплатный онлайн-инструмент со сложной базой данных и системой индексации. Его популярность выросла из-за его доступности и простых в навигации функций. Он имеет функцию закладок, которая позволяет пользователям легко переходить на страницу и делать снимки экрана. Archive.today хранит скриншоты популярных веб-страниц и позволяет пользователям получать доступ к одной странице за раз, если она не превышает 50 МБ. Эти повторяющиеся страницы остаются в сети независимо от того, удалены ли оригиналы.В Archive.today есть поисковик URL, аналогичный WayBack Machine, но он работает как на Google, так и на Яндексе, а это означает, что если Google не возвращает результат поиска, он автоматически переключается на Яндекс.

Преимущество использования Archive.today перед WayBack Machine заключается в том, что он может поддерживать сайты, которые в значительной степени полагаются на Javascript, визуальные эффекты и даже приложения социальных сетей, такие как Twitter. Это огромное преимущество использования этой платформы, поскольку она позволяет пользователям иметь всю необходимую информацию практически на любом веб-сайте, который они хотят.Еще одним преимуществом этой платформы является то, что она хранит две копии каждой страницы: одну статическую и одну, содержащую ссылки на страницы. В отличие от WayBack Machine, Archive.today не использует файлы robots.txt, которые в прошлом приводили к потере данных.

Уникальным преимуществом Stillio является то, что он может периодически делать снимки веб-сайтов с помощью снимков экрана. Он работает, делая скриншоты через регулярные промежутки времени, то есть ежечасно, ежедневно, еженедельно или в зависимости от того, какой интервал вам подходит. Stillio — хорошая альтернатива WayBack Machine, поскольку она дает пользователю больше контроля, когда дело доходит до показателей веб-сайта, таких как усложнение поисковой системы и рейтинг SEO.

Stillio также может интерпретировать изображения и HTML, с которыми борется WayBack Machine. Он захватывает файлы PNG веб-страниц, что означает, что он точно отображает изображения, графики, текст и все другие компоненты веб-страницы. В этом большая разница между двумя сервисами, поскольку WayBack Machine захватывает только CSS страницы и изображения. Он не обрабатывает Javascript или другие элементы сайта точно. Это может привести к неработающим ссылкам или повреждению графики. Файлы Stillio PNG можно хранить удаленно, поскольку платформа поддерживает удаленное хранилище, такое как Google Диск и другие облачные сервисы.Stillio также не требует, чтобы вы регулярно посещали сайт конкурентов; проверив свою панель управления, вы можете сразу увидеть всю необходимую информацию.

Stillio работает по подписке и колеблется от 29 до 299 долларов в месяц в зависимости от выбранного вами плана. Каждый план позволяет вам создать бесплатную учетную запись и исследовать возможности Stillio в течение 14 дней.

Самая интересная особенность онлайн-платформы Pagefreezer заключается в том, что она использует облачные технологии. Он специализируется на упрощении архивирования в Интернете и социальных сетях.Это отличный выбор для бизнеса или организации любого размера, которые хотят надежно защитить свой контент в формате наилучшего качества. Pagefreezer особенно подходит для таких отраслей, как образование, финансы и розничная торговля.

Pagefreezer — это один из самых простых инструментов для архивирования материалов, поскольку он функционирует из единого портала. Он может архивировать контент для нескольких сайтов, включая учетные записи в социальных сетях, с помощью только одного входа в систему. Это универсальный магазин для всех ваших архивных нужд.Pagefreezer похож на WayBack Machine, поскольку использует технологию сканирования. Это означает, что ваш процесс архивирования полностью автоматизирован без необходимости установки программного обеспечения. Основным преимуществом использования этого инструмента является то, что при хранении материалов он аутентифицирует их, включая отметку времени и цифровую подпись, что обеспечивает соответствие FRE и FRCP. Это означает, что ваш контент может быть предоставлен аудитору в случае необходимости. Pagefreezer, к сожалению, не самый доступный вариант за 99 долларов в месяц, но он того стоит, если вы ищете надежную платформу.

Это имя, которое многие люди уже признали принадлежащим к семье Amazon. Что касается архивирования интернет-материалов, Alexa предоставляет информацию о просмотрах веб-сайта и полную историю. Alexa — очень популярный вариант среди инструментов исследования и в основном используется для анализа информации о конкурентах. Основное преимущество заключается в том, что вы можете проводить исследование ключевых слов и проверять эффективность сайта. Сюда входят продолжительность, частота и шаблоны посещений пользователей.

Различия между Alexa и WayBack Machine многочисленны.Хотя оба они немного устарели, Alexa предлагает больше функций. Alexa предоставляет индексы трафика и рейтинг, чего нет у WayBack Machine. Многие компании очень верят в свой «рейтинг Alexa». Хотя Alexa не является обычным архивным сайтом, это отличный выбор для компаний, которые хотят проводить исследования ключевых слов или отслеживать шаблоны сайтов своих конкурентов. Alexa работает по подписке и начинается от 149 долларов в месяц.

WebCite — это бесплатный веб-сайт-архив, который используется для постоянного хранения веб-сайтов.Это отличается от сайтов, которые мы обсуждали ранее, поскольку он в основном используется для академических кругов, авторов, редакторов и издателей. Основная функция WebCite — сохранить учебные материалы для доступа в будущем.

В отличие от WayBack Machine, но аналогично другим альтернативам, WebCite поддерживает ряд форматов, включая HTML, файлы PDF, изображения и страницы, управляемые CSS. Однако он не использует сканирование в Интернете. Обычная ссылка на веб-сайт состоит из имени автора, названия работы, а также исходного URL-адреса и URL-адреса веб-сайта.Это обеспечивает постоянную доступность. Доступ к материалам WebCite легко получить через эти URL-адреса, что делает платформу удобной для навигации.

WebCite состоит из двух разных форматов: непрозрачного и прозрачного. Непрозрачный может быть добавлен к указанному URL-адресу, в то время как прозрачный заменяет исходный URL-адрес. Можно вручную включить цитату в документ или загрузить контент на платформу, что позволит программному обеспечению WebCite изучить документ и заменить URL-адреса, которые затем будут постоянно заархивированы на платформе.

Успешно, вы получите электронное письмо с доступом.

Perma.cc сильно отличается от инструментов, которые мы обсуждали до сих пор. Это приложение было разработано библиотекой Гарвардской школы права. Функция инструмента — помочь пользователям создавать постоянные записи о веб-сайтах. Он имеет ряд функций, которые отличаются от WayBack Machine, что делает его интересной альтернативой.

Во-первых, URL-адреса могут быть вставлены через блог или бумажные статьи, аналогично WebCite.Ссылки могут быть удалены в течение 24 часов с момента их создания. Одним из больших преимуществ является то, что вы можете добавлять пользователей в любую организацию, отправив их адреса электронной почты в облачную программу. Основная цель этой альтернативы остается прежней: она позволяет вам посещать веб-сайты и создавать записи о содержании на этом сайте. Если сохранить не удалось, приложение также позволяет пользователям создавать PDF-файлы или файлы изображений. Доступ к этой услуге можно получить через многоуровневую модель подписки.

Actiance — еще одна отличная альтернатива WayBack Machine.Это приложение, которое позволяет пользователям записывать и архивировать сообщения и поддерживает более 80 каналов. Преимущества Actiance заключаются в том, что он фиксирует релевантные сообщения и позволяет вам сохранять и просматривать этот контент по запросу. Поскольку это облачное приложение, в нем легко ориентироваться. Панель инструментов предоставляет аналитику в виде визуализированных данных. Это позволяет выявлять риски и управлять стоимостью данных вашего бизнеса. Основное преимущество Actiance заключается в том, что он предлагает настраиваемые отчеты. Это хороший вариант для предприятий, которым нравится, чтобы их данные интерпретировались в удобной для чтения форме.Это лучший архивный сервис, предлагающий расширенный поиск по каналам.

CacheView — уникальная альтернатива WayBack Machine, поскольку она позволяет пользователям получать доступ к сайтам из Google Cache, Coral Content Distribution Network и интернет-архива на единой платформе. Это лучший ресурс для компаний, которые предпочитают инструмент для архивирования веб-сайтов из разных источников. CacheView можно использовать бесплатно, и в нем есть приложение Google Chrome, которое позволяет вам читать папку кэша браузера Chrome, представляя файлы, которые находятся в кеше.Именно эта особенность дала ему название. Файлы кэша обычно содержат информацию о типах контента, имени сервера, ответе сервера и URL-адресах.

Как и CacheView, Resurrect Pages оправдывает свое название. Этот инструмент использует archive.org, а также другие страницы, чтобы оживить мертвые страницы веб-сайта. Сюда входят удаленные страницы и неработающие ссылки. Этот инструмент позволяет пользователям просматривать старые версии веб-сайтов конкурентов, а также контент Google Cache, контент WebCite и контент со многих других архивных сайтов.

Основным недостатком использования Resurrect Pages является то, что это надстройка Firefox, что означает, что она совместима только с поисковой системой Firefox. Хотя Resurrect Pages бесплатен, его качество зависит от архива, к которому вы получаете доступ через него. Хотя это может показаться отличным местом для доступа к множеству различных материалов, трудно судить о нем индивидуально, поскольку это связано с происхождением этих материалов.

Заключение

В этой статье мы рассмотрели множество альтернатив WayBack Machine.Знание преимуществ и недостатков каждого инструмента может помочь вам выбрать подходящую платформу для ваших нужд. Хотя каждый вариант различается по функциям, надежности, цене и доступности, все они являются надежными вариантами, когда речь идет об альтернативах WayBack Machine.

Успешно, вы получите электронное письмо с доступом.

Ресурсы

https://www.theatlantic. com/technology/archive/2015/09/how-many-websites-are-there/408151/

Какая часть Интернета выполняет обратную связь Действительно архив?

Интернет-архиву в следующем году исполнится 20 лет, в нем собраны почти два десятилетия и 23 петабайта эволюции Всемирной паутины.Тем не менее, на удивление мало известно о том, что именно находится в хваленой Wayback Machine Архива. Помимо того, что он заархивировал более 445 миллиардов веб-страниц, Архив никогда не публиковал инвентарь веб-сайтов, которые он архивирует, или алгоритмов, которые он использует для определения того, что и когда захватывать. Учитывая недавние объявления Архива о новых попытках сделать свой веб-архив доступным для научных исследований, критически важно понять, что именно составляет этот архив на 445 миллиардов страниц и как этот состав может повлиять на те виды исследований, которые ученые могут с ним проводить. .

Постоянные пользователи Wayback Machine знакомы с бесчисленным множеством странностей, которые хранятся в ней. Например, несмотря на запуск CNN.com в сентябре 1995 года, первый снимок архива его домашней страницы не появится до июня 2000 года. В отличие от этого, веб-сайт BBC был заархивирован с декабря 1996 года, но количество снимков уменьшалось и текло скачкообразно. 2012. Совершенно очевидно, что для того, чтобы по-настоящему понять Архив, мы должны перейти от случайных анекдотов к систематической оценке фондов коллекции.

Поскольку Архив не публикует главную инвентаризацию доменов, сохраненных в Wayback Machine, был использован рейтинг Alexa одного миллиона самых популярных веб-сайтов в мире, который составлен на основе активности просмотра в более чем 70 странах. Полная история всех снимков, когда-либо записанных Архивом для домашней страницы каждого веб-сайта, была запрошена с помощью API-интерфейса Wayback CDX Server до 5 ноября 2015 года. Хотя это отражает только снимки домашних страниц, а не сайтов в целом, тем не менее ключевой показатель того, как часто Архив просматривает каждый сайт.

В этих данных можно увидеть огромные технические ресурсы, необходимые для сканирования и архивирования открытого Интернета. В целом, с 1996 года интернет-архив делал снимки домашних страниц одного миллиона самых популярных сайтов Alexa более чем 240 миллионов раз. На загрузку этих домашних страниц было израсходовано чуть более 2 терабайт полосы пропускания, причем только в 2015 году потребовалось более 307 гигабайт.

В 2015 году в топ-15 сайтов с наибольшим количеством снимков вошли seriesyonkis.sx (испанский сайт, предлагающий бесплатный доступ к телепрограммам и фильмам, который Chrome в настоящее время блокирует из-за угроз безопасности и который ранее был закрыт из-за предполагаемого пиратства фильмов), автозапчасти .ru (российский сайт автозапчастей), savy.lt (литовский сайт займов), videox-amateur.org (порнографический сайт), most.bg (болгарский сайт компьютерных запчастей), fastpic.ru (российский сайт для размещения изображений, по всей видимости, содержит большое количество порнографии), royalkona. com (гавайский курортный отель), trampolinepartsandsupply.com (веб-сайт запчастей для батутов), radikal.ru (еще один российский сайт размещения изображений), youtube.com, zohraa.com (индийский сайт женской моды), arcelikal.com (турецкий сайт бытовой техники и электроники), localiser-ip.com (поиск IP-адресов), jobsalibaba.com (веб-сайт вакансий в Интернете) и myspace.com.

Таким образом, из 15 веб-сайтов с наибольшим количеством снимков, сделанных Архивом до настоящего времени в этом году, один является предполагаемым сайтом с пиратством фильмов, один — гавайской гостиницей, два — порнографическими сайтами и пять — сайтами онлайн-покупок. Вторая по количеству снимков домашняя страница — это сайт российских автозапчастей, а восьмое место по количеству снимков — поставщик запчастей для батутов.

Если посмотреть подробнее на веб-сайте литовских кредитов Wayback, savy.Видно, что Архив периодически сканировал сайт с января 1999 года по май 2003 года, а затем не возвращался более десяти лет. В 2015 году он сильно обходился в конце марта и апреле, а затем очень сильно в мае и июне, несколько раз 1 июля и никогда больше в следующие четыре месяца. В целом сканеры архива обращались к savy.lt в общей сложности 203 945 раз за этот период, по большей части за один массивный цикл сканирования. Тем не менее, в общедоступном профиле сайта Wayback утверждается, что он был просканирован всего 868 раз.

Причина этого в том, что общедоступный веб-сайт Wayback сообщает количество часов с хотя бы одним снимком, а не фактическое общее количество снимков, поэтому он сообщает максимум о 24 снимках в день, а не о тысячах. захватов в день он действительно видит для некоторых веб-сайтов. К сожалению, Архив не разъясняет это на своем веб-сайте, вместо этого случайно ссылается на это глубоко в технической документации для своего API сервера CDX на GitHub.

Повторно ранжируя один миллион сайтов с наибольшим количеством часов с хотя бы одним моментальным снимком за этот час и вычисляя процент часов с 00:01 1 января 2015 года, есть моментальный снимок, 15 лучших сайтов — это myspace. com (93%), yahoo.com (86%), cnn.com (80%), youtube.com (78%), msn.com (76%), twitter.com (76%), facebook.com ( 72%), msnbc.com (70%), abcnews.go.com (70%), today.com (69%), nbcnews.com (67%), cbsnews.com (65%), infoseek.co. jp (65%), cnbc.com (63%) и tinypic.com (58%). Девять из 15 веб-сайтов с почасовыми снимками являются новостными, предлагая более разумный рейтинг. Действительно, новостные веб-сайты составляют многие из топ-50 доменов.

Тем не менее, более пристальный взгляд на этот рейтинг также обнаруживает ряд аномалий.Сайт walb.com имеет рейтинг Alexa 100 803, но занимает 24-е место по количеству часов с моментальными снимками, в то время как mountvernonnews.com занимает 363 013 место в Alexa и 43-е место по часам создания снимков. Это, по-видимому, общая тенденция, без заметной связи между рейтингом Alexa и количеством раз или часов, в течение которых домашняя страница веб-сайта была сделана.

Фактически, общее количество снимков и общее количество часов с хотя бы одним снимком слабо коррелируют при r = 0,35. Рейтинг Alexa и количество снимков значимо не коррелируют при r = -0.03, в то время как рейтинг Alexa и количество отдельных часов со снимками обратно коррелированы при r = -0,15. Проще говоря, эти цифры означают, что количество снимков и количество часов с хотя бы одним снимком в значительной степени не связаны с его рейтингом Alexa. У более популярных сайтов не больше снимков, чем у менее популярных сайтов. С одной стороны, это может иметь смысл, поскольку популярность сайта не обязательно указывает на то, как часто он обновляется. Тем не менее, в Интернете примерно в 2015 году очень популярные сайты, как правило, постоянно обновляются новым контентом — сайт, который обновляется раз в несколько лет, скорее всего, будет привлекать мало трафика.Таким образом, можно утверждать, что скорость обновления контента сайта и его популярность, по крайней мере, в некоторой степени связаны.

По годам, корреляция рейтинга Alexa с часами и снимками удивительно стабильна с 2013 по 2015 год, варьируя от -0,15 до -0,17 для часов и от -0,03 до -0,04 для снимков. Однако корреляция между часами и снимками значительно различается: от 0,35 в 2015 году до 0,29 в 2014 году до 0,46 в 2013 году до 0,38 в 2012 году. Тот факт, что корреляция снимков с рейтингом Alexa остается неизменной в течение последних трех лет, предполагает, что Архив действительно не учитывать популярность при сканировании.С другой стороны, значительное изменение корреляции общего количества снимков с часами привязки предполагает, что поведение повторного сканирования Архива постоянно меняется, что окажет глубокое влияние на исследования, использующие Архив в качестве набора данных для изучения эволюции Интернета.

Новостные агентства представляют собой особый вид веб-сайта, который сочетает в себе высокую скорость обновления нового контента и значительную социальную значимость с точки зрения архивирования. Чтобы проверить, насколько хорошо Архив хранит онлайн-новости, были отобраны 20 000 лучших новостных веб-сайтов по объему, отслеживаемого проектом GDELT, и указана страна происхождения для каждого источника. Общее количество часов моментальных снимков было суммировано для всех новостных агентств из каждой страны за 2013, 2014 и 2015 годы и разделено на общее количество отслеживаемых агентств из каждой страны, в результате чего были получены следующие карты среднего количества часов моментальных снимков для каждого новостного агентства. в каждой стране по годам.

Среднее количество часов с хотя бы одним снимком по СМИ для новостных онлайн-агентств по странам в … [+] 2013 г. (Источник: Kalev Leetaru)

Среднее количество часов, в течение которых создается хотя бы один снимок для новостных онлайн-агентств по странам в… [+] 2014 г. (Источник: Калев Литару)

Среднее количество часов с хотя бы одним снимком по СМИ для новостных онлайн-агентств по странам в … [+] 2015 г. (Источник: Kalev Leetaru)

В этой последовательности карт отчетливо видна сильная централизация поисковых ресурсов Архива в отношении относительно небольшого числа стран с точки зрения часов создания моментальных снимков. В 2013 году было всего несколько выбросов, при этом в большинстве стран часы работы каждой торговой точки были относительно одинаковыми.В течение трех лет наблюдается неуклонная переориентация в сторону более неравномерного распределения архивных ресурсов. Значительное географическое изменение с течением времени добавляет еще одно свидетельство того, что поведение поисковых роботов Архива постоянно меняется в корне и не задокументировано.

Взятые вместе, эти результаты предполагают, что требуется гораздо большее понимание машины обратного пути Интернет-архива, прежде чем ее можно будет использовать для надежных научных исследований эволюции Интернета.Историческая документация по алгоритмам и входным данным его поисковых роботов абсолютно необходима, особенно по рабочим процессам и эвристикам, которые сегодня контролируют его архивирование. Одна из возможностей заключается в том, что Архив может создать исторический архив, в котором он сохраняет каждую копию кода и рабочие процессы, приводящие в действие Wayback Machine с течением времени, что дает возможность взглянуть на поисковые роботы 1997 года и сравнить их с 2007 и 2015 годами.

Более подробные данные регистрации также явно необходимы, особенно для тех видов решений, которые приводят к таким ситуациям, как чрезвычайно прерывистое архивирование savy.Это или почему домашняя страница CNN.com не была заархивирована до 2000 года. Если Архив просто открывает свои двери и выпускает инструменты, позволяющие анализировать данные своего веб-архива без проведения такого рода исследований предвзятости коллекции, очевидно, что выводы, которые результат будет сильно искажен и во многих случаях не сможет точно отразить изучаемые явления.

Что мы можем извлечь из всего этого? Возможно, самый важный урок заключается в том, что, как и многие массивные архивы данных, которые определяют мир «больших данных», мы очень мало понимаем, что на самом деле содержится в данных, которые мы используем.Немногие исследователи останавливаются, чтобы задать вопросы, рассматриваемые здесь, и еще меньше архивов предоставляют подробную статистику о своих фондах. Вместо этого, эпоха «больших данных», к сожалению, все чаще определяется сенсационными результатами, полученными на основе наборов данных, взятых с полки без особых попыток понять их внутренние предубеждения.

Еще одна тема — неожиданные открытия. Первоначально этот анализ начинался как исследование практики архивирования новостей в Интернете в Интернет-архиве с целью выяснить, архивирует ли он западные СМИ чаще, чем в других странах.Первоначально ожидалось, что фонды Архива будут отражать популярность и скорость изменения, при этом язык и географическое положение будут основными отличительными чертами. Однако после изучения данных стало ясно, что архивный ландшафт Wayback Machine был намного сложнее.

Интерфейсы, которые мы используем для доступа к этим обширным архивам, часто незаметно трансформируют их способами, которые не очевидны или явно не задокументированы, но могут оказать глубокое влияние на наше понимание результатов, которые мы получаем от них.Например, ни домашняя страница Wayback, ни подробный FAQ не информируют пользователей о том, что количество снимков в веб-интерфейсе сообщает количество отдельных часов с хотя бы одним снимком, а не фактическое количество сканирований страницы Архивом. Этот факт доступен только на странице технической справки по API на Github.

В своем вступительном программном выступлении на Генеральной ассамблее IIPC 2012 года в Библиотеке Конгресса я отметил, что для того, чтобы ученые могли использовать веб-архивы для исследований, нам необходимо гораздо больше информации о том, как эти архивы создавались.Три с половиной года спустя несколько крупных веб-архивов создали такую документацию, особенно касающуюся алгоритмов, которые контролируют, какие веб-сайты посещают их сканеры, как они просматривают эти веб-сайты и как они решают, какие части бесконечной сети сохранить с их ограниченными ресурсами. . Фактически, совершенно неясно, как была построена Wayback Machine, учитывая невероятно неровный ландшафт, который она предлагает среди миллиона лучших веб-сайтов даже за последний год.

Приведенные выше результаты демонстрируют, насколько важен такой вид понимания.При архивировании бесконечной сети с ограниченными ресурсами необходимо принимать бесчисленное количество решений относительно того, какие узкие фрагменты сети сохранить. На самом базовом уровне можно выбрать либо полностью случайное архивирование (выбор страниц без учета каких-либо других факторов), либо архивирование с приоритетом по скорости изменения (более частое архивирование страниц, которые изменяются чаще — хотя это имеет тенденцию подчеркивать динамически генерируемые сайты) или архивирование с приоритетом популярности (это подчеркивает страницы, которые сегодня использует большинство людей, но рискует не сохранить относительно неизвестные страницы, которые могут стать важными в будущем).Человеческий вклад также может сыграть решающую роль, как и в случае со специализированной программой Archive-It.

Каждый подход имеет свои преимущества и риски. Возникает резонный вопрос: через 20 лет, на что мы с большей вероятностью захотим оглянуться, литовский веб-сайт ссуды, поставщик запчастей для батутов или домашнюю страницу главных новостей, таких как CNN? Столь важные решения, как то, что сохранить для будущего, требуют гораздо большего участия сообщества, особенно ученых, которые полагаются на эти коллекции.Учитывая текущее состояние архивов, становится ясно, что их алгоритмы требуют гораздо большей прозрачности и критического взаимодействия с более широким научным сообществом. Мы просто не можем оставить такую важную вещь, как сохранение онлайн-мира, на усмотрение слепых алгоритмов, которым мы не понимаем, как они работают.

Действительно, точно так же, как библиотеки формализовали за тысячи лет, как они принимают решения о приобретении и сборе информации на основе взаимодействия с сообществом, очевидно, что веб-архивы должны применять аналогичные процессы и сотрудничать с широким кругом организаций, чтобы помочь им в этом.Учитывая, что до 14% всех онлайн-новостей, отслеживаемых проектом GDELT, больше не доступны через два месяца, очевидно, что Интернет исчезает на наших глазах, и поэтому крайне важно, чтобы мы лучше выполняли работу по архивированию онлайн world и сделайте это до того, как этот материал будет потерян навсегда.

«Wayforward Machine» позволяет заглянуть в будущее Интернета

Каким может быть будущее Интернета? Поскольку цифровой мир 21-го века становится ямой нежелательной рекламы, отслеживания, платного доступа, небезопасного контента и юридических угроз, «Wayforward Machine» имеет в виду антиутопическую картину.За названием Clickbaity стоит Wayforward Machine — попытка Internet Archive предвидеть хаос, который вот-вот превратится во всемирную паутину.

Internet Archive подозревает, как выглядит Интернет 2046 года

Wayback Machine из некоммерческого Интернет-архива остается чрезвычайно популярным среди пользователей сети, журналистов и архивистов, заинтересованных в том, чтобы узнать, как веб-страница выглядела в прошлом, даже когда страница или целые веб-сайты впоследствии удаляются. Пользователи могут просто перейти на веб-страницу .archive.org , чтобы сохранить веб-страницу или перейти к копии веб-страницы в том виде, в котором она была раньше. Таким образом, Wayback Machine объемом 617 миллиардов страниц стала незаменимым цифровым активом с момента ее создания в 1996 году.

В то время как Wayback Machine позволяет вам вернуться в прошлое , в Internet Archive на этой неделе появилась «Wayforward Machine», делающая противоположное. Тех, кто посещает Wayback Machine, теперь встречает следующий баннер, на котором говорится, что вы перенесетесь на 25 лет в будущее.

«В 25-ю годовщину Интернет-архива мы с нетерпением ждем 2046 года. Будет ли у нас доступ к достоверной информации в Интернете? Будут ли знания бесплатными и открытыми?» заявляет некоммерческая организация.

Машина увеличения / возврата.

На сайте wayforward.archive.org пользователи могут ввести веб-страницу и нажать «Вперед».

Машина для увеличения / продвижения вперед.

Первый взгляд: «Машина будущего» в действии

В наших тестах Ars ожидал, что введет URL-адрес веб-страницы и увидит измененную версию — как она может выглядеть 25 лет спустя.Однако, к нашему разочарованию, наши тесты показали, что ввод практически любой веб-страницы показывает ту же серию всплывающих сообщений, маскирующих и размывающих существующее содержимое веб-страницы, как это выглядит сегодня:

Реклама Увеличить / Вперед Результаты машин для arstechnica.com.

Ars увидел ряд сообщений, появляющихся на Wayforward Machine после ввода URL-адреса:

«Контент на сайте, к которому вы пытаетесь получить доступ, защищен шлюзом Content Truth Gateway.Мы не можем гарантировать точность бесплатного контента », за которым следует форма оплаты фиктивной кредитной картой. В другом сообщении говорилось:« Владелец контента сделал этот контент недоступным в вашем политическом блоке. Авторское право на этот материал было продлено еще на 200 лет, в том числе «.

И тогда становится ясно: вся цель сатирической Wayforward Machine состоит в том, чтобы повысить осведомленность о текущих угрозах Интернету и библиотекам, таким как Wayback Machine, которая играет важную роль в сохранении исторического контента и истины , as это появилось в прошлом.

В прошлом году четыре ведущих книжных издательства страны подали в суд на Internet Archive из-за того, что Wayback Machine хранит отсканированные копии книг, защищенных авторским правом, и делает их общедоступными на сайте под названием Open Library.

«Интернет-архив сталкивается с судебным иском картеля корпоративных издателей, который угрожает вековому праву библиотек покупать, сохранять и предоставлять материалы для публики. Сражаться за мир, в котором библиотеки и учащиеся получают возможность доступа к информации. , присоединяйтесь к нашей кампании #EmpoweringLibraries », — говорится на целевой странице« IA2046 ».

К инициативе присоединились защитники конфиденциальности и группы цифровых прав, включая Electronic Frontier Foundation (EFF), Mozilla, Fight for the Future и Wikimedia Foundation, а также другие крупные игроки.

Для тех, кто предпочитает смотреть Wayforward Machine в действии, вот видео:

Тизер Wayforward Machine.

В сети: The Wayback Machine: Архив Интернета

Сейчас что Интернет создан в публичном информационном пространстве, стать новым средством публикации.Интернет, в частности, оказался невероятным хранилище всех видов информационного контента. Но это также доказало быть очень изменчивой средой, явно лишенной постоянства. Особенно за последние пару лет, поскольку количество отказов новых интернет-компаний выросла, ранее существовавшие веб-сайты прекратили работу, а их информационный контент ушел в прошлое Интернета.

С печатными публикациями, библиотеки и архивы мира приложили немало усилий, чтобы собрать и сохранить элементы печати.Но появление Интернета было настолько внезапным и созданным совершенно новый набор задач для каталогизации, хранения и поиска, что несколько библиотек активно собирают копии веб-страниц. Пока библиотека профессия усердно работала над поиском решений доступной стороны проблемы, веб-страницы были созданы, изменены и умерли без записи тех страниц, которые будут сохранены.

К счастью, Брюстер Alexa Internet компании Kahle и ее дочерняя компания, Internet Archive, имеют проделана колоссальная коллекторская работа.С 1996 года Интернет Архив хранит веб-страницы, включая графические файлы, из общедоступных доступные веб-сайты, просканированные Alexa. С запуском в октябре 2001 г. машины Wayback Machine, этот огромный архив теперь находится в свободном доступе для Интернет-публикация.

НАЗАД ДЕЛАЕТ

Машина обратного пути — это интерфейс к коллекции общедоступных веб-страниц Интернет-архива. Включает в себя более 100 терабайт данных — огромная коллекция с огромными требования к хранению.Wayback Machine открывает доступ к этому богатству данных по URL. Это не поиск по тексту, пользователь должен знать точную URL-адрес конкретной веб-страницы или, по крайней мере, веб-сайта, чтобы иметь возможность войти архив.

При входе в Адрес в Интернете, Wayback Machine представляет список дат с указанием когда эта конкретная страница была заархивирована. Проверка на домашней странице для Библиотека Конгресса находит заархивированные страницы с 9 ноября 1996 г. вчера.В 1996, 1997, 1998 и 1999 годах страниц намного меньше. архивы. В 2001 году был экземпляр почти через день.

Щелкните по одному из отображаемые даты, чтобы увидеть заархивированную страницу. Звездочка после некоторых из даты используются для обозначения того, когда Интернет-архив обнаружил изменение на странице. Предположительно, все эти списки без звездочки должны быть точно таким же, как первая перед ними страница, отмеченная звездочкой.

Обратите внимание, что URL для заархивированной страницы начинается с web.archive.org. В отличие от кешированных файлов в Google Wayback Machine также включает в себя большинство файлов изображений в архиве. Таким образом, изображения берутся не с текущего сервера, а с Интернет-архив. Это означает, что на заархивированной странице будет отображаться гораздо более точно, как страница выглядела в этот конкретный день.

Кроме того, все ссылки на заархивированной странице указывают не на исходное место ссылки, но на другие страницы Интернет-архива.Итак, пока Wayback Machine недоступен для поиска, его можно просматривать. Найдите заархивированную страницу 1997 года, щелкните любую ссылку на этой странице, и Wayback Machine примет вы перейдете к ближайшему (по дате) архиву доступной страницы. В таким образом, пользователь может просматривать веб-сайт в том виде, в каком он появился в определенном временной период.

Расположение сам Wayback Machine переместился между несколькими URL-адресами во время первые несколько месяцев. Оба http: // web.archive.com и http://archive.alexa.com работали раньше, но теперь все они перенаправляют на www.archive.org , дом самого Интернет-архива.

ПОЧЕМУ НАЗАД

Есть много использует для невероятного архива от Wayback Machine. На очень простом уровне, это отличный источник для поиска информации на страницах, когда страница или сам хост недоступен.Когда вы сталкиваетесь с ошибкой «404 не найден» или похожее сообщение в Интернете, просто проверьте Wayback Machine, чтобы найти копия страницы в том виде, в котором она выглядела раньше. Кеш Google был единственным вариант для этой функции, но кешированные страницы ограничены отсутствием любой записи о дате, когда они были кэшированы. Wayback Machine делает это намного проще, если четко указать дату, когда страница была заархивирована.

Исторический Значение Wayback Machine огромно.Исторические исследователи теперь может просматривать значительную часть Интернета, существовавшую в разное время. с 1996 г. по настоящее время. Исторические преимущества выходят далеко за рамки чисто историческое исследование. Специалисты по поиску патентов могут проверить уровень техники. Бизнес эксперты могут ознакомиться с бизнес-планами несостоявшихся компаний. Работодатели могут расследовать студенческие веб-страницы соискателей вакансий. Источники потеряны из-за сложного URL переключение можно найти по их старому URL-адресу на Wayback Machine.

Возможность просматривать диапазон версий конкретной страницы и просматривать заархивированные сам сайт предлагает множество вариантов использования.Новый веб-дизайнер может посмотреть предыдущие воплощения сайта, даже если сама организация никогда не архивировала различные версии. Новый бизнес может взглянуть на своих конкурентов на раннем этапе конструкции и избегайте тех же ошибок. И исследователь, который пытается отследить онлайн-ресурсы из библиографии четырехлетнего ребенка бумага может найти их в архиве, даже если они иным образом исчезли из текущего Интернета.

Для учреждений, Интернет-архив приветствует совместные усилия по созданию специальных тематических коллекции.Уже доступны три коллекции: Сентябрь. 11, сборник 2001 г., Web Pioneers и Election 2000. В качестве дополнительных сборников созданы, они могут быть особенно полезны для более глубокого исследования по этим темам.

РАСШИРЕННАЯ ФОРМА

Базовый доступ к архив находится по одному URL-адресу, но Wayback Machine также имеет расширенный форма поиска. На него нет ссылок на главной странице, но он доступен как ссылку мелким шрифтом в верхней части формы поиска, которая появляется с результаты после ввода поиска.Посмотрите вправо от «Take Me Back »на страницах из архива Библиотеки Конгресса США. также напрямую доступен (http://web.archive.org/collections/web/advanced.html) .

Пока есть по-прежнему нет возможности текстового поиска в форме расширенного поиска, она делает предлагает ряд вариантов помимо простого поля на домашней странице. Например, расширенная форма позволяет использовать два типа URL Matching «Получить страницу, наиболее точно соответствует критериям поиска »и« Перечислить все страницы, соответствующие поиску. критерии.»Последний вариант используется по умолчанию в простой форме и вызывает список совпадений дат. Первый вариант ведет пользователя непосредственно к наиболее последняя копия заархивированной страницы.

Расширенный поиск форма также дает возможность ограничить результаты определенным диапазоном дат. Отдельные заархивированные страницы имеют URL-адреса, на которые можно напрямую ссылаться. На странице расширенного поиска также объясняется синтаксис. Например, URL web.archive.org/20011230221317/http:// www.site.net будет www. site.net страничный архив 30 декабря 2001 г., 22:13. и 17 секунд. В других слова, длинный список чисел после части archive.org представляет год, месяц, день, час, минута и секунда, когда страница была заархивирована в форма ГГГГММДДччммсс.

В дополнение к заданные в сценарии ограничения даты, доступные в расширенной форме, звездочка может также использоваться как символ усечения в URL-адресе. Итак, http: //web.archive.org / 200112 * / http: //www.site.net получит список всех заархивированных страниц с декабря 2001 года. звездочку, и Wayback Machine автоматически найдет страница, ближайшая к середине месяца. Символ усечения также может использоваться для поиска всех страниц сайта за определенную дату. В других слов, web.archive.org/1997*/http://www.site.net* находит все URL сайтов (страниц и изображений) в архиве с 1997 года.

ФОРМАТЫ ФАЙЛОВ И НИКНЕЙМЫ

Расширенный поиск форма также указывает на то, что Wayback Machine обеспечивает доступ к более чем просто веб-страницы.Ограничение типов файлов включает шесть форматов: изображения, аудио, Видео, двоичный, текстовый и PDF. Выбрав один из этих типов файлов, а затем введя только корневой URL (с полным именем хоста), результаты будут включить в архив все типы файлов этого формата с этого хоста. Каждая запись отдельного типа файла имеет уникальный URL-адрес, но если поисковик не знает полного URL-адреса, это ограничение помогает их идентифицировать. Кроме того, его можно использовать как инструмент для подсчета количества файлов определенного типа на конкретный сервер.

Псевдонимы еще одна приятная функция по расширенному поиску. Многие веб-сайты имеют несколько способы написания URL-адреса, который приведет к одной и той же странице, особенно на главной странице. Раздел «Псевдонимы» расширенного поиска дает три параметры. По умолчанию все псевдонимы имен хостов группируются вместе, для большей части комплексный поиск. Однако есть второй вариант «Показать псевдонимы отдельно» даст точные совпадения только для URL, введенного со списком другие псевдонимы, в то время как «Не показывать псевдонимы» будут давать только точные совпадения.

ОГРАНИЧЕНИЯ

При распознавании значительным достижением Wayback Machine, у нее действительно есть ограничения. Даже со 100 терабайтами данных многого не хватает. Интернет-архив включает лишь небольшое количество материалов за 1996 год, и Интернет определенно предшествует этому. Кроме того, более старый контент суслика и другие файлы, не относящиеся к Интернету, недоступны.

Более значительные — это организованные исключения.Кто угодно может исключить свои страницы с помощью использование роботов. txt на своем сервере. Если Интернет-архив включает ваши веб-страницы, и вы хотите, чтобы они были исключены, просто добавьте файл robots.txt в исключить их поискового робота. При следующем сканировании вашей страницы все старые страницы в архиве также будут исключены. См. Www.archive.org/internet/remove. html для получения более подробной информации.

К сожалению, слишком много сайтов имеют файл robots.txt, исключая сканирование или архивирование.По крайней мере, когда пользователь запрашивает страницу, которая была исключена из-за файла robots.txt. файла Wayback Machine объясняет, почему страница была исключено и ссылается на архивную копию файла robots.txt сайта.

Процесс архивирования есть некоторые проблемы. Большинство изображений заархивированы, но некоторые по-прежнему указывают на исходный источник и, таким образом, могут оказаться мертвыми ссылками или измененным изображением файлы. Другие изображения или объекты на веб-странице, особенно при высокой посещаемости сайты, могут быть связаны с версией сетевого кэширования с URL-адресом на Akamai хост, например.Таким образом, некоторые изображения на некоторых страницах будут отсутствовать.

И обратный путь не будет Машина всегда будет в наличии. После первого запуска часто появлялось сообщение заявляя, что из-за «большего, чем ожидалось, количества запросов» Wayback Машина вышла из строя. В других случаях вы можете наткнуться на «Этот Интернет-архив сайт в настоящее время закрыт на техническое обслуживание ».

Учитывая огромную размер архива, еще одна проблема — долгосрочная финансовая жизнеспособность машины Wayback.Кроме кнопки Amazon для пожертвований, есть на сайте нет рекламы, и Alexa не поддерживает это финансово. Согласно Брюстеру Кале, частному сбору средств, фондам и грантам в настоящее время поддержите это. Кале говорит, что у них «достаточно, чтобы поддерживать Wayback Machine, но этот рост будет зависеть от финансовой поддержки через совместные проекты ».

Кале должна быть хвалили за попытки поддержать Wayback Machine, больше похожую на традиционную библиотека или архив, в отличие от типичного коммерческого веб-проекта.В на главной странице перечислены несколько доноров, включая AT&T Research, Compaq, Prelinger Архивы, QuantumDLT и Xerox PARC. В конце концов, Кале надеется, что Интернет Архив может «обеспечить всеобщий доступ к человеческим знаниям. Это наша цель. в жизни.»

Замечательный и достойная цель. И хотя Wayback Machine имеет множество ограничений и исключает огромное количество как онлайн, так и печатных знаний, это, безусловно, важный шаг вперед в обеспечении доступа к большой части этих знаний который находится во всемирной паутине.

Грег Р. Нотесс ( [email protected] ; www.notess.com/ ) является справочным библиотекарем в Государственном университете Монтаны и основателем SearchEngineShowdown.com .

Комментарии? Эл. адрес редактор [email protected] .

Работает! Руководство: Как удалить свой сайт из интернет-архива (Wayback Machine / Archive.org): Джошуа Лоукок

Заявление об ограничении ответственности.Я не связан с Internet Archive, Brave, и это мой личный опыт. Я не оказываю поддержки или помощника по удалению вашего сайта или страницы. Я также не могу удалить ваш сайт. На этой странице нет рекламы, поэтому я не зарабатываю, рассказывая вам об этом. Если вы нашли это полезным и хотите сказать спасибо, почему бы не купить мне кофе или мою книгу на Amazon. Спасибо!

Фон

Если вы торопитесь, прокрутите вниз до раздела «5 простых шагов, чтобы удалить свой веб-сайт из архива».org

Я был удивлен, когда браузер Brave объявил, что они сотрудничают с Wayback Machine / Archive.org в отношении ошибок 404. Кажется, это противоречит принципам конфиденциальности Brave и законам некоторых стран, которые не имеют права быть забытыми.

Я получаю, что страницы 404 могут расстраивать пользователей, но как бывший сотрудник крупного издателя и нынешний разработчик веб-сайтов, страницы 404 важны для удаления устаревшего или ошибочного контента и обеспечения того, чтобы люди (и сканеры) подписывались на старые обратные ссылки не рекомендуют ссылки и т. д.Кроме того, поддержание бесчисленных перенаправлений на огромном сайте может стать сложным, вместо этого лучше иметь дружественные страницы 404.

Ответственность за обработку ошибки 404 должна лежать на издателе / разработчике. Я принимаю решение либо перенаправлять в нужное место на сайте (или нет), и я не согласен с тем, что Brave выводит на поверхность контент, который издатель намеренно удалил или удалил контент. Да, Brave не делает того, что люди не могут сделать сами вручную или через плагины. Беспокойство вызывает автоматизация.

Есть также проблемы с безопасностью — старые домены и страницы с истекшим сроком действия являются целью SEO-злоупотреблений, доменов и мошенничества с ошибкой 404. Существует опасность, что менее технически сообразительные люди могут оказаться перенаправленными Brave на устаревший контент и в результате принять неверное решение. Мои потребности как правообладателя со временем менялись, поэтому то, что когда-то можно было архивировать, в настоящее время не так.

Для ясности, я не являюсь anti-Archive.org. Я провожу семейно-историческое исследование и считаю этот сайт ценным.Просто владельцы контента должны иметь возможность выбора и контроля над тем, как они участвуют. Итак, вот как удалить ваш сайт из Internet Archive / Wayback Machine / Archive.org

Шаги по удалению вашего сайта из Интернет-архива / Wayback Machine / Archive.org

Пожалуйста, прочтите эти 5 простых и проверенных шагов по удалению вашего сайта из Internet Archive / Wayback Machine / Archive.org.

Я предоставил подробные сведения, если вы прокрутите вниз, но ключевые 5 шагов для удаления вашего сайта из архива.org ниже:

Обновите файл robots.txt на своем веб-сайте, чтобы заблокировать Internet Archive / Wayback Machine / Archive.org Crawler / Проверьте свое уведомление об авторских правах
Составьте проект уведомления о нарушении закона США «Об авторском праве в цифровую эпоху» (DMCA) с конкретными ссылками на сайты / страницы, которые вы хотите удалить из Internet Archive / Wayback Machine / Archive.org
Найдите старый счет, в котором указана самая старая дата владения доменом.
Составьте и отправьте вежливое электронное письмо с прикреплением 2. и 3. к Интернет-архиву / Wayback Machine / Archive.org Crawler
Подождите 3-5 дней

Я предоставил подробности ниже с дополнительной информацией для выполнения каждого простого шага по удалению вашего веб-сайта с Archive.org и ссылки, если вам нужна помощь. Честно говоря, мои результаты всегда были неоднозначными, и это одно из моих разочарований в Internet Archive. Обновление сайта иногда приводило к тому, что мой файл robots.txt подвергался ядерной атаке, и я обнаруживал, что снова нахожусь на Archive.org. Я бы хотел, чтобы Archive.org давал издателям возможность проверить ваш домен для удаления или использовать инструмент для веб-мастеров, подобный тому, что можно найти в Google / Bing.

Шаг 1. Robots.txt для блокировки сайта из Интернета Архив / Wayback Machine / Archive.org / Проверить уведомление об авторских правах

Если вам очень интересно, вы можете узнать больше о robots.txt здесь.

Archive.org неоднозначно относится к robots.txt, но уважает их.

Убедитесь, что вы добавили это в конец существующего файла robots.txt, не удаляйте существующие записи.

 Агент пользователя: ia_archiver
Disallow: /

Если вы не знаете, как редактировать файл robots.txt, а затем обратитесь к своему хостинг-провайдеру или разработчику веб-сайта.

Если вы используете WordPress, этот бесплатный плагин WordPress Archive.org Blocker сделает все, что вам нужно, чтобы заблокировать Archive.org от WordPress. Установите, активируйте и готово. Если вы уже используете плагин robots.txt, вы можете добавить приведенный выше код в конец существующего файла robots.txt.

Пока вы вносите эти изменения, самое время проверить, есть ли на вашем сайте действующее Уведомление об авторских правах. Большинство систем управления контентом помещают это на ваш сайт автоматически.

Шаг 2: Уведомление о нарушении Закона США «Об авторском праве в цифровую эпоху» в Интернете Archive / Wayback Machine / Archive.org

DMCA — это сокращение от Закона о защите авторских прав в цифровую эпоху. Это часть законодательства США, призванная помочь правообладателям защитить свою интеллектуальную собственность. Даже если вы не живете в США, вы можете использовать уведомление DMCA, чтобы удалить контент из Internet Archive / Wayback Machine / Archive.org.

Я #NotALawyer, поэтому, если вы столкнулись с серьезной проблемой с архивным содержанием, обратитесь к своему юрисконсульту.Это также не юридическая консультация, поэтому, если этот шаг заставляет вас нервничать, лучше всего обратиться к эксперту. Те, кто читал эти инструкции, говорили мне, что вы можете пропустить этот шаг DMCA и по-прежнему добиться успеха. Ваш пробег может отличаться.

Чтобы создать уведомление о нарушении закона США «Об авторском праве в цифровую эпоху» (DMCA), я использовал бесплатный инструмент DMCA Generator от Who Is Hosting This. В противном случае используйте этот генератор уведомления о нарушении закона США «Об авторском праве в цифровую эпоху» (DMCA) из штаб-квартиры интеллектуальной собственности.

Я хочу еще раз подчеркнуть, что уведомления DMCA являются юридическими документами, поэтому убедитесь, что вы полностью осведомлены о том, что делаете.

Форма DMCA проста, но убедитесь, что вы вставили столько адресов веб-сайтов с Archive.org, которые соответствуют датам владения доменом и содержимому, которое вы хотите удалить.

Шаг 3. Демонстрация истории владения доменом в Internet Archive / Wayback Machine / Archive.org

Если вы запрашиваете удаление всего домена или веб-сайта из Archive.org, может потребоваться подтверждение права собственности на домен. Archive.org не обеспечивает автоматическую проверку права собственности, такую как изменение записи DNS, кода веб-сайта или загрузки файла.Вам нужно будет найти старый счет / квитанцию от вашего регистратора домена, подтверждающий право собственности.

Большинство хостинг-провайдеров предоставляют доступ к истории счетов, поэтому вам нужно будет войти в свою учетную запись, чтобы получить их. В худшем случае может потребоваться электронное письмо в бухгалтерию вашей хостинговой компании.

Если вы торопитесь, вы можете попробовать и пропустить этот шаг и посмотреть, как Archive.org отреагирует, но будьте готовы к тому, что они запросят эту информацию. Один из способов избежать проблемы — отправить запрос с адреса электронной почты, связанного с доменом.

Тем не менее, я настоятельно рекомендую вам отправить подтверждение права собственности как часть запроса. Archive.org может расстроить, если ваш домен сменил хосты, регистраторов и т. Д. В течение периода запроса, который они проверяют по записям общедоступного домена. Если вы забудете свой исходный регистр или хост, я бесплатно проведу проверку истории домена, чтобы освежить вашу память.

Если вы не являетесь владельцем домена, вы не сможете удалить сайт из Интернет-архива.

Шаг 4: Электронная почта с запросом Интернет-архива / Wayback Machine / Archive.org удалите ваш сайт

Адрес электронной почты для запросов на удаление Archive.org: [email protected], но не отправляйте их по электронной почте, если вы не выполнили шаги 1-3.

лучше , если ваша электронная почта приходит из домена, о котором вы пишете. Например, если вы хотите удалить Google.com, у вас должен быть адрес электронной почты @ google.com. По моему опыту, Archive.org ответит на запрос с адреса электронной почты, отличного от домена, который вы запрашиваете, но они могут потребовать дополнительных шагов проверки.

Отправка запроса из бесплатного почтового сервиса, такого как Gmail, Outlook.com и т. Д., Почти гарантированно замедлит работу. Это одна из причин, по которой я рекомендую шаг 3, поскольку он предоставляет дополнительную информацию, когда вы делаете запрос.

Вот некоторые предлагаемые формулировки для запроса на удаление / удаление домена Archive.org, где:

[Your_Name] следует заменить на ваше имя и
[Your_Domain] с соответствующим доменным именем.
[Start_Date] с датой, с которой вы хотите удалить домен, и может подтвердить право собственности на домен.

Я рекомендую отправлять отдельное уведомление для каждого домена, не пытайтесь делать все сразу.

Тема

 Официальный запрос на удаление [Your_Domain] с машины обратного доступа к Интернет-архиву

Кузов

 Привет

Я [Your_Name] владелец [Your_Domain].

Я официально прошу немедленно удалить сайт / домен [Your_Domain] с web.archive.org и с Internet Archive Wayback Machine.
Пользовательский агент: ia_archiver Disallow: / code в нашем файле robots.txt не отслеживается. Уведомление об авторских правах на этом сайте можно найти здесь [Your_Domain]

Я запрашиваю удаление [Your_Domain] с [Start_Date] до сегодняшнего дня включительно и всех последующих дней.

Прилагается официальное уведомление DMCA, а также доказательства того, что я являюсь владельцем [Your_Domain].

Спасибо за внимание.

[Your_Name]

Не забывайте! , чтобы приложить уведомление DMCA, которое вы создали на шаге 2, и подтверждение права собственности на шаге 3.

Шаг 5. Подождите и отслеживайте Archive.org

После того, как вы отправите электронное письмо, вам нужно будет подождать. У меня время ответа не превышало 24 часов, а в некоторых случаях это занимает несколько дней. Archive.org ответит, просто помните, что они находятся в США (Калифорния), поэтому убедитесь, что вы учитываете тихоокеанское время США, выходные и основные праздники США. Будьте терпеливы, вежливы, но тверды. Если вы не получите ответа через 3 дня, возможно, потребуется вежливое письмо с ответом.

По моему опыту, если вы сделаете все, что указано выше, вы получите ответ в течение 5 дней.После того, как они ответят, пройдет около недели, прежде чем содержимое будет удалено с Archive.org

Другие подсказки

Internet Archive / Wayback Machine / Archive.org удалит только те страницы и сайты, с которых вы стали владельцем, а не только потому, что теперь у вас есть право собственности. Это действительно важно. Так что, если вы купили старый домен, вам не повезло с чем-либо старше того дня, когда вы начали владеть.
Я нашел людей из Internet Archive / Wayback Machine / Archive.организация дружелюбна. Так что будьте вежливы. Они действительно хотят помочь, и все, что они просят, — это прояснение проблемы. Они отвечают только в рабочее время в США. Так что проявите терпение (минимум 3 рабочих дня).
Нет срочного процесса. Я не могу больше ничего сказать, кроме как если вам нужно, чтобы это было сделано быстро, я разделяю ваше разочарование. Если есть юридическая причина, по которой вам нужно что-то быстро удалить, вам действительно стоит обратиться к юристу.
У меня нет опыта удаления содержимого из архива.org, где вы не являетесь владельцем домена, например, если домен нарушил ваши авторские права и теперь ваш контент находится в архиве. Я #NotALawyer и рекомендую вам получить юридическую консультацию, если ваша проблема касается вашего контента, а не вашего домена.
Этот последний совет так же важен для меня, как и для всех остальных. Если вы хотите всегда блокировать Internet Archive / Wayback Machine / Archive.org, убедитесь, что вы обновляете свой robots.txt. Гораздо проще обновлять robots.txt и блокировать архив.org, чем удалять страницы.
Интернет-архив представляет ценность, поэтому не удаляйте свой сайт, если вы действительно не чувствуете в этом необходимость. Может быть лучше просто удалить определенные страницы.
Если вы хотите удалить свои данные из брокеров данных, вам нужно будет использовать что-то вроде OneRep.

И последнее…

Я не связан с Internet Archive, Brave, и это мой личный опыт. Я не оказываю поддержки или помощника по удалению вашего сайта или страницы. Я тоже не могу удалить ваш сайт. На этой странице нет рекламы, поэтому я не зарабатываю, рассказывая вам об этом. Если вы нашли это полезным и хотите сказать спасибо, почему бы не купить мне кофе или мою книгу на Amazon. Спасибо!

Интернет-архив

начинает кампанию против регулирования Интернета • Регистр

Internet Archive начал кампанию против технического регулирования, установив Wayforward Machine, наполовину пародируя свой знаменитый сайт архивации Wayback Machine.

The Wayforward Machine рисует картину Интернета в 2046 году, испачканную цензурой, регулированием, вмешательством правительства и многим другим.

При вводе любого хорошо известного веб-адреса в Wayforward Machine зрителю открывается ряд всплывающих окон — все они предполагают кошмарное будущее, в котором господствует государственная слежка, а конфиденциальность сильно осуждается.

При посещении веб-сайта BBC появляется всплывающее окно с сообщением: «Контент на сайте, к которому вы пытаетесь получить доступ, защищен шлюзом Content Truth Gateway» при попытке связаться с Google.com показывает, что шоколадная фабрика перестала функционировать после того, как перестала существовать регулируемым образом — возможно, предназначенная как единственный свет в конце туннеля, а не как знак сокрушительного поражения свободы.

The Internet Archive’s Wayforward Machine, на домашней странице Google. Нажмите для увеличения

Сайт был запущен в ознаменование 25-летия IA и посвящен исследованию того, как Всемирная паутина может выглядеть через четверть века. Многие читатели Reg вспомнят те безмятежные дни 1996 года, когда Microsoft шаталась от обвинений в нарушении законов о конкуренции, Google и Facebook не существовали, а социальные сети как концепция вращались вокруг интернет-форумов — или IRC для технически подкованных.

Мы сопротивление!

Помимо Wayforward Machine, IA также опубликовало график событий, которые могут пойти не так для американской части Интернета, включая отмену раздела 230 Закона США о приличии в коммуникациях, который защищает хосты и операторов платформ от законной несет ответственность за контент, созданный пользователями.

Хронология довольно истерична (пример: «2027 год: вслед за новыми законами об авторском праве Википедия сталкивается с множеством судебных исков за то, чтобы сделать« факты, защищенные авторским правом », в свободном доступе.Он вынужден отключиться во всех централизованных сетях, но статьи по-прежнему пишутся и доступны в децентрализованной сети «) в его попытке передать серьезное сообщение о чрезмерном регулировании, наносящем вред всемирной сети в том виде, в каком мы ее знаем.

Это также отклоняется от более мрачных прогнозов («2030 год: студенты с низким доходом не получают высшего образования»), которые меньше связаны с регулированием Интернета, и заканчивается запиской в стиле Mad Max : «2046: Загнанные в подполье, Активисты Интернет-архива организуют сопротивление.«

Регулирование Интернета — особенно актуальная тема в настоящее время. В последние годы призывы США регулировать технологические компании становятся все громче, в то время как в Великобритании обещанный закон о безопасности в Интернете, похоже, сделает использование Интернета гораздо более небезопасным благодаря обязательной проверке возраста, которая является основной опорой правительственной кампании. для регулирования (в основном) технологических компаний США.

Если все это вас недостаточно удручает, IA также создало учетную запись в Твиттере, основанную в 2046 году, что делает творчество Эдгара Аллана По похожим на ежегодник мистера Бина.Мы предоставим вам это самому, дорогой читатель. ®

Как восстановить ваш контент с Wayback Machine (Интернет-архив)

Если ваш веб-сайт был утерян или взломан, у вас может возникнуть неприятная задача по восстановлению контента. Мы всегда рекомендуем делать регулярные резервные копии вашего сайта, но если они недоступны, у вас есть другой вариант.

Интернет-архив, также известный как Wayback Machine, периодически делает снимки многих сайтов в Интернете и может иметь копию вашего сайта.Итак, следуйте инструкциям, и мы научим вас искать архивы и восстанавливать ваш контент с Wayback Machine . Затем вы можете использовать эти части для восстановления своего сайта с нуля.

Создаете новый сайт? Мы рекомендуем использовать WordPress с BoldGrid. Он очень прост в использовании и включен в наши пакеты хостинга WordPress.

Поиск в архивах

Посетите Wayback Machine по адресу https://archive.org/web.
Введите свой веб-адрес в поле поиска и нажмите кнопку Обзор истории .В нем будет указано, сколько раз ваш сайт сохранялся за определенный период времени. Например:
“ Сохранено 34 раза с 9 ноября 2008 г. по 28 мая 2019 г. “
Вы также увидите временную шкалу и календарь. Щелкните год , чтобы увидеть, когда ваш сайт был заархивирован.
Щелкните дату в календаре, чтобы просмотреть снимок того, что было сохранено. Вы можете попробовать перемещаться по сайту, чтобы просмотреть любой доступный контент. Имейте в виду, что он может выглядеть не так, как ваш сайт, поскольку это зависит от того, что было заархивировано в то время.
Я рекомендую проверять каждые год и дату , чтобы убедиться, что вы найдете все содержимое.

Копировать содержимое вручную

Теперь, когда вы знаете, как искать и находить снимки своего веб-сайта, вы можете начать копировать текст и изображения на свой компьютер.

Перейдите на каждую страницу сайта и скопируйте текст, затем вставьте его в текстовый редактор, такой как Notepad , Google Docs или MS Word .
Посетите каждую страницу в Интернет-архиве, затем щелкните правой кнопкой мыши и сохраните любых изображений, которые вы хотите восстановить, в папку на вашем компьютере.
В некоторых случаях вам удастся восстановить часть кода веб-сайта. Щелкните правой кнопкой мыши , затем выберите Просмотреть исходный код страницы , чтобы получить доступ к коду сайта. Сохраните в текстовом редакторе для дальнейшего использования.

Очистка содержимого интернет-архива

Если у вас нет времени вручную копировать каждую страницу восстанавливаемого веб-сайта, другой вариант — извлечь или очистить все содержимое сайта с помощью сценария.Ниже приведены некоторые из наиболее популярных доступных вариантов. Имейте в виду, что они часто кодируются третьими сторонами или отдельными лицами, и для их успешной работы может потребоваться тестирование и устранение неполадок.

Сторонние службы

Хотите сэкономить время? Вы можете заплатить сторонней службе, чтобы очистить и восстановить ваш сайт за вас. Некоторые даже восстанавливают контент из CMS, например WordPress. Цены и объем услуг будут отличаться в зависимости от сайта, поэтому мы рекомендуем проверить и сравнить их, чтобы увидеть, какой из них лучше всего соответствует вашим потребностям.

Сайт машина времени интернета: Internet Archive 25th Anniversary – Universal Access to All Knowledge

Роскомнадзор заблокировал «машину времени» интернета

Что такое Веб-архив (Web Archive) и как его использовать

Что такое Web Archive и зачем он нужен

Как пользоваться веб-архивом

Как сохранить текущую версию сайта в веб-архиве

Статья по теме:

Как запретить добавление сайта в веб-архив

Как восстановить сайт из веб-архива

Скопируйте контент вручную

Скопируйте контент с помощью скрипта

Обратитесь к сторонним службам

Что запомнить о веб-архиве

На каких серверах держится Архив Интернета? / Блог компании VDSina.ru / Хабр

На правах рекламы

Как удалить сайт из интернет-архива Wayback Machine

Вопросы и ответы по Amazon EC2 – Amazon Web Services

Как узнать вид сайта в прошлом через WebArchive

Как пользоваться веб-архивом

Какие сайты попадают в веб-архив

Чем будет полезен веб-архив для вас

Несколько фактов о веб-архиве

Машина времени для web-сайтов. Обзор сервиса. | PingMeUp

Альтернативы машинам с обратным ходом 10 — Цифровой траулер

Успешно, вы получите электронное письмо с доступом.

Успешно, вы получите электронное письмо с доступом.

Какая часть Интернета выполняет обратную связь Действительно архив?

«Wayforward Machine» позволяет заглянуть в будущее Интернета

Internet Archive подозревает, как выглядит Интернет 2046 года

Первый взгляд: «Машина будущего» в действии

В сети: The Wayback Machine: Архив Интернета

Работает! Руководство: Как удалить свой сайт из интернет-архива (Wayback Machine / Archive.org): Джошуа Лоукок

Фон

Шаги по удалению вашего сайта из Интернет-архива / Wayback Machine / Archive.org

Шаг 1. Robots.txt для блокировки сайта из Интернета Архив / Wayback Machine / Archive.org / Проверить уведомление об авторских правах

Шаг 2: Уведомление о нарушении Закона США «Об авторском праве в цифровую эпоху» в Интернете Archive / Wayback Machine / Archive.org

Шаг 3. Демонстрация истории владения доменом в Internet Archive / Wayback Machine / Archive.org

Шаг 4: Электронная почта с запросом Интернет-архива / Wayback Machine / Archive.org удалите ваш сайт

Шаг 5. Подождите и отслеживайте Archive.org

Другие подсказки

И последнее…

начинает кампанию против регулирования Интернета • Регистр

Мы сопротивление!

Как восстановить ваш контент с Wayback Machine (Интернет-архив)

Поиск в архивах

Копировать содержимое вручную

Очистка содержимого интернет-архива

Сторонние службы

Добавить комментарий Отменить ответ