Разное

Архив веб страниц: архив.ру | архивные копии сайтов

01.08.2003

Содержание

Веб Архив — О сервисе

Вебархив.ру | WEB ARCHIVE представляет собой электронную интернет библиотеку, осуществляющую сбор и хранение архивных копий сайтов.

Доступ к Архиву Интернет предоставляется бесплатно всем желающим.

Программный комплекс предназначен для доступа к архивным копиям страниц (сайтов) в сети Интернет, хранящимся в архиве Интернет, в том числе текста, фотоизображений, графических изображений, размещенных на страницах сайтов.

С помощью Вебархив можно получить доступ к копиям интернет-страниц или даже целым сайтам по состоянию на определенную дату в прошлом.

Веб архив функционирует как готовое программное решение. Программный комплекс по доступу к архивным копиям сайтов в сети Интернет «Веб-архив.ру» обеспечивает выполнение следующих функций:

  • Направление электронных запросов к Архиву Интернет (Internet Archive 300 Funston AvenueSan Francisco, CA 94118) в отношении архивных копий страницы, адрес которой задается пользователем в интерфейсе Программного комплекса на сайте https://web-arhive. ru
  • Получение ответа от Архива Интернет о количестве, дате и времени создания архивных копий страницы, адрес которой задан пользователем.
  • Отображение архивной копии страницы в сети Интернет в интерфейсе браузера с указанием даты и времени создания архивной копии.
  • Обеспечение технического взаимодействия с сервисом автоматической фиксации доказательств в Интернет WEBJUSTICE (screenshot.legal) для фиксации информации отображаемой на архивной копии заданной интернет-страницы в виде графического образа (скриншота) и формирования архивной справки.

Программный комплекс Веб-архив.ру зарегистрирован Роспатентом в реестре программ для ЭВМ, что подтверждается Свидетельством №2016616556 от 15 июня 2016 г. о государственной регистрации Программы для ЭВМ «Программный комплекс по доступу к архивным копиям сайтов в сети Интернет «Веб-архив.ру» версия 1.0»

Данные из Интернет-архива могут быть использованы для личных, научных, образовательных и иных целей, а также для доказывания определенных обстоятельств по различным судебным спорам, например связанным с защитой прав на объекты интеллектуальной собственности.

Чаще всего сведения из Архива Интернет используются в качестве доказательств по делам о защите прав на объекты интеллектуальных прав, по делам о защите чести, достоинства и деловой репутации, а также по другим категориям дел.

Как правило, Вебархив используется для подтверждения следующих фактов:

  • Наличие или отсутствие правонарушения
  • Длительность правонарушения
  • Характер и обстоятельства правонарушения
  • Иные факты, имеющие правовое значение

Подробнее об использовании данных из Архива Интернет юристами для защиты в суде читайте в блоге Вебджастис.

При необходимости информация об архивных страницах может быть выдана в виде Архивной справки. Формирование и выдача Архивных справок осуществляется за плату сервисом автоматической фиксации доказательств в сети Интернет «WEBJUSTICE» (screenshot.legal) при техническом взаимодействии с Вебархив.ру.

Создаём личный «Архив интернета» / Хабр

Как показала история, сеть из миллиардов связанных между собой документов — очень хрупкая и эфемерная система. Странички живут недолго. Если нашли интересную страницу, сайт или видео — нельзя просто сделать закладку и надеяться, что контент по ссылке останется доступен в будущем. Не останется. Информация исчезнет, ссылки изменятся, домены сменят владельцев, статьи на Хабре спрячут в черновики. У каждой страницы свой срок жизни. Ничто не вечно под луной, и ничего с этим не поделать.

К счастью, у нас есть инструменты, чтобы сохранить информацию на десятилетия. Свой персональный архив, полностью под контролем, со всеми сайтами и актуальными страницами. Отсюда никто ничего не удалит без вашего ведома, никогда.

Вымирание ссылок

Вымирание ссылок — известный феномен. У большинства СМИ и других организаций

нет политики долговременного сохранения информации

. Они просто публикуют веб-страницы — и забывают про них. На старые страницы всем плевать, сменят они адреса или исчезнут навсегда. Неудивительно, что именно так и происходит.

Анализ внешних ссылок New York Times с 1996 по 2019 годы показал вымирание ссылок на уровне примерно 6% в год. По итогу с 1996 года пропало около 70% веб-страниц.

Проверка ссылок в научных статьях показала вымирание 23—53% в статьях с 1993 по 1999 годы.

Проверка проводилась в 2001 году. Наверняка сейчас, двадцать лет спустя, в тех статьях осталось ещё меньше живых ссылок. В 2016 году другая проверка источников в научных статьях с 1997 по 2012 годы показала, что по 75% ссылкам контент исчез или изменился, а снапшоты в веб-архивах остались только для трети пропавших страниц.

Для решения этой проблемы был создан Архив интернета и знаменитая Машина времени (Wayback Machine). Мотивация такая, что мы обязаны сохранить существующий контент для будущих поколений, иначе он безвозвратно исчезнет.

Но в Архив интернета попадают далеко не все страницы. В кэш Google попадает больше, но там определённый срок хранения. И никакой гарантии, что сохранится именно нужная информация. Так что лучше взять дело в свои руки — и создать собственный архив.

Инструменты для веб-архивирования

Существует ряд опенсорсных программ для веб-архивирования. Возможно, самый полный список таких проектов собран

здесь

. Есть также

таблица

со сравнением функциональности инструментов. Вот небольшой список некоторых проектов:

Архивирование целых сайтов


  • Archive-It: курируемая служба веб-архивирования. Предлагает годовую подписку на доступ к своему веб-приложению с различными услугами: полнотекстовый поиск, краулинг контента с различной частотой, выдача отчётов и т. д.
  • ArchiveWeb.page: десктопная программа и расширение для Chrome для создания веб-архивов. Расширение можно поставить на «запись», то есть на автоматическое сохранение всех страниц, которые открывались в браузере или в конкретной вкладке. Просматривать архивы в форматах WARC, WACZ, HAR или WBN можно даже в онлайне, для этого создан сайт ReplayWeb.page


  • Brozzler: опенсорсная утилита, которая для скачивания контента использует настоящий браузер (Chrome или Chromium), а также youtube-dl и rethinkdb
  • Crawler
  • Crawler4j: опенсорсный краулер на Java с простым интерфейсом
  • grab-site: предварительно сконфигурированный опенсорсный граббер сайтов, граф ссылок хранит на диске, а не в памяти, поэтому может успешно скачать сайт даже с 10 млн страниц. Результат записывает в формате WARC
  • gecco
  • Heritrix
  • HTTrack
  • ItSucks (не поддерживается с 2010 года)
  • NetarchiveSuite: разработка Датской королевской библиотеки
  • Nutch: краулер с локальным поиском изначально создавался как альтернатива аналогичному корпоративному продукту Google
  • Octoparse: проприетарная платная программа, работает только под Windows
  • PageFreezer: ещё одна проприетарная система, веб-приложение, специализируется на автоматической архивации сайтов и соцсетей для юридических целей
  • simplecrawler: простой API для краулера, не поддерживается
  • Squidwarc: ещё один краулер, который работает через браузер (Chrome или Chromium), поэтому умеет выполнять скрипты и извлекать оттуда ссылки для краулинга
  • StormCrawler: опенсорсный SDK для построения распределённых, масштабируемых краулеров на Apache Storm
  • WAIL (Electron): Web Archiving Integration Layer (WAIL) — графический интерфейс работает поверх многих веб-архиваторов, чтобы упростить пользователям процесс сохранения и последующего просмотра веб-страниц
  • WAIL (py): версия на Python
  • WebMagic: масштабируемый фреймворк
  • Conifer (бывш. WebRecorder.io): выделил пользовательскую утилиту WebRecorder в отдельный опенсорсный проект, сам продвигает услугу облачного веб-архивирования с бесплатным лимитом 5 ГБ
  • wget: популярная утилита из набора GNU тоже умеет сохранять на диске веб-архивы в виде файлов WARC
  • wpull: wget-совместимый веб-архиватор, написанный на Python

Архивирование отдельных страниц


  • Archive.is: общедоступный сервис для съёмки снапшотов страниц, которые получают новые URL, сохраняются в архиве для всеобщего просмотра
  • curl: известная утилита командной строки для скачивания страничек
  • FreezePage: веб-интерфейс для скачивания страничек, сохранять их можно в облаке или на диске
  • Paparazzi!: маленькая утилита под macOS, которая делает графические скриншоты страниц
  • Perma.cc: сокращатель ссылок и веб-архиватор позиционируется как инструмент для школьников, студентов, юристов и всех остальных, кто хочет получить надёжную ссылку на документ с гарантией, что он не исчезнет и не изменится
  • WARCreate: расширение Google Chrome, которое сохраняет любую страницу в формате Web ARChive (WARC)
  • webkit2png: утилита командной строки для сохранения скриншотов простой командой типа webkit2png http://www.google.com/

Системы скрапинга данных


Сравнительную таблицу со всеми функциями см. ниже.

Отдельно стоит отметить приложения для хранения закладок с распределением по папкам, категориям, с тегами. Здесь же копии всех веб-страниц. Такие программы можно назвать «архивами закладок». Например, LinkAce или Wallabag.


LinkAce (платная)

ArchiveBox: личный архив


ArchiveBox

— одно из самых функциональных решений для архивирования веб-страниц на своём хостинге. Программа отличается тем, что у неё одновременно есть и веб-интерфейс, и продвинутая утилита командной строки (официально поддерживаются macOS, Ubuntu/Debian и BSD). Скоро появится десктопное приложение на электроне под Linux, macOS и Windows (оно

пока в альфе

).

В ArchiveBox можно скинуть URL и указать формат сохранения: HTML, PDF, скриншот PNG или WARC. Автоматически сохраняется вся контекстная информация вроде заголовков, фавиконов и т. д. Грамотно скачивает медиафайлы с помощью youtube-dl, статьи (readability), код (git) и другие типы контента: всего около 12 модулей-экстракторов.

По умолчанию «для надёжности» все страницы вашего архива сохраняются также на archive.org. Опцию можно (и нужно) отключить.

См. также документацию по форматам сохранения и варианты конфигурации.

Инструмент командной строки работает очень просто.

Добавить ссылку в архив:

archivebox add 'https://example.com'

Добавлять контент раз в день:

archivebox schedule --every=day --depth=1 https://example.com/rss.xml

Аргумент

depth=1

означает, что сохраняется эта страница, а также все страницы, на которые она ссылается.

Импорт списка адресов из истории посещённых страниц:

./bin/export-browser-history --chrome
archivebox add < output/sources/chrome_history.json
# или
./bin/export-browser-history --firefox
archivebox add < output/sources/firefox_history.json
# или
./bin/export-browser-history --safari
archivebox add < output/sources/safari_history.json

Импорт списка адресов из текстового файла:

cat urls_to_archive.txt | archivebox add
# или
archivebox add < urls_to_archive.txt
# или
curl https://getpocket.com/users/USERNAME/feed/all | archivebox add

Самые популярные настройки из командной строки:

TIMEOUT=120 # default: 60 добавить больше секунд на скачивание для медленной сети или тормозного сайта
CHECK_SSL_VALIDITY=True # default: False True = allow сохранение URL с некорректным SSL
SAVE_ARCHIVE_DOT_ORG=False # default: True отключить дублирование на Archive.org
MAX_MEDIA_SIZE=1500m # default: 750m увеличить/уменьшить максимальный размер файлов для youtube-dl

PUBLIC_INDEX=True # default: True публичный доступ к индексу
PUBLIC_SNAPSHOTS=True # default: True публичный доступ к страницам (снапшотам)
PUBLIC_ADD_VIEW=False # default: False разрешение/запрет всем пользователям добавлять URL в архив

Как вариант, можно добавлять ссылки через веб-интерфейс на локалхосте:

Сервер с веб-интерфейсом тоже запускается из командной строки:

archivebox manage createsuperuser
archivebox server 0.0.0.0:8000 # открыть http://127.0.0.1:8000

# опции, упомянутые выше
archivebox config --set PUBLIC_INDEX=False
archivebox config --set PUBLIC_SNAPSHOTS=False
archivebox config --set PUBLIC_ADD_VIEW=False

По сохранённому архиву работает полнотекстовый поиск.

Накопители

На чём хранить личный архив? Теоретически можно сбрасывать архив на компакт-диски или магнитную ленту. Но с ними возникнет проблема поиска в реальном времени. Ведь это основная функция информационного архива — выдавать информацию мгновенно по запросу. Так что самым реалистичным вариантом видится информационное хранилище на HDD (с резервированием по типу RAID).

Многое зависит от объёмов архива. Если у вас скачаны все голливудские фильмы за последние 50 лет в разрешении 4K, то не остаётся вариантов, кроме магнитной ленты. Современные картриджи формата LTO-9 объёмом 45 терабайт стоят не очень дорого.

Копия памяти человека

Кто-то считает, что нужно сохранять в архиве

всю

информацию, какую человек когда-либо увидел или прочитал, в том числе фотографии, видеоролики, заметки, книги, веб-страницы, статьи. Возможно, даже записи с видеорегистратора, который постоянно работает и записывает всё, что происходит вокруг. Желательно свои мысли тоже записывать (в которых есть смысл).

Такой архив — это своеобразная «цифровая память» человека, копия его жизни, всех событий и воспоминаний, с полнотекстовым поиском. Цифровая копия всего, что попадало в мозг или возникало в нём самопроизвольно. Впрочем, это уже ближе к киберпанку.


НЛО прилетело и оставило здесь промокоды для читателей нашего блога:

Доступно до 31 декабря 2021 г.

Что такое веб-архив? Можно ли восстановить сайт с помощью web.archive.org?

Alla Rud 14.07.2021 0 1889 на прочтение 4 минуты

А вы знали о онлайн-проекте, который хранит разные версии вашего сайта с дня его доступности в Интернете? Это специальный сайт web.archive.org, с помощью которого можно восстановить ресурс даже без наличия бекапа.  Но и на этом возможности сайта не заканчиваются. 

Часто веб-архив называют машиной времени, ведь именно он позволяет вернуться в прошлое и посмотреть как выглядел сайт. При этому можно посмотреть разные его версии в разные промежутки времени. 

Веб-архив бесплатный и доступный в любом уголке мира. 

Когда появился веб-архив сайтов?

Такой ресурс как веб-архив появился достаточно давно в 1996 году.  С того времени архив сохранил более 330 миллиардов страниц сайтов и это число постоянно растет. Сегодня этот сайт входит в топ 300 самых посещаемых сайтов мира. Если вы еще ни разу не открывали web.archive.org, гарантируем вам сайт понравится, ведь на нем можно найти массу полезного и увлекательного. И все это хранится еще с 1996 года в огромном архиве интернета. Кроме веб-страниц сайта на архиве также сохранены видео, аудио и книги. Сложно представить, сколько терабайтов информации хранит этот уникальный онлайн-ресурс! 

Как добавить или запретить добавление своего ресурса в архив?

Итак, если у вас есть собственный сайт, вы можете добавить свежую копию сайта на веб-архив или же наоборот запретить возможность сохранять копии ресурса. Как это сделать?

В первом случае необходимо воспользоваться функционалом «Save Page Now» ввести доменное имя сайта и нажать «Save page». В результате будет сохранена версия сайта, которая отображается в интернете прямо сейчас: 

Во втором случае, запретить сохранение копий вашего сайта можно с помощью файла robots.txt, где можно прописать данный запрет. Для этого обратитесь к вашему веб-разработчику. 

Для чего нужен веб-архив?

Воспользоваться возможностями веб-архива может каждый. Поэтому рассмотрим, в каких случаях это может пригодится.

☑ Для восстановления сайта, например, в случае если вы потеряли резервную копию

☑ Для получения информации с сайтов, которые уже удалены с интернета

☑ Для того, чтобы проанализировать изменения сайта на протяжении некоторого отрезка времени.

Используйте кнопку BROWSE HISTORY для того, чтобы просмотреть старые версии сайта. 

Если старые версии отсутствуют, это означает, что они были удалены по просьбе владельца сайта или по причине нарушения прав интеллектуальной собственности. 

Могу ли я самостоятельно восстановить свой сайт из архива?

Каждый желающий может восстановить информацию сайта с веб-архива. Очень часто это может понадобится, если вы потеряли резервную копию сайта, а вам срочно нужно восстановить его работу. Для этого можно использовать возможности веб-архива.

На практике восстанавливать каждую страницу не только трудно, но и долго. Поэтому в данном случае используются специальные парсеры. Например, Robotools. Это платный парсер. Стоимость зависит от количества необходимых страниц к восстановлению. Есть также тестовая версия на 25 страниц, где вы можете проверить как работает парсер. Кроме Robotools также можно использовать и другие специализированные под эти цели парсеры. 

Важно уточнить, что веб-архив восстанавливает только внешние данные сайта, его контент. К информации о клиентах или к любой другой внутренней настройки сайта архив доступа не имеет. Поэтому обратите на это внимание, если собрались восстанавливать, например, интернет-магазин.

А чтобы никогда не терять резервные копии, регулярно делайте бекапы и вовремя оплачивайте услуги хостинга для вашего сайта. 

Сохраняйте веб-страницы с помощью Wayback Machine — Сетевое администрирование

Машина обратного пути, часть Интернет-архива, представляет собой огромный архив веб-страниц, который в настоящее время хранит более 279 миллиардов копий.

Это делает его отличным вариантом для поиска страниц, которые больше не доступны или были изменены. Вы можете напрямую перейти на сайт Wayback Machine, чтобы вручную искать копии веб-страниц, или использовать расширения браузера, такие как Wayback Machine, Нет больше 404 или Воскресить страницы вместо.

Многие пользователи Интернета могут не знать, что Wayback Machine предлагает возможность добавлять веб-страницы в архив.

Это может быть весьма полезно. Возможно, вы хотите убедиться, что статья или страница сохранены, чтобы вы могли получить к ней доступ в будущем или использовать ее для цитирования, не беспокоясь о том, что она больше не доступна или изменена.

Хотя вы можете сделать то же самое, сохранив страницу в своей локальной системе, трудно доказать, что вы никаким образом не изменяли веб-страницу во время или после этой операции. Если вы используете Wayback Archive, вы доказываете, что не манипулировали веб-страницей каким-либо образом.

Как добавить страницы в Wayback Machine

Добавить копию страницы в Wayback Machine довольно просто. Обратите внимание, что это работает только для страниц, на которых разрешены поисковые роботы. Если страница их блокирует, добавить ее в архив Wayback Machine невозможно.

  1. Загрузить https://archive.org/web/ в выбранном вами веб-браузере. Это работает с настольными и мобильными браузерами.
  2. Найдите сохранить страницу сейчас раздел на открывшейся странице.
  3. Введите или вставьте веб-URL в форму.
  4. Ударь сохранить страницу кнопка.
  5. Сразу запускается процесс сохранения страницы в архив.

Страница загружается, и вверху страницы отображается подсказка, которая возвращает вам информацию о состоянии. Сохранение веб-страниц не должно занимать больше пары секунд.

Этот процесс может занять больше времени, если сервер, на котором размещена веб-страница, находится под большой нагрузкой или отклоняет запросы.

Сервис перечисляет URL-адрес, по которому страница доступна с этого момента. Вы можете скопировать эту ссылку, например, чтобы добавить ее в закладки или поделиться.

Совет: вы можете использовать синтаксис https://web.archive.org/save/http://www.example.com/, чтобы сразу начать процесс захвата, не используя форму.

Убедитесь, что вы изменили часть URL «http://www.example.com/» на URL, который хотите сохранить.

Альтернативой является archive.is которые вы также можете использовать для этой цели.

Теперь ваша очередь : Как вы сохраняете веб-страницы?

Архив страниц интернета и других материалов

Архив Интернета (англ. Internet Archive) — некоммерческая организация, основанная в 1996 году в Сан-Франциско Брюстером Кейлом.

Архив собирает копии веб-страниц, графические материалы, видео- и аудиозаписи и программное обеспечение. Архив обеспечивает долгосрочное архивирование собранного материала и бесплатный доступ к своим базам данных для широкой публики.

Декларируемой целью Архива является сохранение культурно-исторических ценностей цивилизации в эпоху интернет-технологий, создание и поддержка электронной библиотеки.

Уже в 2016 году в архиве находилось более 500 миллиардов копий веб-страниц.

Сервер Архива расположен в Сан-Франциско, зеркала — в Новой Александрийской библиотеке и в Амстердаме. С 2007 года Архив имеет юридический статус библиотеки.

 

Архив был создан Брюстером Кейлом в 1996 году примерно в то же время, когда он основал компанию Alexa Internet, занимающуюся сбором статистики о посещаемости веб-сайтов.

В октябре того же года организация начала архивировать и хранить копии веб-страниц. Сохранённые копии не были доступны для широкой публики до создания в 2001 году веб-сервиса Wayback Machine.

 

Сайты в архиве  сохраняются не в виде скриншотов, а в виде полноценно работающих веб-страниц со всеми ссылками, картинками и стилевым оформлением (CSS). Причем, для каждого сайта за время его существования в сети в этом архиве может накопиться и по несколько сотен копий, датированных разными этапами жизни ресурса.

На сайте можно проследить историю изменений любого другого интернет-ресурса.

На главной странице доступен не только архив страниц интернета Wayback Machine, но и архивы различных кинохроник, телепередач, аудио записей и отсканированных в различных библиотеках книг.

Область WEB обозначена логотипом Wayback Machine. В расположенную там форму можно ввести URL или доменное имя интересующего вас сайта, чтобы попасть на страницу с календарем.

 

 

 

Web.Archive.org — это… Что такое Web.Archive.org?

  • Web.archive.org — Internet Archive www.archive.org Коммерческий …   Википедия

  • Archive.org — Internet Archive in San Francisco Internet Archive in der …   Deutsch Wikipedia

  • Web Archive — oder Web Application Archive ist ein Dateiformat, das beschreibt, wie eine vollständige Webanwendung nach der Java Servlet Spezifikation in eine Datei im JAR bzw. ZIP Format verpackt wird.[1] Solche Dateien haben immer die Endung „.war“ und… …   Deutsch Wikipedia

  • Archive.org — Internet Archive Photo prise à la Bibliotheca Alexandrina : elle est contient une copie des documents de l Internet Archive. L Internet Archive (IA) est une organisation à but non lucratif consacrée à l archivage du Web, située dans le… …   Wikipédia en Français

  • Web typography — Web fonts allow Web designers to use fonts that are not installed on the viewer s computer. Web typography refers to the use of fonts on the World Wide Web. When HTML was first created, font faces and styles were controlled exclusively by the… …   Wikipedia

  • Web Cartoonists’ Choice Awards — First awarded 2001 Last awarded 2008 Official website http://www.ccawards.com/ The Web Cartoonists Choice Awards (WCCA) are annual awards in which online cartoonists nominate and select outstanding webcomics. The aw …   Wikipedia

  • Java Web Archive — Dieser Artikel behandelt das Dateiformat Web Archive. Zum Internetarchiv siehe Internet Archive; zu den vom Webbrowser Konqueror erzeugten Dateien siehe WAR Datei (KDE) Web Archive oder Web Application Archive ist ein Dateiformat, das beschreibt …   Deutsch Wikipedia

  • Web Anime — (jap. Webアニメ), auch: Original Net Animation oder Original Net Anime (abgekürzt ONA), ist eine Bezeichnung für Anime, deren Erstveröffentlichung über das Internet erfolgt. Der Ausdruck Original Net Anime (オリジナルネットアニメ) wurde von der Website zum… …   Deutsch Wikipedia

  • Archive — For other uses, see Archive (disambiguation). For the Wikipedia coordination point on archived pages, see Wikipedia:Historical archive. Shelved record boxes of an archive. An archive is a collection of historical records, or the physical place… …   Wikipedia

  • Web crawler — For the search engine of the same name, see WebCrawler. For the fictional robots called Skutters, see Red Dwarf characters#The Skutters. Not to be confused with offline reader. A Web crawler is a computer program that browses the World Wide Web… …   Wikipedia

  • Как зайти на веб архив. Как добыть уникальный контент из вебархива

    Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

    Веб-архив (Webarchive) – это бесплатная платформа, где собраны все сайты, созданные когда-либо, и на которые не наложен запрет для их сохранения.


    Больше видео на нашем канале — изучайте интернет-маркетинг с SEMANTICA

    Это настоящая библиотека, в которой каждый желающий может открыть интересующий его веб-ресурс, и посмотреть на его содержимое, на ту дату, в которую вебархив посетил сайт и сохранил копию.

    Знакомство с archive org или как Валерий нашел старые тексты из веб-архива
    В 2010-м году, Валерий создал сайт, в котором он писал статьи про интернет-маркетинг. Одну из них он написал о рекламе в Гугл (AdWords) в виде краткого конспекта. Спустя несколько лет ему понадобилась эта информация. Но страница с текстами, некоторое время назад, была им ошибочно удалена. С кем не бывает.

    Однако, Валерий знал, как выйти из ситуации. Он уверенно открыл сервис веб-архива, и в поисковой строке ввел нужный ему адрес. Через несколько мгновений, он уже читал нужный ему материал и еще чуть позже восстановил тексты на своем сайте.

    История создания Internet Archive

    В 1996 году Брюстер Кайл, американский программист, создал Архив Интернета, где он начал собирать копии веб-сайтов, со всей находящейся в них информацией. Это были полностью сохраненные в реальном виде страницы, как если бы вы открыли необходимый сайт в браузере.

    Данными веб-архива может воспользоваться каждый желающий совершенно бесплатно. Создавая его, у Брюстера Кайла была основная цель – сохранить культурно-исторические ценности интернет-пространства и создать обширную электронную библиотеку.

    В 2001 году был создан основной сервис Internet Archive Wayback Machine, который и сегодня можно найти по адресу https://archive.org . Именно здесь находятся копии всех в свободном доступе для просмотра.

    Чтобы не ограничиваться коллекцией сайтов, в 1999 году начали архивировать тексты, изображения, звукозаписи, видео и программные обеспечения.

    В марте 2010 года, на ежегодной премии Free Software Awards, Архив Интернета был удостоен звания победителя в номинации Project of Social Benefit.

    С каждым годом библиотека разрастается, и уже в августе 2016 года объем Webarchive составил 502 миллиарда копий веб-страниц. Все они хранятся на очень больших серверах в Сан-Франциско, Новой Александрии и Амстердаме.

    Все про archive.org: как пользоваться сервисом и как достать сайт из веб-архива

    Брюстер Кайл создал сервис Internet Archive Wayback Machine, без которого невозможно представить работу современного интернет-маркетинга. Посмотреть историю любого портала, увидеть, как выглядели определенные страницы раньше, восстановить свой старый веб-ресурс или найти нужный и интересный контент — все это можно сделать с помощью Webarchive.

    Как на archive.org посмотреть историю сайта

    Благодаря , в библиотеке веб-архива, хранится большая часть интернет-площадок со всеми их страницами. Также, он сохраняет все его изменения. Таким образом, можно просмотреть историю любого веб-ресурса, даже если его уже давно не существует.

    Для этого, необходимо зайти на https://web.archive.org/ и в поисковой строке ввести адрес веб-ресурса.

    После, некоторого времени, веб-архив выдаст календарь с датами изменений данной страницы и информацию о его создании и количестве изменений за весь период.

    Согласно полученной информации, можно узнать, что главная страница нашего сайта была впервые найдена сервисом 24 мая 2014 года. И, с этого времени, по сегодняшний день, ее копия сохранялась 38 раз. Даты изменений на странице отмечены на календаре голубым цветом. Для того, чтобы посмотреть историю изменений и увидеть как выглядел определенный участок веб-ресурса в интересующий вас день, следует выбрать нужный период в ленте с предыдущими годами, и дату в календаре из тех, что предлагает сервис.

    Через мгновение, веб-архив откроет запрашиваемую версию на своей платформе, где можно увидеть как выглядел наш сайт в самом первоначальном виде.

    Далее, с помощью календаря со стрелками, в самом верху экрана, можно перелистывать страницы, по хронологии их изменений, чтобы отследить, как изменялся внешний вид и их содержание.

    Таким образом, можно нырнуть в прошлое и увидеть все его перемены, которые с ним происходили за все время его существования.

    Почему вы можете не узнать на Webarchive, как выглядел сайт раньше
    Случается такое, что веб-площадка не может быть найден с помощью сервиса Internet Archive Wayback Machine. И происходит это по нескольким причинам:

    • правообладатель решил удалить все копии;
    • веб-ресурс закрыли, согласно закону о защите интеллектуальной собственности;
    • в корневую директорию интернет-площадки, внесен запрет через файл robots.txt

    Для того, чтобы сайт в любой момент был в веб-архиве, рекомендуется принимать меры предосторожности и самостоятельно сохранять его в библиотеке Webarchive. Для этого в разделе Save Page Now введите адрес веб-ресурса, который нужно заархивировать, нажмите кнопку Save Page.

    Таким образом, для безопасности и сохранности всей информации, необходимо такую процедуру повторять с каждым изменением. Это даст 100% гарантию сохранения ваших страниц на долгое время.

    Как недействующий сайт восстановить из веб-архива

    Бывают разные ситуации, когда браузер выдает, что такого-то веб-сервиса больше нет. Но данные нужно извлечь. Поможет Webarchive.

    И для этого существует два варианта. Первый подходит для старых площадок небольшого размера и хорошо проиндексированных. Просто извлеките данные нужной версии. Далее просматривается код страницы и дошлифовываются вручную ссылки. Процесс несколько трудозатратный по времени и действиям. Поэтому существует другой, более оптимальный способ.

    Второй вариант идеален для тех, кто хочет сэкономить время и решить вопрос скачивания, максимально быстро и легко. Для этого нужно открыть сервис восстановления сайта из Webarchive – RoboTools. Ввести доменное имя интересующего портала и указать дату сохраненной его версии. Через некоторое время, задача будет выполнена в полном объеме, с наполнением всех страниц.

    Как найти контент из веб-архива

    Webarchive является замечательным источником для наполнения полноценными текстами веб-ресурсов. Есть множество площадок, которые по ряду причин прекратили свое существование, но содержат в себе полезную и нужную информацию. Которая не попадает в индексы поисковых систем, и по сути есть неповторяющейся.

    Так, существует свободные домены, которые хранят много интересного материала. Все что нужно, это найти подходящее содержание, и проверить его уникальность. Это очень выгодно, как финансово – ведь не нужно будет оплачивать работу авторов, так и по времени – ведь весь контент уже написан.

    Как сделать так, чтобы сайт не попал в библиотеку веб-архива

    Случаются такие ситуации, когда владелец интернет-площадки дорожит информацией, размещенной на его портале, и он не хочет, чтобы она стала доступной широкому кругу. В таких ситуациях есть один простой выход – в файле robots.txt, прописать запретную директиву для Webarchive. После этого изменения в настройках, веб-машина больше не будет создавать копии такого веб-ресурса.

    Архив интернета (Internet Archive) — онлайн сервис, архив сайтов интернета, в котором собрано огромное количество веб-страниц, сохраненных с сайтов со всего мира. Организация под названием Internet Archive была создана в 1996 году в Сан-Франциско.

    Это универсальная электронная библиотека, в которой сохранены копии страниц сайтов в интернете, в архиве есть видео, аудио, софт, текстовые, графические материалы. Свободный доступ к содержимому веб архива интернета открыт для всех пользователей.

    Начиная с 1996 года по настоящее время на сайте archive.org собрано более 466 миллиардов веб-страниц (эта цифра все время увеличивается). Архив страниц интернета создан для сохранения, ознакомления и изучения имеющей информации, которая накопилась за все эти годы во всемирной сети.

    Время от времени, специальные роботы, принадлежащие сервису, индексируют содержание практически всех сайтов в интернете. Следует принять во внимание, что во время обхода робота для индексации сайтов, на некоторых сайтах могли возникать внутренние проблемы: сайт, или некоторые страницы сайта были недоступны, сайт находился на техобслуживании, не работали подключаемые внешние элементы и т. д. Поэтому некоторые архивы сайтов будут полными, а некоторые снимки (архивы) могут содержать только частичную информацию. Имейте в виду, что некоторые сайты индексируются часто, другие сайты, наоборот, довольно редко.

    Для просмотра веб-страниц используется онлайн сервис The Wayback Machine. В Internet Archive доступны для просмотра не только действующие в настоящий момент сайты, но и сайты, которые уже не существуют. С помощью архива интернета можно побывать на прекративших существование сайтах, и ознакомится с содержимым веб-страниц удаленных сайтов.

    Благодаря замечательному архиву сайтов интернета можно проследить историю изменений, как изменялся внешний облик сайта и его содержимое с течением времени, использовать архивы для восстановления сайта, искать необходимую информацию.

    На главной странице сайта archive.org можно получить доступ к архивным данным, которые сгруппированы в тематические разделы, или сразу перейти на страницу сервиса Wayback Machine.

    Поиск сайтов в Wayback Machine

    Для поиска архивов нужных сайтов, перейдите по ссылке на страницу онлайн сервиса Wayback Machine.

    На странице «Internet Archive Wayback Machine» введите в поле поиска URL адрес сайта, а затем нажмите на кнопку «BROWSE HISTORY».

    Под полем поиска находится информация об общем количестве созданных архивов для данного сайта за определенный период времени. На шкале времени по годам отображено количество сделанных архивов сайта (снимков сайта может быть много, или, наоборот, мало).

    Выделите год, в центральной части страницы находится календарь, в котором выделены голубым цветом даты, когда создавались архивы сайта. Далее нажмите на нужную дату. Обратите внимание, что при подведении курсора мыши отобразится время создания снимка. Если снимков несколько, вы можете открыть любой из архивов. Сайт будет открыт в том состоянии, которое у него было на момент создания архива.

    За время существования моего сайта, у него было только два шаблона (темы оформления). На этом изображении вы можете увидеть, как выглядел мой сайт в первой теме оформления.

    На этом изображении вы видите сайт моего знакомого, Алема из Казахстана. Данного сайта уже давно нет в интернете, поисковые системы не обнаруживают этот сайт, но благодаря архиву интернета все желающие могут получить доступ к содержимому удаленного сайта.

    Выводы статьи

    Internet Archive Wayback Machine — онлайн сервис, сохраняющий веб-страницы в интернете. С помощью международного интернет архива можно получить доступ к архивам сайтов, созданных в разное время. Сайт откроется в том состоянии, которое у него было на дату создания архива. Для просмотра будут доступны существующие и удаленные сайты.

    Знаменитый Веб Архив (archive.org, web.archive.org) – некоммерческая онлайн библиотека, включающая в себя 85 миллиардов веб-страниц, графические материалы, а также видео и аудио, была создана с целью хранения и архивирования имеющей ценность информации, которая доступна для изучения и скачивания всем желающим.

    Несмотря на то, что большинство пользователей знает об этом web-ресурсе лишь понаслышке, данный сервис является крайне интересным и полезным для тех, кто хотя бы немного интересуется историей и развитием интернета.

    К сожалению, большинство web-мастеров и seo-оптимизаторов рассматривают archive.org исключительно как источник бесплатного контента для автоматического наполнения своих «сайтов» или же для возрождения старых проектов с целью дальнейшей продажи на них ссылок в биржах. В действительности же, информация, которую можно найти в Веб Архиве может быть интересна не только создателям сателлитов и сплогов. Archive.org хранит в себе массу полезных сведений, определенной части которых уже нет в интернете.

    В данной статье вы рассмотрим, чем именно Веб архив может быть полезен web-мастеру, seo-оптимизатору и даже копирайтеру.

    Archive.org или архив интернета: The Wayback Machine

    Одним из основных сервисов Веб Архива является The Wayback Machine, представляющий собой огромный архив сохраненных страниц, которые были обнаружены ботом в то или иное время. В результате копия каждого сохраненного сайта хранится в веб архиве в нескольких экземплярах, что позволяет увидеть, как выглядел тот или иной web-ресурс в определенный период времени.

    Работа бота The Wayback Machine не подчиняется никаким правилам, поэтому, просматривая хранящиеся там страницы можно легко столкнуться с тем, что некоторые сайты сохранены только частично, и самая интересная их часть осталась не проиндексированной, тогда как в архиве сохранились только служебные страницы (карта сайта, календарь, списки последних статей). Кроме того, в Веб архиве имеется множество страниц, сохраненных в момент, когда сайт был недоступен, взломан или закрыт на техническое обслуживание. Поэтому в Веб Архиве, к сожалению, имеется множество страниц, сохранившихся в виде заглушки.

    Некоторые сайты имеют в архиве несколько копий за каждый год, что позволяет просмотреть историю изменений ресурса, другие проекты и вовсе не попадают в базу. Таким образом, предсказать, в каком виде сохранен в web.archive.org тот или иной сайт, невозможно – каждый ресурс следует просматривать отдельно.

    Поиск по столь огромной базе страниц возможен только по названию домена. Для этого откройте адрес http://archive.org/web/, введите искомый домен в поисковую строку и нажмите кнопку BROWSE HISTORY.

    Перед вами откроется страница с календарем, где вы можете выбрать наиболее интересную вам дату скриншота документа и, кликнув по ней, посмотреть, как выглядел сайт несколькими годами ранее.

    Запретить сканирование web-сайта боту The Wayback Machine можно при помощи команды в robots.txt.

    User-agent: ia_archiver
    Disallow: /

    Для чего нужен web.archive.org?

    В первую очередь, Веб Архив предназначен для пользователей, которые хотят просмотреть информацию с «мертвого» web-сайта, пропавшего из Сети по тем или иным причинам. В некоторых случаях web.archive.org помогает даже восстановить проект, который был утерян из-за не продленного во время хостинга или домена.

    Нередко посетители, привыкшие к общению и обмену информацией на определенном сайте, сами восстанавливают полюбившийся ресурс на новом домене, копируя туда статьи из архива.

    Кроме того, Веб Архив – это прекрасная возможность изучения истории того или иного сайта или домена. Иногда в истории web.archive.org сохраняются поистине удивительные «приключения» домена, когда за время его существования на нем несколько раз создается новый web-проект совершенно новой тематики.

    Некоторые web-мастера считают Веб Архив удивительным по своей легкости и доступности сервисом для заработка, ведь хранящийся там контент не только уникален, но и бесплатен.

    Итак, как заработать с помощью web.archive.org?

    1. Зарегистрировать освободившийся домен с тИЦ и PR и залить на него спарсенный из Веб Архива сайт, находящийся на нем когда-то.
    2. Использовать найденный уникальный контент для наполнения MFA, сплогов и даже СДЛ. Кроме того, найденные тексты можно использовать для размещения через биржи статей с целью продвижения вашего сайта.
    3. И наконец, самый простой способ – продать найденные уникальные статьи на биржах текстов, выдав их за свои.

    Важно. Многие web-мастера, не желающие иметь проблем, связанных с нарушением авторского права, почему-то уверены в том, что парсинг Веб Архива является абсолютно безопасным. Дескать, если сайт умер, то принадлежность размещенных на нем когда-то статей доказать невозможно. Однако не стоит забывать, что на найденном в archive.org «мертвом» сайте также могут находиться отсканированные статьи, принадлежащие конкретному автору, который при необходимости сможет легко доказать, что размещенные на вашем сайте статьи – не ваши. Поэтому будьте крайне внимательны и осторожны.

    Как искать уникальный контент в Веб архиве: поиск «мертвых» сайтов

    Основной вопрос новичков, которые собираются парсить уникальный контент из Веб архива: где находить адреса доменов, где когда-то располагались web-проекты с качественными и интересными статьями? Однозначного ответа на этот вопрос не существует, особенно если учесть, что Веб Архив ежедневно изучают сотни web-мастеров, ищущих ту самую «золотую жилу» — страницы с уникальными и интересными текстами, в результате чего хранящиеся в web.archive.org статьи быстро распространяются по Сети.

    Приведем лишь несколько способов искать домены в Веб Архиве, каждый из которых имеет свои преимущества и недостатки.

    Анализ списка освобождающихся доменов

    Скачиваем список освобождающихся доменных имен со страницы https://www.nic.ru/auction/forbuyer/download_list.shtml. Открываем файл формата. TSV в Excel или любой другой аналогичной программе. Находим там домены, которые, предположительно, могут быть нам интересны. К примеру, имена, в состав которых входит слово seo, скорее всего, использовались для создания блога о раскрутке сайтов. Проверять все домены из списка подряд, не имея соответствующего софта, бессмысленно, так как это приведет к значительным потерям времени. Гораздо менее затратным будет даже самостоятельное написание статей, а не их поиск.

    К недостаткам этого способа относится его значительные временные затраты: на изучение большого количества доменов может уйти немало времени.

    Анализ конкурентных ресурсов

    Неплохим решением может быть специальное отслеживание ряда конкурентных сайтов, которые по своим признакам и параметрам являются явными кандидатами попадания под фильтр АГС. К примеру, вы можете спарсить выдачу Google по важному для вас запросу, а затем вручную просмотреть сайты конкурентов. Если на этих проектах активно размещаются вечные внешние ссылки, в результате чего сайт быстро заспамливается, это явный признак того, что в скором времени владелец откажется от своего сайта, просто не продлив домен. Весь контент этого сайта в скором времени вылетит из индекса.

    Способ подходит лишь тем, кто не жалеет времени на анализ конкурентных ресурсов.

    Изучение старых каталогов ссылок и статей

    Хороший список «мертвых» ресурсов можно найти в старых каталогах ссылок, прогон по которым осуществлялся несколько лет назад. Способ несколько нудный и муторный, зато позволяет быстро находить сайты определенной тематики.

    The Wayback Machine: стоит ли овчинка выделки

    Как видим, поиск уникального контента в Веб Архиве может потребовать у вас немало времени. Скорее всего, затраченное время намного выгодней было бы потратить на написание или заказ статей. Поиск в web.archive.org можно порекомендовать лишь тем, кто или твердо знает, что именно он ищет (читай: имеет список конкретных «мертвых» сайтов, которые хочет проверить), либо тем, кто испытывает культурологическое удовольствие от изучения сайтов прошлых лет.

    Не забудьте и о том, что в случае вашего небрежного отношения к сайту и его техническому обеспечению, благодаря Веб Архиву, и ваш ресурс может возродиться под чужим руководством, спустя некоторое время после «виртуальной» смерти.

    Archive Некоммерческая организация, основанная в 1996 году в Сан-Франциско .
    Архив собирает копии веб-страниц, графические материалы, видео-, аудиозаписи и программное обеспечение.
    Архив обеспечивает долгосрочное архивирование собранного материала и бесплатный доступ к своим базам данных для широкой публики.Декларируемой целью Архива является сохранение культурно-исторических ценностей цивилизации в эпоху интернет-технологий, создание и поддержка электронной библиотеки.
    Размер Архива — 3 петабайта (1 петабайт=1000 гигабайт, более точно 1024 гигабайт), в ближайшее время увеличится до 5 петабайтов.
    Он содержит 85 миллиардов веб-страниц.
    Сервер Архива расположен в Сан-Франциско , зеркала — в Новой Александрийской библиотеке и Амстердаме .
    С 2007 г. Архив имеет юридический статус библиотеки.

    Wayback Machine

    Сервис архива www.archive.org.
    web.archive.org Интересно посмотреть, как какой-то сайт выглядел прежде, а может как выглядел мой сайт?
    Правда копии содержат не все страницы, когда-то без картинок, сайт Яндекс заблокировал свою историю.То есть, не требуйте от сайта слишком многого. Архив, он и есть архив. А за ходом интернета сложно уследить, не то, что сохранить. Так что, как уж повезет.

    Существует настоящая, реальная машина времени, в которой можно ненадолго вернуться в прошлое и увидеть, например, как выглядел тот или иной сайт несколько лет назад. Думаете, никому не нужны копии сайтов многолетней давности? Ошибаетесь! Для очень многих людей сервис по архивированию информации весьма полезен.

    Во-первых, это просто интересно! Из чистого любопытства и от избытка свободного времени можно посмотреть, как выглядел любимый, популярный ресурс на заре его рождения.

    Во-вторых, далеко не все владельцы сайтов ведут свои архивы. Знать место, где можно найти информацию, которая была на сайте в какой-то момент, а потом пропала, не просто полезно, а очень важно.

    В-третьих, само по себе сравнение является важнейшим методом анализа, который позволяет оценить ход и результаты нашей деятельности. Кстати, при проведении анализа веб-ресурса очень эффективно использовать ряд методов сравнения.

    Поэтому наличие уникальнейшего архива веб-страниц интернета позволяет нам получить доступ к огромному количеству аудио-, видео- и текстовых материалов. По утверждению разработчиков, «интернет-архив» хранит больше материалов, чем любая библиотека мира. Мы попали в правильное место!

    Что нужно, чтобы найти копии сайтов интернета

    Для того, чтобы отправиться в прошлое, нужно перейти на сайт archive.org и воспользоваться поисковой строкой.

    Простой поиск в архиве сохраненных сайтов выдает нам ссылки на все сохраненные копии запрашиваемой страницы.

    Из этого видно, что сайт сайт был создан в 2012 году (Кстати, важно отметить, с помощью практически идеального хостинга Спринтхост — рекомендую!). Переключаясь на нужный нам год, можно увидеть даты, выделенные кружочками, это и есть даты сохранения копии сайта. Например, в 2015 году, пока можно будет увидеть только одну копию от 7 февраля.

    Конечно, это потрясающий ресурс! Ведь здесь индексируются и архивируются все сайты интернета! Это не только скриншоты… Имея в руках такой инструмент, можно восстановить массу потерянной со временем информации.

    Надо заметить, что, безусловно все восстановить однозначно не получится, так как если на страницах сайта используются элементы Java Script, или скрипты или графика взяты со стороннего сервера, то на восстановление такой информации рассчитывать не придется. Поэтому к сохранению данных своего сайта нужно относиться с особенным вниманием, несмотря ни на что.

    Пользуясь случаем, я сделала скриншоты и восстановила в памяти, как выглядел мой сайт, начиная с 2012 года. Любопытно посмотреть))

    Сайт буквально недавно «родился»)) Январь 2012.. .

    Проходит время, и хочется что-то изменить… Конец 2012-го.

    Наверное, пора уже что-то менять. 2013-й. Это тема, которая и сегодня установлена на моем сайте.

    К смене темы отношусь с осторожностью, так как помню последний «переезд», после которого несколько месяцев восстанавливала посещаемость сайта. Как-то не очень удачно получилось.

    Надеюсь, что и моим читателям эта замечательная интернет-библиотека — «машина времени» сможет помочь перемещаться во времени, когда они этого захотят. Посмотрите, как выглядели раньше некоторые сайты, еще во времена своего зарождения. Какими раньше были google или яндекс, можно увидеть только на archive.org, аналогов у этого ресурса нет. Приятного путешествия, друзья!

    Archive-It Blog – Модель жизненного цикла веб-архивирования

    Модель жизненного цикла веб-архивирования

    Март 2013 г.

    Основные авторы:
    Молли Брэгг
    Кристин Ханна

    Авторы:
    Лори Донован
    Грэм Хьюкилл
    Анна Петерсон

     

    Содержание

    Перейти к:

     

    Введение

    Технологические инструменты для архивирования в Интернете неуклонно развиваются уже более десяти лет.Однако лучшие практики и общая модель веб-архивирования еще не появились.
    Модель жизненного цикла веб-архивирования представляет собой попытку объединить технологические и
    программные средства веб-архивирования в структуру, которая будет актуальна для любой организации,
    стремящейся к архивированию в Интернете. Archive-It, ведущая служба веб-архивирования в сообществе,
    , разработала эту модель на основе своей работы с учреждениями памяти по всему миру.

    Интернет-архив занимается архивированием Интернета с 1996 года.В 2002 году Интернет-архив выпустил Heritrix, веб-сканер с открытым исходным кодом, который представляет собой программный инструмент, который захватывает контент
    из всемирной паутины. В 2009 году выходной файл сканера Heritrix, файл WARC,
    , был принят в качестве стандарта ISO для веб-архивирования, демонстрируя как распространенность активных программ веб-архивирования
    , так и важность самого веб-сканера. В начале 2006 года Интернет-архив
    запустил службу веб-архивирования Archive-It (www.archive-it.org) с тринадцатью пилотными учреждениями-партнерами
    .Архив. Это служба веб-архивирования по подписке, которая помогает организациям-партнерам
    собирать, создавать цифровые коллекции и управлять ими. База партнеров неуклонно расширялась на
    с момента запуска, и по состоянию на
    января 2013 года насчитывала 238 партнеров в сорока шести штатах США и пятнадцати странах.

    Несмотря на рост числа программ для веб-архивирования, многие учреждения все еще пытаются
    разработать передовой опыт и методологии для достижения своих целей. Эта трудность
    частично связана с постоянно развивающейся веб-технологией, которая может затруднить эффективное архивирование
    определенных типов контента.Противоречивые и изменяющиеся политические решения различных
    заинтересованных сторон, а также смещение организационных структур и должностных обязанностей создают дополнительные
    препятствия для внедрения передового опыта. Кроме того, некоторые заинтересованные стороны организаций не полностью приняли убеждение, что веб-архивирование имеет решающее значение для их деятельности по сохранению цифровых данных; в результате
    финансирование остается ограниченным или отсутствует.

    Чтобы восполнить недостаток передового опыта и повысить осведомленность о важности
    веб-архивирования как основы цифрового хранения, команда Archive-It разработала Модель жизненного цикла веб-архивирования
    (WALCM).Эта модель основана на опыте команды, а также на уроках, извлеченных из бесчисленных учреждений-партнеров, включая углубленные тематические исследования шести из
    этих учреждений. WALCM — это попытка представить общие рабочие процессы и создать измеримую модель, на которую организации могут ссылаться при создании или улучшении своих программ архивирования в Интернете
    .

     

    Разработка модели жизненного цикла веб-архивирования

    Команда Archive-It органично разработала модель, используя отзывы и уроки, извлеченные
    из их партнерских отношений с организациями, архивирующими Интернет.Эти партнерские учреждения
    предоставляют отзывы об использовании ими службы и общаются с командой Archive-It
    по электронной почте, по телефону и в личных беседах на конференциях и партнерских встречах.
    Кроме того, более официальная обратная связь поступает через презентации партнеров на конференциях, опросы, разработанные сотрудниками Archive-It, а также формальные или неформальные партнеры создают литературу о том, как они и их коллеги решают проблемы веб-архивирования.

    Команда Archive-It разработала первую итерацию модели жизненного цикла веб-архивирования,
    , которая была распространена среди партнеров Archive-It, которые предоставили отзывы об отсутствующих или
    лишних элементах, а также о визуальном представлении модели.Затем команда Archive-It
    включила этот вклад в более визуально привлекательную модель, которая была разослана всем партнерам Archive-It
    для получения общих отзывов. Эта обратная связь вдохновила на дальнейшее изменение дизайна, которое более точно отражало опыт партнеров в области веб-архивирования, и, в конечном счете, результирующую версию модели
    , обсуждаемую в этой статье. Информация в этом документе также основана на подробных переписках по электронной почте
    и телефонных интервью, которые имели место в период с апреля по июль 2012 года с шестью партнерами Archive-It
    : Колумбийский университет, Университет Альберты, Государственная библиотека Монтаны, Государственная библиотека
    North Каролина, Государственный архив Северной Каролины и Крейтонский университет.Информация в этом документе
    также получена из опроса партнеров Archive-It, проведенного в августе 2012 года.

     

    Объяснение модели

    Модель представляет собой попытку выделить различные этапы и этапы, с которыми сталкивается учреждение
    при разработке и управлении своей программой веб-архивирования. Хотя модель разбита на
    отдельных шагов, каждое действие не дискретно. Шаги и фазы связаны между собой, и между ними имеется значительное количество перекрытий.

    Модель имеет круглую форму, что свидетельствует о повторяющемся характере этапов жизненного цикла
    (см. рис. 1). По мере того, как пользователи проходят каждый шаг, они в конечном итоге возвращаются к
    началу или повторяют определенные шаги, в зависимости от своих задач. Например, процесс может быть перезапущен, когда учреждение добавляет новый веб-сайт в существующую коллекцию, создает совершенно новую коллекцию или просматривает заархивированное содержимое и изменяет настройки или область сканирования. Модель
    включает круги внутри кругов, чтобы предложить эти повторяющиеся циклы в рамках более крупного процесса.

    Крайний уровень жизненного цикла — полоса политик. Почти каждый аспект веб-архивирования
    включает в себя какое-либо политическое решение. Эти политические решения могут включать разработку
    новой политики, специфичной для веб-архивирования, или адаптацию существующей политики к новым действиям по сбору
    данных. Охватывая этапы жизненного цикла полосой политик, модель визуально представляет
    вездесущий характер разработки политики. Во втором диапазоне модель аналогичным образом представляет
    метаданных и описание.Архив. Он решил включить метаданные в виде полосы, а не сегмента
    колеса, чтобы подчеркнуть, что создание, импорт и экспорт метаданных — это непрерывный процесс
    , который происходит в тандеме с рядом других действий в жизненном цикле.

     

    Рисунок 1: Модель жизненного цикла веб-архивирования

     

    Синий кружок внутри полосы политики представляет собой решения высокого уровня, с которыми учреждение сталкивается при настройке и управлении своей программой веб-архивирования.Отдельные шаги кратко определены следующим образом и будут обсуждаться более подробно далее в этой статье.

    • Видение и цели: учреждения уточняют цели своей программы веб-архивирования.
    • Ресурсы и рабочий процесс: учреждения анализируют свои доступные ресурсы, включая финансы, опыт, персонал, потенциальных сотрудников и другие, чтобы определить, как продолжить разработку или изменение своей программы веб-архивирования.
    • Доступ/Использование/Повторное использование: учреждения принимают решения о том, предоставлять ли и как предоставлять доступ к своим коллекциям, и контролировать, как посетители используют контент.
    • Сохранение: учреждения принимают решения о том, как они хотят сохранить данные, которые они собирают в своей деятельности по веб-архивированию. Сюда входят как файлы данных, так и метаданные.
    • Управление рисками: учреждения рассматривают свой подход к рискам при создании программы веб-архивирования, они учитывают авторские права и разрешения, а также доступ.

    Внутренний оранжевый круг описывает ежедневные задачи, связанные с бизнесом
    по архивированию сети. К этим задачам относятся следующие:

    • Оценка и отбор: учреждения решают, какие именно веб-сайты они хотят собирать.
    • Область действия: учреждения могут архивировать части веб-сайта, целые сайты или даже целые веб-домены.
    • Сбор данных: учреждения точно настраивают способы сбора своих данных, принимая решения о частоте обхода (захвата) и типах файлов, которые следует архивировать или не архивировать. Этапы обзора и сбора данных жизненного цикла часто перекрываются, поскольку они включают аналогичные действия и решения.
    • Хранение и организация: этот шаг включает временный или долгосрочный план хранения архивных данных.Для некоторых учреждений фаза хранения и организации жизненного цикла может также составлять их деятельность по сохранению.
    • Обеспечение качества и анализ: учреждения проверяют, что они заархивировали, и насколько хорошо полученная коллекция соответствует целям, которые они поставили в начале жизненного цикла.

    В центре жизненного цикла находится сама коллекция, архивный веб-контент. Эти данные являются конечным результатом всех предыдущих шагов, и именно они будут сохранены.Сбор и сохранение коллекций данных лежит в основе всех действий по веб-архивированию и, следовательно, является центром модели.

     

    Модель жизненного цикла веб-архивирования: внешний круг
    Внешний круг: видение и цели

    Чтобы определить видение и цель веб-архивирования (см. рис. 2), учреждение должно задать себе вопрос, почему оно выбирает архивирование в Интернете, чего оно хочет достичь при этом и как эти шаги связаны с более широкой миссией учреждения.Этот шаг в цикле в первую очередь происходит, когда учреждения первоначально планируют свою программу; тем не менее, учреждения имеют тенденцию пересматривать и переопределять свои цели веб-архивирования на протяжении всего срока действия программы. Эти периоды пересмотра могут быть результатом определенного стимула, такого как изменение ресурсов, или могут быть постоянным вопросом, который рассматривается вместе с другими их политиками сбора и в связи с ними.

     

    Рисунок 2: Внешний круг: Видение и цели

     

    Учреждения памяти предпочитают архивировать Интернет по разным причинам, в зависимости от их собственных институциональных мандатов, а также целей их заинтересованных сторон.Некоторые учреждения предпочитают архивировать веб-сайты, потому что считают, что конкретный веб-контент находится под угрозой исчезновения и, следовательно, должен быть зафиксирован и сохранен доступным, особенно в случае
    быстро меняющихся спонтанных событий, таких как стихийные бедствия или техногенные катастрофы, политические восстания и
    памятников общественным деятелям. Другие учреждения уполномочены архивировать определенные публикации
    , которые доступны только в цифровом формате, такие как каталоги университетских курсов и отчеты и публикации государственных или местных агентств
    .Кроме того,
    некоторые учреждения имеют юридические полномочия архивировать все официальные записи, созданные учреждением в пределах их домена, создавая историческую
    запись присутствия своего учреждения в сети с течением времени. Третьи учреждения рассматривают веб-архивирование как расширение своей всеобъемлющей политики развития коллекций или своих программ цифрового сохранения, и они могут архивировать веб-контент, который расширяет или дополняет темы, уже подчеркнутые в их традиционной деятельности по сбору.Исследователи и ученые также признают растущее влияние сайтов социальных сетей и важность создания тематического/тематического веб-архива по конкретному предмету или теме, который включает различные точки зрения и социальные комментарии, доступные только в твитах, блогах, сообщениях и комментариях. Кроме того, государственные и местные архивы должны фиксировать профили в социальных сетях и деятельность выбранных ими должностных лиц и агентств. Многие учреждения преследуют разные цели и в результате создают несколько коллекций для достижения каждой цели.Независимо от конкретного видения каждой программы веб-архивирования, оно формирует многие политики и решения, принимаемые на более поздних этапах жизненного цикла веб-архивирования.

    Например, библиотека Колумбийского университета работает с Archive-It с 2008 года. Библиотека собирает веб-контент в нескольких областях. Во-первых, библиотека захватывает веб-домен Колумбийского университета в координации с университетским архивом. Во-вторых, в библиотеке есть несколько других коллекций, посвященных конкретным темам и темам: глобальные права человека, сохранение исторического наследия и городское планирование, а также религиозные учреждения Нью-Йорка.Эти рожденные в цифровом виде коллекции дополняют и дополняют существующую физическую деятельность библиотеки по сбору. Columbia описывает свою всеобъемлющую цель в веб-архивировании как «убежденность в том, что свободно доступный веб-контент [является] все более важным источником контента, необходимого для текущих и будущих исследований, который [] еще не интегрирован в модели развития коллекций академических библиотек» (Турман). и Фэллон, 2012).

    Подобно Колумбийскому университету, Университет Альберты также осознал, что университет не собирает исходный цифровой материал и что ему необходимо включить веб-архивирование в свое видение стратегии сохранения цифровых данных.Однако университет не начинал с такого ясного видения. Первоначально Университет Альберты унаследовал более восьмидесяти веб-сайтов от некоммерческой организации, которая потеряла финансирование. Понимая, что размещение этих веб-сайтов потребует больших ресурсов, университет применил подход «архивирования», который, по их мнению, будет более устойчивым способом сохранения контента. Таким образом, Университет Альберты начал использовать приложение Archive-It для завершения этого проекта. Их первый год в Archive-It (2009 г.) был в основном сосредоточен на веб-сайтах, унаследованных от распущенной некоммерческой организации (Harder, 2012 г.).

    Начиная с 2010 года Университет Альберты начал использовать Archive-It в качестве более широкого инструмента для разработки коллекций. Развитие национальных программ веб-архивирования в Канаде не так активно, как в некоторых других странах. Чтобы помочь восполнить этот пробел, университетская библиотека начала серьезно собирать
    в нескольких областях, в том числе: политика и экономика канадских прерий,
    правительственные документы, серая литература по бизнесу и наукам о здоровье, циркумполярные исследования и учебные материалы для провинциального образования.Таким образом, видение их программы Archive-It
    соответствует их политике развития коллекций для их нецифровых коллекций. Две из их больших проблем
    в будущем связаны с уточнением их стратегии открытия и улучшением видимости
    их коллекций. Их особенно интересует, как наиболее эффективно обеспечить доступ к
    своим веб-архивам наряду с другими цифровыми коллекциями. Поскольку университет занимается цифровой стипендией
    , они хотят убедиться, что исследователи могут использовать свои веб-архивные коллекции точно так же, как сейчас они используют другие ресурсы (Harder 2012).

    Государственная библиотека Монтаны (MSL) предлагает пример другого институционального видения. Веб-архив MSL предназначен для архивирования государственных документов, которые теперь часто доступны только в Интернете. Их цель состоит в том, чтобы «удовлетворить информационные потребности сотрудников государственных учреждений, обеспечить постоянный публичный доступ к государственным публикациям, поддержать библиотеки Монтаны в предоставлении качественного библиотечного контента
    и услуг, работать над укреплением публичных библиотек Монтаны и предоставить жителям Монтаны с недостатками зрения или физическими недостатками доступ к библиотечные ресурсы» (Даунс, Каммерер и Стоквелл, 2012 г.).
    Сотрудник библиотеки штата Монтана резюмирует причины, по которым библиотека архивирует Интернет: «С резким снижением количества представленных печатных публикаций и
    обратным, экспоненциальным ростом числа веб-публикаций, Archive-It полностью вытеснил
    историческая государственная депозитарная библиотечная традиция приобретать и распространять печатные государственные издания по одному
    за раз» (Downs, Kammerer and Stockwell 2012). В начале своей подписки в 2007 году библиотека штата Монтана установила одну политику для управления большинством аспектов своей программы веб-архивирования
    , включая критерии выбора того, что следует архивировать, частоту сканирования и охват.
    Взаимодействие между Archive-It и MSL с 2007 года показывает, что этот подход был
    успешным и отвечает целям государственной библиотеки.

     

    Внешний круг: ресурсы и рабочий процесс

    Рисунок 3: Внешний круг: ресурсы и рабочий процесс

     

    Фаза ресурсов и рабочего процесса жизненного цикла может быть интерпретирована несколькими способами. В контексте внешнего круга WALCM учреждения изучают ресурсы и рабочие процессы, которые можно использовать для создания или поддержки программы веб-архивирования всего учреждения (см. рис. 3).Таким образом, ресурсы и рабочий процесс можно рассматривать аналогично «политике», поскольку они могут применяться во многих областях модели жизненного цикла веб-архивирования. Ресурсы и рабочий процесс также следует рассматривать как общие термины управления программой, которые можно применять к каждому из элементов внутреннего кольца модели. В этом контексте ресурсы и рабочий процесс становятся частью
    повседневных операций веб-архивирования. Например, сколько времени организация может потратить на просмотр своих обходов или сколько людей должны добавить веб-сайты в приложение Archive-It? В последующих разделах этого документа будут подробно обсуждаться конкретные рабочие процессы управления.

    Одним из ключевых ресурсов, которыми располагают организации, является их персонал. Углубленные обсуждения с несколькими партнерами Archive-It весной и летом 2012 года, а также опрос коллег-партнеров Archive-It, проведенный Университетом Маркетта, выявил некоторые исчерпывающие данные о кадровых моделях, действующих в широком диапазоне Партнерские учреждения Archive-It. Из тридцати семи учреждений, принявших участие в опросе Университета Маркетта, в одной трети есть два или более человека, участвующих в Archive-It, а более 25% — четыре или более человека.Опрос также показал, что половина опрошенных учреждений тратят менее одного часа в неделю на работу со своими учетными записями Archive-It, а 44% тратят от 1 до 5 часов в неделю на работу с приложением. В опросе Marquette респондентов также попросили описать типы людей, работающих в Archive-It. В таблице 1 представлены эти результаты; обратите внимание, что респонденты могли выбрать более одной группы сотрудников, поэтому сумма результатов не дает 100% (Sweetser 2011).

    Таблица 1: Тип персонала учреждения, работающего с Archive-It

    Сотрудники архива
    64%
    Персонал библиотеки
    42%
    Персонал цифровых проектов
    30%
    Персонал информационных технологий
    8%
    Другое (например, студенты или «веб-команда»)
    8%

    Источник: Sweetser 2011

    Обсуждения с шестью партнерами Archive-It, упомянутыми в этом документе, показали результаты, аналогичные результатам опроса Маркетта.Партнеры предоставили подробную информацию о штатном расписании Archive-It, в том числе о количестве сотрудников и характере их работы. Результаты обобщены в Таблице 2. Эти результаты имеют еще одно сходство с результатами опроса Университета Маркетта: большинство сотрудников, как правило, приходят из библиотек или архивов (команда Archive-It делает вывод, что предметные специалисты и кураторы метаданных являются частью библиотечного персонала), с дополнительным привлечением сотрудников по информационным технологиям и студентов.

    В дополнение к укомплектованию персоналом ресурсы и рабочий процесс в этой модели также охватывают то, как учреждения управляют другими ресурсами.Например, Колумбийский университет использует внутреннюю базу данных для отслеживания любой информации, которую нельзя включить в приложение Archive-It, такой как административная информация и данные о разрешениях с сайтов, с которыми они связывались. Другим примером является решение о сотрудничестве и разделении управления программой веб-архивирования между Государственной библиотекой Северной Каролины и Государственным архивом Северной Каролины. Эти два учреждения управляют единой коллекцией веб-сайтов правительственных учреждений штата. При разделении повседневной работы у двух агентств есть несколько хорошо отлаженных рабочих процессов, которые они разработали с тех пор, как впервые начали использовать Archive-It в 2005 году.Государственная библиотека и архивы попеременно несут ответственность за проведение сканирования, и оба учреждения осуществляют контроль качества собранных данных. Отдельные сотрудники менялись на протяжении многих лет; однако, несмотря на эту текучесть кадров, учреждения обнаружили, что их партнерство «легко поддерживать» (Eubank, et al. 2012).

    Таблица 1: Количество и тип персонала, работающего с Archive-It

    Учреждение
    Количество задействованного персонала
    Штатное расписание
    Колумбийский университет
    1, при некотором участии других сотрудников
    В настоящее время (2012 г.) один куратор веб-сайтов выполняет сканирование, определяет исходные значения и управляет учетной записью Archive-It, хотя в прошлом у них было два куратора веб-сайтов.Студенты, кураторы метаданных и веб-программисты также используют различные части приложения на более ограниченной основе.
    Университет Крейтона
    1
    Университет Крейтона имеет одного штатного архивариуса, и одной из его обязанностей является администрирование Archive-It; он также получает небольшую помощь от других в Библиотеке.
    Университет Альберты
    1 ведущий технический специалист, до 40 человек, активно регистрирующихся в приложении
    Университет Альберты имеет очень большую сеть людей, активно использующих Archive-It, многие из которых являются профильными специалистами.
    Государственная библиотека Монтаны
    3
    Наиболее активными пользователями являются библиотекарь государственных изданий (который курирует программу), каталогизатор метаданных и программист/аналитик библиотечных систем, занимающийся техническими вопросами.
    Государственная библиотека Северной Каролины и Государственный архив Северной Каролины
    4
    Управление архивом — поровну состоит из двух представителей государственной библиотеки и государственных архивов.

    Из шести учреждений Archive-It, упомянутых в этом документе, Университет Альберты имеет самую большую программу веб-архивирования с точки зрения персонала. Университет Альберты начал использовать Archive-It с небольшой командой из нескольких человек в 2009 году, и с тех пор команда выросла до более чем двадцати двух человек, активно участвующих в программе. Они также привлекли к своей работе ряд профильных специалистов. Кроме того, в команде есть библиотекарь правительственных документов и библиотекарь метаданных, участвующие в приложении.Представитель отдела информационных технологий поддерживает этих людей и отправляет их вопросы сотрудникам Archive-It в Internet Archive. На более высоком уровне в библиотеке есть «прирожденная цифровая рабочая группа», состоящая из сотрудников со всей библиотеки. Эта группа, состоящая в основном из специалистов по разработке коллекций, помогает формировать политику веб-архивирования в целом и использования Archive-It в частности. Кроме того, группа пользователей Archive-It, имеющая широкую членскую базу, накапливает знания об Archive-It и делится ими.

    В отличие от Университета Альберты, в Крейтонском университете есть только один архивариус, который управляет университетской подпиской на Archive-It, а также первоначально отстаивал ее как необходимый ресурс. Дэвид Кроуфорд узнал об Archive-It на конференции Общества американских архивистов в 2008 году и работал над созданием поддержки для создания подписки на Archive-It в Крейтоне. В конце концов, он получил пожертвование от члена правления, чтобы начать их программу веб-архивирования, оплатив подписку на Archive-It.Использование такого инструмента, как Archive-It, позволяет Кроуфорду выполнить свою задачу по архивированию веб-присутствия университета, чего он не смог бы сделать самостоятельно из-за отсутствия собственного опыта (Crawford 2012). Опыт Кроуфорда по самостоятельному созданию поддержки веб-архивирования, кажется, согласуется с взаимодействием Internet Archive с другими небольшими учреждениями, такими как Крейтонский университет. Небольшим учреждениям часто требуется больше времени, чтобы запустить свою программу из-за меньшего количества персонала и финансовых ресурсов.Некоторые небольшие колледжи и университеты сформировали консорциумы для поддержки своих программ веб-архивирования, чтобы расширить свой пул ресурсов для веб-архивирования (см., например, Консорциум трех колледжей Брин-Мор, Суортмор и Хаверфорд: http://www.archive- it.org/organizations/74, одного из первых пилотных партнеров Archive-It).

     

    Внешний круг: доступ/использование/повторное использование

    Создание политик доступа, использования и повторного использования жизненно важно для успешной программы веб-архивирования (см. рис. 4).Учреждения обдумывают, хотят ли они и каким образом предоставлять открытый доступ к своим веб-архивам, если и как продвигать коллекции, а также как регулировать публичное использование материалов. Управление этими процессами является основной целью фазы доступа/использования/повторного использования жизненного цикла веб-архивирования.

    Частью создания политики доступа будет выбор конкретной технологии или инструмента для предоставления доступа к заархивированным веб-страницам. Однако для целей этой модели команда Archive-It вместо этого рассматривает решения политики более высокого уровня в отношении доступа.Отчасти это связано с тем, что все люди, опрошенные для этого проекта, получают доступ к веб-архивам с помощью программного обеспечения Wayback, инструмента просмотра с открытым исходным кодом, который позволяет публике просматривать архивные веб-страницы так же, как они могли бы просматривать живую веб-страницу.

    Большинство партнеров Archive-It размещают свой архивный контент в открытом доступе, хотя все большее их число требует, чтобы какой-то контент оставался ограниченным в течение определенного периода времени — либо определенный URL-адрес, либо домен, отдельная коллекция или вся их учетная запись с несколькими коллекции.И команда Archive-It начинает получать больше запросов на ограничение контента по IP-адресу, чтобы обеспечить большую гибкость доступа к читальным залам в университетских библиотеках. (Примечание: эта функция ожидается в апреле 2013 г.).

     

    Рисунок 4: Внешний круг: доступ/использование/повторное использование

     

    Партнеры Archive-It могут направлять своих клиентов на веб-сайт Archive-It (http://www.archiveit.org) для доступа к коллекциям, или они могут ссылаться на свои коллекции со своего сайта через окно поиска или ссылки на программное обеспечение Wayback. Оба подхода работают для партнеров в зависимости от их потребностей в доступе. Многие партнеры Archive-It создают отдельные целевые страницы для своих коллекций в соответствии со стилем своей организации. Например, Государственная библиотека Северной Каролины и Государственный архив Северной Каролины предоставляют доступ к своим коллекциям Archive-It со своего собственного веб-сайта. Они создали надежный портал, который предоставляет информацию о веб-архивах для общественности и специалистов в области информации, а также инструкции по использованию веб-архивов (http://webarchives.ncdcr.gov/) (см. рисунки 5 и 6). Дополнительные примеры целевых страниц партнеров Archive-It можно найти в Интернете по адресу https://webarchive.jira.com/wiki/display/ARIH/Partners%27+Web+Pages+for+Archive-It+Collections. Университет Крейтона, с другой стороны, выбрал другой подход. Они направляют своих посетителей на веб-сайт Archive-It для доступа к коллекциям и не предоставляют доступ со своего институционального веб-сайта. По словам Дэвида Кроуфорда, они предпочитают, чтобы их покровители были «самоуправляемыми» (Crawford 2012).

     

    Рисунок 5: Домашняя страница архива веб-сайта правительства штата Северная Каролина, http://webarchives.ncdcr.gov/

     

    Рисунок 6: «О программе» Архив веб-сайта правительства штата Северная Каролина, http://webarchives.ncdcr.gov/about.html

     

    Подобно Государственной библиотеке Северной Каролины и Государственному архиву Северной Каролины, Государственная библиотека Монтаны также создала на своем веб-сайте портал, обеспечивающий доступ к своим коллекциям Archive-It (http://msl.mt.gov/For_State_Employees/connect/default.asp).1 Помимо предоставления доступа к данным, собранным с помощью службы Archive-It, библиотека штата Монтана извлекла старые веб-страницы, датированные 1996 годом, из общего веб-архива Интернет-архива. Эти веб-страницы доступны на портале вместе с их данными Archive-It, которые датируются 2006 годом. Цель библиотеки по предоставлению доступа через собственный веб-сайт состоит в том, чтобы «создать единый идентифицируемый бренд, который будет ассоциироваться с правительственной информацией штата» (Downs , Каммерер и Стоквелл, 2012 г.).Государственная библиотека Монтаны также нашла другие новаторские способы привлечь внимание к своим веб-архивам. Все веб-страницы библиотеки штата Монтана содержат ссылку «история страниц» в нижнем колонтитуле. Эти ссылки направляют посетителей на заархивированные версии веб-страницы, чтобы они могли увидеть, как она менялась с течением времени. Например, «история страниц» на домашней веб-странице государственной библиотеки http://msl.mt.gov/2 направляет посетителя к списку легко просматриваемых дат записи для этой веб-страницы: http://wayback.archive-it .org/499/query?type=urlquery&url=http://msl.mt.gov/&dates= (см. рис. 7 и 8).

     

    Рисунок 7: Домашняя страница библиотеки штата Монтана, http://msl.mtp.gov/

     

    Рисунок 8: Нижний колонтитул домашней страницы библиотеки штата Монтана

     

    Внешний круг: Сохранение

    Рисунок 9: Внешний круг: консервация

     

    Данные, собранные при подготовке этого документа, свидетельствуют о том, что сохранение представляет собой развивающуюся проблему для организаций, занимающихся архивированием в Интернете, что идет рука об руку с меняющимся характером цифрового хранения и развитием цифровых репозиториев (см. рис. 9).Команда Archive-It обнаружила, что их партнеры, как правило, используют несколько разных стратегий сохранения. Многие учреждения, работающие со службой Archive-It, полагаются на Интернет-архив для хранения и сохранения своих файлов WARC и связанных с ними метаданных. Есть несколько партнеров, которые также
    получают копию своих данных на жестком диске или загружают свои файлы WARC непосредственно с серверов Internet
    Archive. Несколько партнерских учреждений работают над включением файлов WARC в свои локальные цифровые хранилища, хотя эти проекты все еще находятся в зачаточном состоянии.Интернет-архив следует передовым методам сохранения с избыточностью, прозрачностью и проверкой целостности данных. А служба Archive-It работает с несколькими системами хранения, чтобы облегчить другие критерии для удовлетворения потребностей наших партнеров.

    Согласно недавнему опросу, проведенному партнерами Archive-It, партнеры действительно хотят сохранять свои данные и иметь несколько копий своих данных в разных местах. Однако они ломают голову над тем, как туда добраться. В ходе опроса 56% респондентов ответили, что хотели бы хранить свои данные в собственном локальном хранилище (независимо от используемой платформы).Однако 31% партнеров сообщили, что предпочитают хранить свои данные в Интернет-архиве либо потому, что они довольны этой стратегией, либо потому, что у них нет средств для хранения данных в другом месте. Примерно 60% респондентов еще не имеют локального цифрового хранилища. Две наиболее часто упоминаемые причины отсутствия репозитория — это «неуверенность в своих потребностях» и «выбор системы» (Hanna 2012). Эти результаты наряду с неподтвержденной информацией, собранной на протяжении многих лет от партнеров Archive-It, убедительно свидетельствуют о том, что партнеры сталкиваются с проблемами сохранения данных, которые они собирают в результате веб-архивирования, и можно ожидать существенных изменений в этой области модели в ближайшем будущем. годы.

     

    Внешний круг: управление рисками

    Рисунок 10: Внешний круг: Управление рисками

     

    При разработке программы веб-архивирования многие учреждения учитывают уровень риска, связанного с авторским правом, который они готовы принять, и то, как они будут управлять этим риском (см. рис. 10). Вопрос о том, решают ли учреждения запрашивать разрешение у владельцев сайтов перед архивированием, и если да, то каким образом, является одним из самых ярких примеров разработки политики управления рисками в действии.Служба Archive-It уже давно использует robots.txt (веб-стандарт) в качестве инструмента управления разрешениями, который позволяет владельцам сайтов автоматически исключать свои сайты из процесса архивирования. В дополнение к протоколу robots.txt партнеры Archive-It иногда обращаются к владельцам веб-сайтов, чтобы получить письменное разрешение, прежде чем начать сбор урожая.

    Например, Колумбийский университет связывается с владельцами сайтов напрямую и официально запрашивает разрешение на архивирование веб-сайтов до того, как они начнут сбор урожая.Это многонедельный процесс, в ходе которого с владельцем сайта связываются дважды. Если по истечении трех недель нет ответа на первый контакт, команда Колумбийского университета отправляет дополнительное сообщение. Если они по-прежнему ничего не слышат по прошествии дополнительных трех недель, они приступают к сбору урожая. В целом процент ответов Columbia составляет 52%: из 783 сайтов, с которыми связались, 400 ответили и дали разрешение, 378 не ответили, и только пять владельцев сайтов ответили отрицательно, попросив не архивировать их сайты (Thurman and Fallon 2012).Точно так же Университет Альберты выборочно запрашивает разрешение для сайтов, которые они архивируют. Это решение было основано на обсуждениях с их юридическим отделом, который дал им «порог риска», которому они должны следовать, и они спрашивают разрешения, когда это необходимо, чтобы оставаться в этом пороге (Harder 2012).

    Решения по управлению рисками также можно увидеть в выборе, который делают учреждения, решая, какие сайты архивировать. Первоначально Государственная библиотека Северной Каролины и Государственный архив Северной Каролины собирали только веб-сайты государственных учреждений.Однако в 2009 году они начали собирать каналы государственных учреждений в социальных сетях, таких как Facebook, Twitter и Flickr. Несмотря на то, что контент находился на стороннем веб-сайте и не контролировался агентством штата Северная Каролина, архивисты и библиотекари приняли решение продолжить архивирование после взвешивания потенциальных рисков и результатов (Eubank, et al., 2012). ).

    Не все организации запрашивают разрешение перед записью контента; многим организациям ясно, что как архив и/или библиотека, их организация имеет право и полномочия собирать общедоступный контент в онлайн-режиме.«Добросовестное использование» — это фраза, которую команда Archive-It слышит от партнеров, когда принимает решение о захвате общедоступного веб-контента. Во многих случаях мандат организации распространяется на игнорирование robots.txt в CSS и таблицах стилей, чтобы архивированная веб-страница отображалась полностью. В некоторых случаях эта политика включает в себя сбор документов и/или веб-сайтов исследователями и историками (включая общедоступный контент на сайтах социальных сетей), чтобы иметь возможность представить точное и всестороннее изображение предмета.

    Риском можно управлять и снижать его упреждающе, и иногда учреждениям может потребоваться решить потенциальные проблемы, возникающие после архивирования контента. В Крейтонском университете фотограф был расстроен тем, что его веб-сайт был заархивирован, несмотря на то, что сайт был частью общедоступного веб-пространства университета и, следовательно, сканировался в соответствии с политикой управления записями университета. Университет Крейтона решил удалить веб-сайт из архива и работал с командой Archive-It, чтобы решить эту проблему, и содержимое было удалено в течение нескольких часов.С тех пор Крейтонский университет решил, что если возникнет риск неловкости или судебного разбирательства, они удалят контент из веб-архива (Crawford 2012).

    Примечание. Служба Archive-It не выступает против авторских прав и следует Политике архивов Окленда, принятой в 2002 г., стремясь сотрудничать с поставщиками контента. Служба будет выполнять запросы на удаление контента из общего доступа.

     

    Модель жизненного цикла веб-архивирования: серая полоса
    Серая полоса: метаданные и описание

     

    Рисунок 11: Серая полоса: метаданные и описание

     

    Основываясь на информации от партнеров, команда Archive-It пришла к выводу, что часть цикла веб-архивирования, связанная с метаданными и описанием, как и политика, значительно пересекается с другими этапами цикла (см. рис. 11).Поэтому было принято решение представить метаданные и описание как охватывающую полосу модели, а не как отдельную часть процесса. Как и в случае с большинством аспектов веб-архивирования, передовой опыт развивается в отношении использования и создания метаданных и описательных тенденций для веб-архивов. Однако команда Archive-It может сделать некоторые выводы на основе того, как учреждения используют функции метаданных и описаний в Archive-It. Данные, собранные внутри команды Archive-It в 2013 году, показывают, что более 90 % партнеров Archive-It генерируют метаданные на уровне коллекции, 60 % — исходные метаданные и 15 % — метаданные на уровне документа.Семена — это URL-адреса отправной точки для веб-сканирования, а документы — это отдельные заархивированные веб-страницы. Кроме того, эти же данные показали, что 60% партнеров создают метаданные как коллекции, так и исходных данных. Некоторые партнеры, такие как Колумбийский университет, генерируют значительный объем метаданных для своих коллекций Archive-It и работают с Archive-It над изменением и расширением функциональности метаданных приложения. Хотя прошлые статистические данные о создании метаданных недоступны, на основе неофициальных данных команда Archive-It считает, что темпы создания метаданных партнерами выросли.Опрос Маркетта подтверждает эти выводы. В опросе задавались вопросы о том, как партнеры Archive-It используют описательные функции приложения. Основные результаты опроса включают:

    • 35% респондентов подготавливают метаданные на уровне коллекции сверх обязательного поля описания
      .
    • 19% респондентов подготавливают метаданные для отдельных документов, собранных с помощью Archive-It
      Сканирование.
    • 75% тех, кто подготавливает метаданные для отдельных документов, создают их вручную,
      вместо того, чтобы брать их с сайта.
    • Большинство респондентов опроса не каталогизируют содержимое Archive-It ни на одном уровне
      (коллекция, источник или документ) в своих внешних системах каталогов. (Свитсер, 2011).

    В целом, авторы опроса Marquette пришли к выводу, что партнеры Archive-It, вероятно, не генерируют метаданные для своих коллекций в самом приложении Archive-It. Свитсер предлагает три возможные причины этого: «Организации еще не приступили к подготовке метаданных в Archive-It и все еще находятся в зачаточном состоянии с точки зрения своих усилий по веб-архивированию.Организации не верят, что создание метаданных оправдано или полезно, [и] организации сосредотачивают свои методы создания метаданных на областях, выходящих за рамки платформы Archive-It» (Sweetser 2011).

     

    Жизненный цикл веб-архивирования: внутренний круг

    Предыдущие фазы жизненного цикла были частью внешнего круга модели, который относится к более широким вопросам, связанным с созданием и определением институциональной программы веб-архивирования. Остальные этапы модели или те, что находятся во внутреннем круге, описывают повседневную деятельность по управлению программой веб-архивирования.

     

    Внутренний круг: оценка и отбор

    Этап оценки и выбора веб-архивирования включает в себя выбор конкретных веб-сайтов для захвата (см. рис. 12). Этот шаг включает в себя более детализированные, конкретные точки принятия решений, чем более широкая политическая фаза жизненного цикла «видение и цели». При разработке политики учреждения
    предусматривают общие планы для всей программы, например, какие предметы будут включены в деятельность по сбору
    . Однако на этапе оценки и выбора учреждения выбирают конкретные URL-адреса, которые они будут архивировать.Как показывают последующие примеры, учреждения могут делать этот выбор различными способами, при этом вклад в него могут вносить различные типы людей.

    Государственные архивы и библиотеки, например, обычно сосредотачивают свои усилия по веб-архивированию в первую очередь на веб-сайтах и ​​записях государственных учреждений, собирая эти URL-адреса. Это относится к Государственной библиотеке Монтаны, Государственной библиотеке Северной Каролины и Государственному архиву Северной Каролины. Однако в случае с Северной Каролиной они также архивируют каналы социальных сетей, созданные государственными органами на Facebook, Twitter и Flickr, поскольку они рассматривают эти каналы как расширения официальных веб-записей.Это политическое решение более подробно описано в разделе об управлении рисками данного документа.

     

    Рисунок 12: Внутренний круг: оценка и отбор

     

    Университеты, которые архивируют веб-сайты, иногда применяют другой подход к оценке сайтов. Они, как правило, архивируют веб-присутствие университета и / или создают коллекции на основе определенных тем. Например, основные тематические области коллекций веб-архивов Колумбийского университета и Университета Альберты включают, соответственно, вопросы прав человека и канадскую промышленность и культуру.Преобразование основных целей учреждения в список сайтов для сканирования является целью процесса оценки и отбора. Например, для этого Университет Альберты работает с тематическими связными, чтобы выбрать URL-адреса. Оценка и отбор — это развивающаяся область, о которой команда Archive-It узнает больше от своих партнеров, поскольку их потребности становятся все более тонкими и изощренными.

     

    Внутренний круг: обзор

    После выбора сайтов для архивирования учреждения должны решить, хотят ли они архивировать все веб-сайты или их части (см. рис. 13).Это можно сделать до захвата первой страницы или после сбора контента в рамках общей проверки качества коллекции. Эта часть жизненного цикла может быть довольно технической в ​​зависимости от их параметров области и форматов веб-контента, которые они захватывают.

     

    Рисунок 13: Внутренний круг: обзор

     

    Служба Archive-It предоставляет организациям несколько способов настройки объема сканирования.Во-первых, партнеры могут ограничить объем сканирования, указав в качестве отправной точки для сканирования только часть веб-сайта, а не весь веб-сайт. Например, учреждение может выбрать для архивирования http://www.ncgov.com/government/index.aspx вместо http://www.ncgov.com/ и будет захватывать только страницы, вложенные в этот URL-адрес. Архив. Он также включает в себя другие инструменты, которые могут ограничить объем сканирования сайта. Согласно результатам недавнего опроса, 73% респондентов сообщают, что хотя бы иногда используют инструмент ограничения хоста.Инструменты ограничения хоста позволяют партнерам ограничивать контент, захваченный с определенных хостов или доменов. Например, организация может не захотеть собирать сторонние изображения, встроенные в целевой веб-сайт, или может захотеть исключить
    контент из определенных частей хост-сайта, таких как результаты поиска. Ограничение продолжительности обхода
    с помощью ограничений по времени является вторым наиболее часто используемым инструментом, о чем сообщили 64% респондентов (Hanna
    , 2012 г.).

    Кроме того, некоторые партнеры хотят захватывать только один формат, например PDF-файлы, со своих целевых веб-сайтов.В настоящее время 27% партнеров Archive-It запускают сканирование, которое захватывает только PDF-файлы, и команда ожидает увеличения этого процента по мере того, как PDF-файлы становятся все более распространенными в Интернете и все чаще становятся единственной доступной копией записи (Hanna 2012). Служба Archive-It изучает возможность добавления этой возможности для других типов форматов файлов.

    Поскольку сайты социальных сетей становятся все более важным компонентом деятельности партнеров по сбору данных, Archive-It изучает способы предоставления более надежных решений для захвата и доступа к социальным сетям.Партнеры Archive-It в первую очередь заинтересованы в архивировании Facebook, Twitter, Flickr и YouTube по состоянию на декабрь 2012 года. Сайты социальных сетей, как правило, перегружены flash и javascript, двумя форматами файлов, которые трудно захватить и отобразить. Кроме того, способ создания веб-страниц на этих сайтах меняется гораздо чаще, чем на традиционных html-сайтах, что требует постоянно меняющихся передовых методов определения области видимости для этих сайтов.

    Как упоминалось выше, процесс определения масштаба может быть довольно техническим, и партнеры иногда оказываются в прихоти сайтов или форматов файлов, которые не подходят для архивирования.Регулярные выражения, SURT, наложение данных и/или ограничений по времени и другие правила области могут помочь партнерам ориентироваться в сложном мире архивирования веб-контента. Сложности, связанные с эффективным сканированием, стали неожиданностью для команды из Университета Альберты. Они обнаружили, что им необходимо перенастраивать свои политики во время сканирования, иногда адаптируясь к типу данных, которые они действительно могут собрать, учитывая, что некоторый контент может быть трудно собрать (Harder 2012). Точно так же Университет Крейтона также обнаружил, что определение области сканирования требует некоторой дополнительной работы; Дэвид Кроуфорд считает, что ему часто приходится знакомить людей в кампусе с веб-пространством, и он пытается работать с веб-программистами, чтобы просить их учитывать потребности сканирования при внесении изменений на сайты в будущем (Кроуфорд, 2012).

     

    Внутренний круг: сбор данных

    Рисунок 14: Внутренний круг: сбор данных

     

    После того, как учреждения выбрали, какие веб-сайты и сколько из этих сайтов они хотели бы захватить, они претворяют свои планы в жизнь на этапе сбора данных процесса (см. рис. 14). Здесь они будут иметь дело с гайками и болтами программного обеспечения для сканирования. Они определят частоту и время сканирования, а также время, когда следует прекратить длительное сканирование, а затем запустят сканирование.Приложение Archive-It включает в себя функции, которые позволяют партнерам вносить коррективы в настройки частоты и продолжительности в веб-сканере с открытым исходным кодом (Heritrix).

    Планирование сканирования для непрерывного и повторяющегося сбора данных — это область, в которой учреждения, использующие Archive-It, осуществляют значительный контроль над своим сканированием. Archive-It допускает девять повторяющихся частот сканирования от двух раз в день до ежегодного, а также однократное сканирование, которое не повторяется. Данные, собранные в 2013 году, показали, что 71% всех партнеров Archive-It используют более одной частоты сканирования.Другими словами, они не сканируют все свои сайты с одинаковым интервалом; они используют разные расписания для разных коллекций и веб-сайтов в зависимости от того, как часто они хотят захватывать определенные сайты. На момент сбора данных самыми популярными частотами сканирования были один раз, еженедельно и ежемесячно.

    Учитывая, насколько разнообразны веб-сайты с точки зрения их структуры и конструкции, этап сбора данных веб-архивирования может преподнести ряд сюрпризов. Например, сайт может быть намного больше, чем предполагалось, и, следовательно, исчерпать ресурсы хранения.Точно так же у веб-мастеров есть способы предотвратить архивирование своих сайтов, что может потребовать технологического вмешательства или переговоров между вовлеченными сторонами. Например, Дэвид Кроуфорд из Крейтонского университета столкнулся с проблемами при архивировании веб-сайтов, проблемами, которые, как он знал, могли предотвратить веб-мастера. Когда он начал обсуждать проблемы с веб-мастерами, он был удивлен тем, как мало они знают о внутренней работе своих веб-сайтов (Crawford 2012). Чтобы попытаться предотвратить неожиданности при сборе данных, Archive-It рекомендует партнерам использовать функцию тестового сканирования, которая создает полный набор отчетов о просканированных данных без фактического сбора этих данных.Эта опция позволяет учреждениям видеть, что они заархивировали, не используя свои ресурсы без необходимости. Недавний опрос партнеров Archive-It показывает, что 69% респондентов всегда или часто запускают тестовое сканирование при добавлении новых семян или создании новой коллекции (Hanna 2012).

     

    Внутренний круг: обеспечение качества и анализ

     

    Рисунок 15: Внутренний круг: обеспечение качества и анализ

     

    После того как учреждения получают данные с нужных им сайтов, они просматривают заархивированные данные и оценивают их качество и полноту (см. рис. 15).Это можно сделать с помощью отчетов, созданных поисковыми роботами, или путем просмотра самих заархивированных веб-сайтов с помощью инструмента доступа, такого как программное обеспечение Wayback. Процесс веб-архивирования может включать пробы и ошибки. Как и в большинстве аспектов веб-архивирования, среди учреждений, занимающихся архивированием веб-сайтов, не существует единого передового метода обеспечения качества (QA). Однако среди партнеров Archive-It существуют некоторые общие тенденции в отношении типов просматриваемой информации о сканировании.

    Несмотря на то, что количество времени и внимания, которое каждое учреждение тратит на обеспечение качества, варьируется в зависимости от уровня их персонала и их целей в веб-архивировании, по некоторым данным, партнеры сообщают, что тратят больше времени на обеспечение качества и просмотр отчетов, когда они первоначально создают новую коллекцию или когда они добавить новые семена в существующую коллекцию.После запуска повторяющихся сканирований QA становится скорее спорадическим или обслуживающим действием и требует меньше времени и внимания.

    Данные опроса

    Archive-It показывают, что большинство партнеров часто или всегда просматривают свои отчеты после сканирования, созданные в рамках службы. Учреждения, как правило, заинтересованы в том, сколько материала и какого именно материала они собирают, когда запускают программу веб-архивирования. Результаты летнего опроса партнеров Archive-It, проведенного летом 2012 г., показывают, что 68% ответивших учреждений регулярно просматривают отчеты принимающей стороны; только 11% редко или никогда не делают этого.Проверка отчетов может занять некоторое время, и рецензенты должны знать, какие аномалии следует искать. Три респондента опроса сказали, что нехватка персонала/ресурсов затрудняет анализ отчетов после каждого сканирования (Hanna 2012). В 2011 году служба внедрила автоматизированный инструмент контроля качества и возможность выполнять сканирование исправлений для URL-адресов верхнего уровня, которые не были полностью захвачены с первого раза. Ответ был положительным, и служба работает над расширением возможностей инструмента контроля качества.

    Некоторые партнеры разработали свои собственные инструменты контроля качества для работы с их контентом и соблюдения их институциональных рекомендаций.Например, чтобы помочь с рабочим процессом обеспечения качества, Государственная библиотека Северной Каролины разработала инструмент анализа внешних ограничений, который они используют для визуального просмотра встроенных документов и определения того, должны ли они быть в рамках будущих обходов. Этот инструмент с открытым исходным кодом доступен по адресу https://github.com/SLNCDIMP/Constraint-Analysis.

     

    Выводы и следующие шаги

    Модель жизненного цикла веб-архивирования — это первый шаг на пути к созданию набора передовых методов создания и обслуживания программы веб-архивирования.После более чем семи лет эксплуатации службы Archive-It и работы с дальновидными партнерами команде Archive-It стало ясно, что в Интернете действительно остается «беспорядок» и что это отвечает интересам всего веб-архивирования. сообщества продолжать совместную работу над поиском решений для захвата и отображения веб-контента. Поскольку технология продолжает развиваться, а информация все чаще публикуется исключительно в Интернете, все больше организаций всех размеров должны будут архивировать веб-контент.Многие из партнеров Archive-It были пионерами в веб-архивировании и с удовольствием делятся своими знаниями. И даже несмотря на то, что команда Archive-It делится своими знаниями в этом документе, команда знает, что Интернет и передовые методы веб-архивирования будут продолжать развиваться. Модель представляет собой попытку объединить технологические и программные средства веб-архивирования в структуру, которая будет актуальна для любой организации, стремящейся архивировать веб-сайты, независимо от размера организации, бюджета или технических методов веб-архивирования.

    Команда Archive-It предполагает, что модель жизненного цикла веб-архивирования и учреждения, которые с ней работают, достаточно гибкие, чтобы расти и развиваться вместе с веб-сайтом, который они пытаются архивировать.

     

    Каталожные номера

    Кроуфорд, Д., личное сообщение, июль 2012 г.

    Даунс, Б., Каммерер, Дж., и Стоквелл, К., личное сообщение, май 2012 г.

    Юбэнк, К., Грегори Л., Кенни, К., и Трент, Р., личное сообщение, июнь 2012 г.

    Ханна, К., личное сообщение, сентябрь 2012 г.

    Хардер, Г., личное сообщение, июнь 2012 г.

    Свитсер, М. (2011). Практика метаданных среди партнерских организаций Archive-It: положение дел. Получено с https://webarchive.jira.com/wiki/display/ARIH/Archive-It+Meeting+Presentations+2011

    Турман А. и Фэллон Т., личное сообщение, май 2012 г. и февраль 2013 г.

     

     

    Особая благодарность за вклад в разработку этой модели и технического описания:

    Дэвид Брукс (Библиотека Конгресса)
    Джеймс Джейкобс (Стэнфордский университет)
    Кент Норсуорти (Техасский университет в Остине)
    Скотт Рид (Интернет-архив)
    Сильви Ролласон-Касс (Интернет-архив)
    Сет Шоу (Университет Дьюка)
    Кэрол Шенк (Муниципальный архив Сиэтла)
    Сьюзан Томас (Бодлианская библиотека)

     

     

    О важности веб-архивирования – Пункты

    Веб-архивирование привлекло к себе повышенное внимание в популярных средствах массовой информации за последние несколько лет.Wayback Machine Интернет-архива, которая может воспроизводить прошлые версии веб-страниц, была упомянута в новостных статьях в New York Times и Washington Post , а также была отмечена Рэйчел Мэддоу из MSNBC и Джоном Оливером из HBO. Сама Wayback Machine была предметом статей в New Yorker и The Atlantic (в 2015 и 2017 годах). Веб-архивы использовались в качестве доказательств в судебных делах и в суде общественного мнения — часто для привлечения политиков и правительств к ответственности за то, что они говорили в прошлом.

    Но что такое веб-архивирование и чем оно лучше, чем просто создание снимка экрана веб-страницы? Во-первых, скриншотов может быть достаточно в качестве быстрого напоминания о том, как выглядела веб-страница, но такие изображения, как скриншоты, можно легко редактировать и манипулировать (и люди это знают), поэтому они не подходят в качестве доказательства. Кроме того, скриншоты статичны. Не может быть никакого взаимодействия со страницей — ни прокрутки, ни зависания, ни щелчка по ссылкам, ни даже раскрытия того, на какие веб-страницы ссылаются ссылки на странице.

    Веб-архивы, с другой стороны, записывают все содержимое веб-страницы, включая ее исходный HTML и встроенные изображения, таблицы стилей или исходный код JavaScript. При воспроизведении пользователь может взаимодействовать с заархивированной страницей, в том числе щелкать ссылки, чтобы узнать, к чему была подключена веб-страница. Кроме того, общедоступные веб-архивы создаются и хранятся независимыми архивными организациями, такими как Интернет-архив. Мы верим, что содержимое этих общедоступных веб-архивов не было подделано или злонамеренно манипулировано.

    Хотя Wayback Machine Интернет-архива является старейшим и крупнейшим общедоступным веб-архивом, это не единственный общедоступный веб-архив. Многие страны и национальные библиотеки имеют собственные веб-архивы. Некоторые известные общедоступные веб-архивы включают веб-архив Великобритании, веб-архив Библиотеки Конгресса США, archive.is, Archive-It и португальский веб-архив. Большой список международных инициатив по веб-архивированию доступен в Википедии.

    Хотя веб-архивы предоставляют ценную услугу, они не идеальны, и архивирование веб-страницы сильно отличается от архивирования физического объекта или даже статического файла, такого как PDF.С годами веб-страницы становятся все более сложными, и многие из них загружают сотни или даже тысячи изображений, таблиц стилей и ресурсов JavaScript, которые могут включать рекламу и средства отслеживания. Эти ресурсы JavaScript выполняются веб-браузерами, и многие из их взаимодействий не могут быть зафиксированы всеми веб-архивами. Встроенная и связанная природа HTML затрудняет прямое воспроизведение заархивированных веб-страниц, поэтому веб-архивы должны выполнять некоторые ограниченные преобразования исходной веб-страницы.Это включает в себя переписывание ссылок и местоположений встроенных ресурсов, чтобы они загружались из архива, а не из живой сети. Это предотвращает просмотр веб-страницы, снятой в 2012 году, например, и просмотр рекламы 2018 года, встроенной в эту веб-страницу 2012 года.

    Интернет-архив и другие архивы записывают части Интернета с 1996 года, предоставляя ученым-социологам огромное количество исторической информации о самом Интернете, недавней истории и культуре, а также о том, как Интернет изменил способ общения людей.Историк Ян Миллиган использовал веб-архивы для изучения онлайн-сообществ GeoCities, популярных в конце 1990-х годов и больше не доступных в Интернете. Он исследовал, как пользователи формировали свои собственные сообщества и взаимодействовали с другими в Интернете во времена, когда еще не было социальных сетей. Миллиган также считает, что сетевые архивы позволяют и улучшают изучение важных культурных и исторических событий за последние 20 лет: «Представьте себе, что вы пишете историю скандалов Билла Клинтона в середине 1990-х годов или террористических атак 11 сентября 2001 года, не используя архивные данные. сайты.”  Другие примеры использования веб-архивов для гуманитарных исследований описаны в недавно отредактированном томе «Сеть как история».

    Итак, как ученые и исследователи в области социальных наук могут использовать веб-архивы?

    Наша группа по веб-науке и цифровым библиотекам (WS-DL) в Университете Олд-Доминион (ODU) в течение последних восьми лет изучает проблемы, связанные с предоставлением исследователям возможности создавать собственные веб-архивы и делиться ими. Наша работа больше сосредоточена на внимательном чтении архивных материалов, чем на дистанционном чтении.Для тех, кто интересуется дистанционным чтением веб-архивов, проект Archives Unleashed, созданный совместно историками, библиотекарями и компьютерщиками, разрабатывает превосходные инструменты, позволяющие исследователям выполнять крупномасштабный анализ веб-архивов.

    Наша группа WS-DL разработала инструменты, которые позволяют пользователям локально архивировать веб-страницы во время просмотра веб-страниц и отправлять URL-адреса для архивирования в общедоступных архивах. Одна проблема с отправкой URL-адреса для архивирования, в отличие от создания локального архива, заключается в том, что то, что вы просматриваете в своем браузере, скорее всего, не будет точно таким же, как то, что будет записано в архив.Когда вы отправляете URL-адрес, поисковый робот получает указание загрузить веб-страницу с его точки зрения, без вашей геолокации или файлов cookie. Другая проблема заключается в том, что некоторые поисковые роботы, такие как Heritrix, который используется Интернет-архивом, не выполняют JavaScript при архивировании веб-страниц и поэтому могут пропустить ресурсы архивации, которые загружаются веб-браузером только после выполнения JavaScript (например, после того, как пользователь взаимодействие с веб-страницей).

    Создание и просмотр локальных веб-архивов

    Часто исследователи хотят создать архив просматриваемой веб-страницы.Это было мотивацией нашего проекта «Архивировать то, что я вижу сейчас», финансируемого NEH. Мы создали расширение Google Chrome, WARCreate, которое создает локальный архив веб-страницы, просматриваемой в данный момент в браузере. Это может быть страница, загружаемая после взаимодействия, например прокрутки, которая вызывает загрузку большего количества контента, или страница, которая отображается только после аутентификации, например учетная запись в социальной сети. Как следует из названия, WARCreate создает файл в стандартном формате WARC (Web ARChive), который сохраняется на локальном компьютере пользователя.Файлы WARC используются большинством веб-архивов для хранения результатов веб-сканирования. Несколько веб-ресурсов могут храниться в одном файле WARC. Эти файлы содержат содержимое веб-ресурсов вместе с метаданными, включая информацию заголовка HTTP.

    Когда у пользователей есть файлы WARC, они должны иметь возможность воспроизводить их. Поэтому мы создали WAIL (уровень интеграции веб-архивирования) как отдельное приложение, позволяющее пользователям воспроизводить локальные архивы. Кроме того, WAIL позволяет пользователям запускать обход веб-страниц. Таким образом, вместо простого архивирования отдельной страницы, как в случае с WARCreate, WAIL может создавать веб-архивы веб-страницы и всех ее ссылок или даже всего веб-сайта.В нашей последней версии WAIL используется pywb, версия программного обеспечения Wayback Machine на основе Python, для управления локальными коллекциями архивов и поисковый робот на основе браузера, который будет выполнять JavaScript перед созданием архива. Пользователи с локальными файлами WARC также могут использовать Rhizome Webrecorder Player, который может воспроизводить один файл WARC за раз.

    Отправка веб-страниц в публичные веб-архивы

    В некоторых случаях необходимо создать локальный веб-архив, но часто исследователи заинтересованы в архивировании общедоступных веб-страниц и могут захотеть легко поделиться этими заархивированными страницами в будущем.В этих ситуациях отправка URL-адреса веб-страницы в общедоступный веб-архив является лучшим вариантом. По сути, это будет просьба к архиву провести независимое наблюдение за веб-страницей, которая затем станет общедоступной для воспроизведения. Услуга «Сохранить страницу сейчас» в Интернет-архиве относительно хорошо известна, но мы настоятельно рекомендуем использовать несколько веб-архивов. Недавно были случаи, когда владельцы веб-страниц накладывали ограничения на воспроизведение своих страниц из интернет-архива, но не на все архивы распространяются эти ограничения.

    Мы создали несколько инструментов, позволяющих пользователям одновременно отправлять веб-страницы в несколько веб-архивов. Расширение браузера Mink Chrome не только предоставляет доступ к архивам страницы, просматриваемой в данный момент в браузере, но также позволяет пользователям отправить страницу на архивирование тремя разными архивами: Internet Archive, archive.is и WebCite. Те, кто знаком с Python, могут установить и использовать archivenow, что также позволяет пользователям создавать локальные WARC. Наконец, мы создали бота для Твиттера ICanHazMemento для архивирования URL-адресов, найденных в твитах.Пользователь может включить #icanhazmemento в твит с URL-адресом (или в ответ на твит, содержащий URL-адрес), и бот ответит ссылкой на заархивированную веб-страницу.

    Существует также несколько служб для архивирования веб-страниц по требованию, в том числе служба «Сохранить страницу сейчас» Интернет-архива, archive.is, WebCite и Webrecorder.io. В частности, Webrecorder.io — отличный браузерный сервис архивации. WebRecorder может создавать высококачественные архивы, включая весь код JavaScript на веб-странице.В отличие от многих других сервисов архивации по запросу, Webrecorder.io может архивировать страницы, прошедшие аутентификацию. Одна проблема, однако, заключается в том, что весь трафик проходит через серверы Webrecorder, включая конфиденциальные запросы или учетные данные, необходимые для загрузки определенных веб-страниц.

    Веб-архивы использовались в качестве доказательств в судебных делах и в суде общественного мнения — часто для привлечения политиков и правительств к ответственности за то, что они говорили в прошлом.

    Доступ к общедоступным веб-архивам

    После сканирования веб-страниц веб-архивом их можно воспроизвести в веб-браузере.По умолчанию доступ к заархивированной веб-странице осуществляется путем перехода к отдельному веб-архиву и запроса URL-адреса. Архив обычно возвращает список заархивированных версий этой веб-страницы. Как упоминалось ранее, существует множество веб-архивов, которые часто содержат разные фонды, поэтому были разработаны механизмы, помогающие пользователям запрашивать несколько архивов одним запросом.

    Memento – это расширение протокола HTTP, разработанное Лос-Аламосской национальной лабораторией (LANL) и ODU, которое позволяет согласовать веб-страницы на основе времени.Многие общедоступные веб-архивы, упомянутые ранее, в том числе Интернет-архив, archive.is и веб-архив Великобритании, поддерживают Memento. Агрегаторы Memento позволяют запрашивать несколько веб-архивов в одном запросе. Несколько инструментов, многие из которых перечислены на сайте mementoweb.org и некоторые из которых будут описаны ниже, были разработаны для использования преимуществ протокола Memento. Поскольку протокол Memento очень важен для нашей работы, с этого момента мы будем называть архивные версии веб-страницы сувенирами веб-страницы.

    Расширение браузера Mink Chrome (упомянутое выше) использует Memento, чтобы сообщить, сколько раз просматриваемая в данный момент веб-страница была заархивирована в нескольких веб-архивах, и предоставляет интерфейс для доступа к этим сувенирам. В дополнение к инструментам, которые мы разработали, наши сотрудники в LANL также разработали расширения браузера на основе Memento: Memento Time Travel для Chrome и Firefox.

    Для доступа к общедоступным веб-архивам без расширений браузера или, если нужная веб-страница недоступна в реальном времени, воспользуйтесь услугой Time Travel, предоставляемой mementoweb.org — лучший вариант. Пользователь указывает желаемый URL-адрес и дату и время, и Time Travel будет использовать Memento для возврата списка сувениров, ближайших к указанной дате и времени из нескольких веб-архивов. Веб-архив Великобритании также предлагает услугу Memento. Он использует тот же протокол, что и Time Travel, но с другим интерфейсом.

    Все ранее упомянутые службы требуют, чтобы у пользователя был хотя бы URL-адрес, который он хочет изучить. Есть несколько сервисов, которые позволяют пользователям просматривать свои веб-архивы.Веб-архив Великобритании классифицировал свои фонды по темам и специальным коллекциям, подходящим для просмотра. Archive-It – это служба Интернет-архива на основе подписки, которая позволяет организациям создавать коллекции сувениров. Archive-It насчитывает более 400 партнеров, включая музеи, библиотеки, университеты и правительства штатов, с коллекциями, охватывающими широкий круг тем. Поскольку Archive-It управляется Интернет-архивом, все публичные фонды Archive-It также могут быть воспроизведены в Wayback Machine Интернет-архива.

    Проблемы исследования веб-архивирования

    Наша работа по предоставлению пользователям возможности создавать свои собственные веб-архивы и созданию инструментов для улучшения доступа к веб-архивам выявила несколько интересных исследовательских проблем, которые мы продолжаем исследовать.

    Обобщение и визуализация веб-архивов. Наша текущая работа, финансируемая NEH (описанная здесь), сосредоточена на выборе репрезентативных сувениров, чтобы показать в виде сводки или обзора того, как отдельная веб-страница изменилась с течением времени.Эта работа сосредоточена на веб-страницах, которые имеют большое количество сувениров — слишком много, чтобы ожидать, что пользователь будет воспроизводить каждую из них, чтобы понять, как она изменилась. Для эффективности мы сравниваем исходный HTML-код сувениров и выбираем повторное воспроизведение и создание скриншотов только самых уникальных. Затем мы можем расположить эти скриншоты размером с миниатюру в виде сетки, на временной шкале или в виде анимации. В ближайшем будущем мы выпустим предварительный веб-сервис и продолжаем исследовать, как этот тип сервиса может использоваться исследователями и какие другие методы можно использовать для эффективного выбора наиболее репрезентативных сувениров.

    Наша предыдущая работа по обобщению того, как веб-страница меняется с течением времени, использовала преимущества Twitter и Tumblr. Твиттер-бот What Did It Look Like берет первый памятный подарок каждого года для определенной веб-страницы и создает анимированный GIF-файл, который затем публикуется в Tumblr. Как и в случае с нашим ботом ICanHazMemento, пользователь может просто твитнуть URL-адрес (или ответить на твит, содержащий URL-адрес) с хэштегом #whatdiditlooklike, чтобы вызвать службу. Служба ответит ссылкой на сообщение Tumblr.

    Мы также продолжаем собирать коллекцию сувениров. «Структура темных и бурных архивов» (описанная в итоговом посте в блоге доктора Ясмин Аль-Ноамани) берет коллекции Archive-It, выбирает репрезентативные сувениры и импортирует их в историю Storify. К сожалению, сервис Storify больше недоступен, но мы изучаем альтернативы, включая создание собственного сервиса для создания социальных карт с поддержкой Memento.

    Выбор качественных сувениров .Одна из проблем, которая была выделена при попытке обобщить коллекцию или веб-страницу с течением времени, заключается в том, как выбрать высококачественные сувениры. Есть несколько причин, по которым тот или иной сувенир может быть некачественным.

    Иногда заархивированная веб-страница фактически находилась за платным доступом. Это могут быть статьи в новостных организациях, таких как New York Times и Wall Street Journal, , или в академических издательствах, таких как Springer и Elsevier. Мы исследовали распространенность таких сувениров в Интернет-архиве и разрабатываем методы обнаружения сувениров, которые на самом деле находятся за платным доступом.

    Мы знаем, что веб-страницы могут со временем меняться и даже выходить за рамки темы по разным причинам. Иногда содержание веб-страницы меняется настолько сильно, что его уже нельзя считать посвященным той же теме, что и изначально. Иногда были ошибки базы данных, или сайт был закрыт на техническое обслуживание, или веб-страница была взломана. Часто эти экземпляры перехватываются поисковыми роботами и сохраняются в веб-архивах. Наш набор инструментов для неактуальных сувениров может автоматически идентифицировать эти экземпляры, чтобы можно было отфильтровать сувениры, не относящиеся к теме, перед обобщением или визуализацией.

    Другая проблема заключается в том, что не все ресурсы, связанные с веб-страницей, могут быть захвачены при обходе страницы веб-архивом. Это может быть связано с временными ошибками при загрузке встроенных ресурсов или невозможностью захвата ресурсов, загружаемых с помощью JavaScript, как упоминалось ранее. Результатом отсутствия ресурсов в воспроизведенном сувенире является урона сувенира . Мы разработали метод для оценки степени повреждения памятного сувенира. Это позволит пользователям выбрать лучший архивный сувенир из набора похожих сувениров.

    Одной из упомянутых нами проблем с архивированием является неспособность некоторых поисковых роботов захватывать ресурсы, загруженные с помощью JavaScript. Одна из причин этого заключается в том, что захват этих типов ресурсов занимает значительно больше времени. Традиционные поисковые роботы, такие как Heritrix, используемые Интернет-архивом, нацелены на максимально быстрое сканирование как можно большего количества веб-страниц. Обеспечение захвата всех ресурсов, загруженных с помощью JavaScript, для каждой страницы значительно уменьшит количество захватов, которые сканер может выполнить за то же время.

    Многие службы архивации по запросу, такие как Webrecorder.io, ориентированы на создание высококачественных архивов веб-страниц, а не на скорость. В этих системах используются инструменты захвата на основе браузера (например, наш инструмент Squidwarc), которые перед созданием захвата загружают всю веб-страницу, включая все ресурсы, загруженные с помощью JavaScript.

    Наконец, мы также обнаружили проблемы с воспроизведением некоторых веб-страниц. Например, мы обнаружили, что сувениры на главной странице cnn.com не воспроизводятся с ноября 2016 года из-за изменений, внесенных сайтом в способ загрузки страницы.К счастью, многие ресурсы были захвачены, поэтому сувениры можно воспроизвести с помощью разработанного нами расширения для браузера Wayback++ (доступно как для Chrome, так и для Firefox).

    Интеграция веб-архивов в веб-браузер. Как упоминалось ранее, расширение Mink для Google Chrome позволяет пользователям получать доступ к воспоминаниям о веб-страницах, которые они просматривают в данный момент, а также отправлять веб-страницы в несколько веб-архивов. Mink показывает нам, что может быть возможно благодаря встроенной поддержке Memento и веб-архивов в браузере.

    Как описано выше, мы разрабатываем методы предоставления дополнительной информации о качестве сувениров (обнаружение не по теме, повреждение сувениров), когда пользователи запрашивают архивные веб-страницы. Такой интерфейс, как Mink, может отображать эту информацию вместе с датой и временем каждого снимка, чтобы пользователи могли принимать обоснованные решения о том, какие сувениры просматривать.

    Минк может предоставить доступ к сувенирам из нескольких архивов. В настоящее время мы разрабатываем структуру, позволяющую пользователям интегрировать доступ как к общедоступным веб-архивам, так и к их собственным частным веб-архивам.Mink может служить интерфейсом для доступа пользователей к этому типу агрегации.

    Заключение

    Веб-архивы приобретают все большее значение для тех, кто изучает культуру и историю последних 20 лет. В этой статье представлен обзор того, как исследователи и ученые могут использовать веб-архивы в своих собственных исследованиях — от создания архивов текущих веб-страниц до доступа к воспоминаниям о прошлом. Мы также представили несколько исследовательских вопросов, связанных с улучшением того, как люди могут взаимодействовать с веб-архивами.Нашей главной мотивацией является убеждение, что перенос прошлой сети в веб-браузер является ключевым компонентом расширения доступа к веб-архивам и их использования.

    Для получения дополнительной информации об исследовательской группе WS-DL в ODU следите за нами в Twitter (@WebSciDL) или в нашем блоге.

     

    8 инструментов для просмотра старых версий любого веб-сайта

    Независимо от того, хотите ли вы просто посмотреть старые веб-сайты или найти информацию, которой больше нет в Интернете, вам может пригодиться знание того, как просматривать старые версии веб-сайтов.

    Эта статья познакомит вас с некоторыми инструментами и приемами, позволяющими вернуться в прошлое и просмотреть старые версии веб-сайтов.

    Wayback Machine — это источник для поиска старых веб-страниц. Это проект Internet Archive, некоммерческой библиотеки веб-сайтов, программного обеспечения, фильмов и книг.

    Компания Wayback Machine, основанная в 1996 году, регулярно делает и сохраняет снимки тысяч веб-сайтов.В настоящее время на веб-сайте размещено 600 миллиардов веб-страниц.

    Чтобы найти старую версию любого веб-сайта, введите URL-адрес в строку поиска Wayback Machine. Затем инструмент показывает временную шкалу по годам с черными линиями, указывающими время создания моментальных снимков. Под временной шкалой находится календарь, в котором указаны точные дата и время создания снимка экрана. Чтобы просмотреть снимок, наведите курсор на обведенную дату и выберите время.

    Шансы вспомнить точный URL-адрес любой веб-страницы, существовавшей много лет назад, очень малы.Поэтому, если вы забыли URL-адрес, вы можете использовать расширенный поиск и найти веб-страницу по ключевым словам. Для тех, кому нужно часто возвращаться в прошлое, у Wayback Machine есть расширение для браузера и мобильное приложение.

    Если вы боитесь потерять какую-либо веб-страницу (или ее текущую информацию) в будущем, вы можете попросить Wayback Machine заархивировать ее, используя функцию Сохранить сейчас .

    Связано: Как просмотреть мертвые URL-ссылки с помощью Wayback Machine в Chrome?

    За простой домашней страницей архива.сегодня находится огромная библиотека веб-сайтов, заархивированных за многие годы.

    Чтобы просмотреть старую версию любого веб-сайта, вы можете выполнить поиск по его URL-адресу. archive.today отображает все снимки этого веб-сайта в обратном хронологическом порядке. Инструмент также предлагает некоторые операторы поиска для уточнения результатов. Лучше всего то, что есть возможность загрузить веб-страницу в виде ZIP-файла и поделиться ею.

    Как и Wayback Machine, вы можете запросить инструмент для захвата и архивирования любого веб-сайта для использования в будущем.Хотя его библиотека не так велика, как Интернет-архив, он все же может помочь вам раскрыть старые жемчужины Интернета или найти недоступную информацию. Он также имеет удобное расширение для Chrome.

    OldWeb.today — это не просто коллекция заархивированных веб-страниц. Этот веб-сайт в основном извлекает архивы из Интернет-архива, но запускает их в своих эмулированных старых браузерах, чтобы вернуть вас к ранним дням Интернета.

    Используя этот веб-сайт, вы также можете просматривать веб-страницы в реальном времени через старые браузеры. Эти браузеры включают различные версии Navigator, Internet Explorer, Firefox и Mosaic.

    Результаты часто долго загружаются, возможно, потому, что они обещают вернуть ранние дни Интернета (каламбур). Тем не менее, это хороший веб-сайт для просмотра архивов и демонстрации вашим детям того, насколько трудным был просмотр в прошлом.

    Связанный: Сайты, чтобы оживить ваш старый компьютер прямо в вашем браузере

    Библиотека Конгресса — это официальный архив Конгресса США, в котором хранятся обширные записи книг, газет, изображений, веб-страниц и других материалов.Его программа веб-архива направлена ​​на сохранение всего контента, доступного в Интернете, предоставляя исследователям надежный источник для просмотра веб-архивов.

    При поиске по любому URL-адресу на странице веб-архива отображается временная шкала и календарь. Страница результатов очень похожа на Wayback Machine. Вы можете открыть любую старую веб-страницу в новом окне и просмотреть другие снимки с помощью кнопок Назад и Далее .

    5. Поисковые системы кэшируют страницы

    Если вы хотите просмотреть относительно новую версию любого веб-сайта, вы можете просмотреть страницы, кэшированные поисковыми системами.

    Для этого выполните поиск страницы, которую хотите просмотреть, щелкните стрелку раскрывающегося списка рядом с URL-адресом результата и щелкните Кэшировано . Тогда поисковая система отобразит последнюю кешированную версию страницы вместо реальной. Имейте в виду, что нажатие на любую ссылку на кешированной странице приведет вас к активной сети. Вы также можете использовать инструменты просмотра Google Cache для этой цели.

    6. Расширение для просмотра веб-кеша

    Это расширение значительно упрощает просмотр старых версий веб-сайтов.Просто зайдите на веб-сайт, старую версию которого вы хотите просмотреть, щелкните правой кнопкой мыши на экране и выберите Web Cache Viewer. Расширение открывает новое окно, показывающее последнюю кэшированную страницу.

    Хотя это расширение извлекает снимки из Интернет-архива и Google Cache и не имеет собственных записей, оно позволяет легко просматривать веб-архивы.

    Скачать : Средство просмотра веб-кэша для Chrome (бесплатно)

    Связанный: как выглядели 8 известных веб-сайтов, когда они впервые были запущены

    UK Web Archive (UKWA) — это еще одна коллекция старых веб-сайтов, целью которой является сохранение всех веб-сайтов Соединенного Королевства не реже одного раза в год.

    В отличие от большинства других инструментов, UKWA позволяет выполнять поиск по фразе, ключевому слову, а также по URL-адресу. Хотя некоторый контент доступен для просмотра только в помещениях библиотеки, вы можете найти множество веб-страниц в Интернете.

    UKWA имеет страницу «Темы и темы», на которой отображаются различные архивные коллекции, классифицированные по интересам. Вы также можете запросить веб-сайт для сканирования и сохранения любого веб-сайта в Великобритании. UKWA — надежный и аутентичный источник, особенно для просмотра старых правительственных веб-сайтов Великобритании.

    Выступая в качестве агрегатора веб-архивов, Memento Time Travel позволяет вам путешествовать по переулку памяти и просматривать старые веб-сайты. Memento просит вас ввести любой URL-адрес и время в прошлом. Затем он ищет запрошенную веб-страницу в десятках онлайн-архивов, включая упомянутые выше, и показывает моментальный снимок, ближайший к введенной дате.

    Помимо просмотра моментального снимка, у вас есть возможность встроить веб-страницу в формате HTML.Memento Time Travel также имеет расширение для Chrome, которое позволяет просматривать архивы, щелкнув правой кнопкой мыши на любом веб-сайте.

    Сохраняйте веб-страницы самостоятельно

    Эти веб-архивы делают впечатляющую работу по сохранению всего веб-контента и обеспечению его доступности. Однако веб-архивы по-прежнему находятся под угрозой исчезновения.

    ​​​Поэтому, если вы нашли какую-либо старую версию веб-сайта и хотите сохранить ее для дальнейшего использования, лучше всего сохранить всю веб-страницу на своем устройстве.

    Как загрузить полную веб-страницу для чтения в автономном режиме

    Читать далее

    Об авторе

    Сайед Хаммад Махмуд (опубликовано 83 статьи)

    Сайед Хаммад Махмуд родился и живет в Пакистане. Он пишет в MakeUseOf.С детства он занимается серфингом в Интернете, находя инструменты и приемы, позволяющие максимально эффективно использовать новейшие технологии. Помимо техники, он любит футбол и гордится своим кулером.

    Более От Сайеда Хаммада Махмуда
    Подпишитесь на нашу рассылку

    Подпишитесь на нашу рассылку технических советов, обзоров, бесплатных электронных книг и эксклюзивных предложений!

    Нажмите здесь, чтобы подписаться

    Как заархивировать страницу или весь сайт в Интернет-архиве

    Этот сайт в основном поддерживается рекламой.Без них таких статей не было бы. Пожалуйста отключи свой блокиратор рекламы. Станьте покровителем, чтобы поддержать блог напрямую, или используйте Coil без рекламы.

    Wayback Machine Интернет-архива — один из лучших бесплатных ресурсов в Интернете. Интернет-архив делает все возможное, чтобы сохранить нашу онлайн-историю, архивируя общедоступные веб-страницы в своей коллекции. Вы можете найти давно исчезнувшие посты в блогах, старые дизайны веб-сайтов конца 90-х, устаревшие новости и всевозможные сокровища в их коллекции.

    Архивирование всего — невыполнимая задача. Слишком много веб-страниц публикуется на слишком многих веб-сайтах, чтобы какая-либо служба архивирования не могла за всем этим уследить. Вы можете помочь архивным работам Интернет-архива, отправив веб-страниц, которые важны для вас , или, возможно, твиты, изображения или веб-страницы, которые вы создали и хотите сохранить.

    Вы можете заархивировать одну страницу, используя форму на главной странице Wayback Machine.

    Такие инструменты, как плагин Internet Archive для WordPress, могут автоматизировать отправку веб-страниц, которые вы создаете.Существуют аналогичные инструменты для других систем управления контентом, а также множество доступных расширений для веб-браузера.

    Чтобы заархивировать весь веб-сайт, вы можете либо отправить каждый URL-адрес по отдельности, либо использовать инструмент, который может автоматизировать отправку.

    Лучшим инструментом для автоматизации отправки больших файлов является wayback_archiver Джейкоба Буренштама. Это библиотека Ruby с простым в использовании интерфейсом командной строки. Он может независимо сканировать веб-сайт и отправлять URL-адреса для архивации, поскольку он работает через веб-сайт, или он может анализировать файл карты сайта XML , когда он доступен, чтобы пропустить необходимость сканирования.

    Запуск программы в режиме --auto указывает ей автоматически обнаруживать карты сайта XML из стандартного robots.txt или вернуться к гораздо более медленному процессу сканирования веб-сайта для обнаружения страниц. Это может занять несколько часов, дней или даже недель в зависимости от размера и скорости веб-сайта, а также количества архивируемых страниц.

    Следующий пример команды отправляет каждую страницу блога Ctrl в Интернет-архив:

      wayback_archiver https://www.ctrl.blog/ --auto  

    Вы также можете отправить отдельные URL-адреса , используя параметр --url :

      wayback_archiver https://www.ctrl.blog/entry/how-to-internet-archive.html --url  

    Интернет-архив не дает никаких гарантий, что отправленные вами URL-адреса будут приняты в их коллекцию. Агрессивная отправка большого количества URL с одного IP-адреса за очень короткий промежуток времени может быть помечена как подозрительная.

    Вы не сможете отправлять какие-либо страницы с веб-сайтов, которые активно решили заблокировать доступ Интернет-архива к своему веб-сайту. Интернет-архив является одним из наиболее часто блокируемых ботов в Интернете, поскольку не все понимают его цель или видят его огромная ценность для веб-сообщества.

    Пожалуйста, подумайте о том, чтобы сделать пожертвование в Интернет-архив, если вы отправляете большую коллекцию страниц или просто считаете их услуги столь же бесценными, как и я.Пожалуйста, рассмотрите возможность регулярного ежемесячного микропожертвования с помощью Flattr, если вы собираетесь отправлять URL-адресов на постоянной основе.

    Передовой опыт и примеры — журнал Smashing Magazine

    Краткий обзор ↬ Архив — это одна из тех частей веб-сайта, которую часто упускают из виду и которой не уделяется должного внимания. Слишком часто его бросают на страницу, которая ничем не отличается от любой другой страницы веб-сайта, или вообще игнорируют. Тем не менее, архив предлагает большой простор для творчества.Независимо от того, выберете ли вы сокращенный вариант на боковой панели или в нижнем колонтитуле или посвятите ему целую страницу, в архиве есть возможность выделить свой дизайн.

    Архив — одна из тех частей веб-сайта, которой часто не уделяют должного внимания. Слишком часто его бросают на страницу, которая ничем не отличается от любой другой страницы веб-сайта, или вообще игнорируют. Тем не менее, архив предлагает большой простор для творчества. Независимо от того, выберете ли вы сокращенный вариант на боковой панели или в нижнем колонтитуле или посвятите ему целую страницу, в архиве есть возможность выделить свой дизайн.

    Обязательно ознакомьтесь со следующими статьями:

    Общие подходы к проектированию

    Хотя простора для творчества достаточно, необходимо помнить о ряде вещей, чтобы ваш архив был функциональным и удобным для пользователя.

    Больше после прыжка! Продолжить чтение можно ниже ↓

    Встречайте Оптимизация изображений , новое практическое руководство Эдди Османи по оптимизации и размещению высококачественных изображений в Интернете. От форматов и сжатия до доставки и обслуживания: все в одной 528-страничной книге.

    Перейти к содержанию ↬

    1. Используйте столько места, сколько вам нужно

    Нет смысла втискивать свой архив в слишком маленькое пространство. Если ваш архив обширен, подумайте о том, чтобы посвятить ему целую страницу, а не помещать его в боковую панель или нижний колонтитул.


    Neography использует много пустого пространства для демонстрации своих постов. Каждый пост выделяется красным в календаре. Также короткие выдержки отображаются в хронологическом порядке под календарем.Хороший дизайн.

    Верно и обратное. Если ваш архив небольшой или довольно простой, вам может не понадобиться для него целая страница. Вместо этого подумайте о том, чтобы разместить его на боковой панели, в нижнем колонтитуле или даже в раскрывающемся меню.

    2. Упростите поиск

    Ваш архив должен быть доступен случайным посетителям. Поместите его (или ссылку на него) в очевидное место: верхний, нижний колонтитул или боковая панель — лучший выбор. Также четко обозначьте его, чтобы посетители знали, что это ваш архив, а не ссылка за пределами сайта.


    Вместо того, чтобы называть раздел архива «сообщения в блоге», «старые сообщения в блоге», «последние статьи» и т. д., Кайл Мейер называет его «Архивы» и размещает на видном месте в главной навигации вверху страницы. Также обратите внимание на подход к оформлению архива: посты располагаются вертикально в соответствии с таймлайном. Интересное решение.

    Нет смысла иметь архив, если вы сделаете его невозможным для поиска.

    3. Четко обозначьте его

    Особенно, если он отображается на боковой панели или в нижнем колонтитуле, ваш архив должен быть четко определен и отличаться от окружающего содержимого.Этого можно добиться с помощью рамки, другого шрифта, цвета, чего угодно. Убедитесь, что сразу видно, где начинается и заканчивается ваш архив.

    Если ваш архив находится на отдельной странице, рассмотрите возможность исключения таких элементов, как боковая панель, которая может создать визуальный беспорядок. Если нет, убедитесь, что по крайней мере очевидно, какие части страницы являются архивом, а какие — обычной боковой панелью, верхним и нижним колонтитулами.

    4. Используйте категории

    Если ваш архив большой, используйте категории, чтобы посетителям было проще находить интересующий их контент.Даже в небольшом архиве категории могут быть полезны. Просто помните, что слишком много категорий могут больше запутать пользователей, чем помочь.


    На Colly.com пользователи могут просматривать архивы по годам или по категориям.

    Альтернативы: архив на основе даты (который хорошо работает для личных блогов, но менее эффективен для тематических веб-сайтов) и архив на основе тегов (что особенно полезно для блогов с разнообразным содержанием и для очень больших архивов).

    5. Не показывать полное содержание

    Если вы даете архиву отдельную страницу, не показывать полные статьи на этой странице.Все это занимает место и затрудняет навигацию.


    На своем переработанном сайте-портфолио Верле Питерс выделила для своего архива собственную страницу и показывает только отрывки из статей вместе с иллюстрациями. Выдержки размещены в две колонки и отсортированы по дате.

    Вместо этого укажите только заголовок или заголовок и короткий отрывок (одно или два предложения). Благодаря этому страница выглядит чистой и упорядоченной, а беглый просмотр становится намного проще.

    6. Предоставьте своим посетителям различные варианты просмотра

    Если вы показываете выдержки на странице архива, может быть полезно предоставить пользователям возможность быстро просматривать заголовки статей вместо бесконечной прокрутки выдержек из статей. Достаточно будет простого переключателя. Однако вы можете использовать файлы cookie для сохранения текущих предпочтений пользователя.


    VisitMix предоставляет своим читателям два варианта просмотра: по умолчанию выбран просмотр отрывков, но если нажать на соответствующий значок в правом верхнем углу, вид сразу меняется.К сожалению, это состояние не сохраняется, поэтому, если вы предпочитаете просматривать архивы в «коротком» виде, вам всегда нужно сначала нажимать на значок.

    7. Разделите все на части

    Никто не говорит, что весь ваш архив должен содержаться в одном списке. Особенно, если ваш архив находится на боковой панели, подумайте о том, чтобы разбить его на списки самых популярных сообщений, случайных сообщений, самых последних сообщений и т. д.

    Подобные списки могут помочь посетителям найти интересный и актуальный контент, который они могут обычный архив.Они также добавляют визуальный интерес к вашему веб-сайту, в зависимости от того, как вы их структурируете. Список случайных или избранных сообщений также привлекает внимание к сообщениям глубоко в вашем архиве, которые в противном случае могли бы не получить большого трафика.

    Вам вообще нужен архив?

    Не каждому веб-сайту нужен отдельный архив. Некоторые дизайнеры вместо этого выбирают только навигацию по категориям. Другие не имеют навигации по архиву, кроме ссылки «Старые сообщения».

    Если на вашем веб-сайте есть неподвластный времени контент, который посетители могут найти полезным через шесть месяцев или год, то архив может оказаться полезным.С другой стороны, если это личный блог, имеющий в основном хронологическую структуру, то об архиве можно смело забыть, если он вам действительно не нужен.

    Кроме того, рассмотрите возможность предоставления системы на основе категорий или облачных тегов для доступа к более старым сообщениям вместо формального архива. Любой из них может быть более полезен для посетителей, которые ищут определенный контент. Тем не менее, архив может предоставить посетителям интересный и эффективный способ найти контент, который они явно не ищут.Внимательно подумайте об этом, прежде чем принять решение не размещать его на своем веб-сайте.

    Витрина

    QN5 Блог QN5 включает в себя область на боковой панели для отображения как последних сообщений, так и сообщений с наибольшим количеством комментариев.

    WellMedicated WellMedicated включает небольшой раздел на боковой панели для самых популярных и самых последних сообщений.

    Официальный блог Squarespace Блог Squarespace отображает свой архив по месяцам прямо рядом с архивом категорий на боковой панели.

    Проверка элемента Inspect Element выделяет раздел «Самые популярные посты» фоновой текстурой.

    Бурсиага Архив здесь держится просто: просто список ссылок по дате.

    Изучение jQuery В дополнение к ссылке «Архивы» в заголовке Learning jQuery включает краткий список популярных сообщений в верхней части боковой панели.

    БХофф Архив BHoff расположен на боковой панели, упорядочен по дате и отображается рядом со списком категорий.

    джорд и чан Архив находится в нижнем колонтитуле и организован в виде простой диаграммы по месяцам и годам. Месяцы без записей отображаются более светлым шрифтом, чем месяцы с записями.

    Нарезка и дегустация Cut & Taste выкладывает свой архив на отдельную страницу, со ссылкой в ​​шапке. На странице архива статьи упорядочены по дате.

    Сеть — это любовь На боковой панели Web Is Love есть краткий список самых популярных статей.Доступ к другим заархивированным сообщениям можно получить через категории в шапке.

    Твирк Этика Twirk Ethic организует свой архив по категориям и отображает его в виде слайдера AJAX, связанного с основной навигацией. Одно из самых элегантных решений в этой витрине.

    Книга веб-дизайна Web Design Ledger имеет обширный список последних сообщений на боковой панели, сопровождаемый миниатюрами.

    ThinkVitamin ThinkVitamin размещает списки популярных и последних сообщений на боковой панели.

    Дизайн Obox Obox включает краткий список последних сообщений в верхней части боковой панели со значками.

    Джейсон Санта Мария Джейсон Санта-Мария посвящает страницу своему архиву со списком последних сообщений, а также списками, разбитыми по категориям, датам и тегам.

    Интернет-блог Jaredigital Этому архиву посвящена страница, на которую можно перейти с боковой панели на главной странице блога. Сама страница архива проста, статьи упорядочены по дате.

    Циносура Архив здесь тоже имеет свою страницу (ссылка из шапки) и организован по категориям.

    Максвольтар Архив Maxvoltar связан с боковой панелью и представлен в виде хорошо организованной таблицы на отдельной странице.

    Растин Джессен Архив Растина Джессена имеет отдельную страницу и упорядочен по тегам, типам и датам.

    Комиксы City Cyclops City Cyclops Comics разместили архив комиксов и архив блога на одной странице, при этом архив блога организован по дате и расположен на боковой панели.В архиве комиксов отведено гораздо больше места и подробностей.

    FontFeed FontFeed предлагает простое раскрывающееся меню, среди других опций («Поиск» и «Подписаться»), для просмотра своих архивов по месяцам. Простой, но эффективный.

    Студии Spyre Spyre Studios посвящает страницу своим архивам и включает простые ссылки на основе даты на боковой панели.

    Джосдигитал Еще один веб-сайт, который посвящает страницу своему архиву, на этот раз с миниатюрами для основных сообщений вместо текста, а также некоторые избранные сообщения с текстовыми выдержками ниже.

    Подлоб Для фотоблога имеет смысл иметь более наглядный архив, и этот календарь с миниатюрами работает блестяще. Этот тип настройки, очевидно, лучше всего подходит для блогов, которые обновляются ежедневно (или близко к этому).

    Epaper Central Еще один веб-сайт с простым списком последних сообщений на боковой панели.

    Томас Финли Томас Финли посвящает своему архиву целую страницу с возможностью выбора последних сообщений, а также ссылок по месяцам.

    Нет таких записей Nonesuch Records позволяет вам просматривать свой архив по дате, категории и исполнителю, и все это в простых в использовании раскрывающихся меню.

    (ал)

    архивация — Как скачать сайт с archive.org Wayback Machine?

    архивация — Как скачать сайт из архива.org Wayback Machine? — Суперпользователь
    Сеть обмена стеками

    Сеть Stack Exchange состоит из 179 сообществ вопросов и ответов, включая Stack Overflow, крупнейшее и пользующееся наибольшим доверием онлайн-сообщество, где разработчики могут учиться, делиться своими знаниями и строить свою карьеру.

    Посетите биржу стека
    1. 0
    2. +0
    3. Войти
    4. Зарегистрироваться

    Super User — это сайт вопросов и ответов для компьютерных энтузиастов и опытных пользователей.Регистрация занимает всего минуту.

    Зарегистрируйтесь, чтобы присоединиться к этому сообществу

    Любой может задать вопрос

    Любой может ответить

    Лучшие ответы голосуются и поднимаются на вершину

    спросил

    Просмотрено 184 тыс. раз

    Я хочу получить все файлы данного веб-сайта в архиве.орг. Возможные причины:

    • первоначальный автор не заархивировал свой собственный веб-сайт, и теперь он отключен, я хочу сделать из него публичный кеш
    • Я являюсь первоначальным автором какого-то веб-сайта и потерял часть контента. Я хочу восстановить его

    Как мне это сделать?

    Принимая во внимание, что машина возврата archive.org очень особенная: ссылки на веб-страницы указывают не на сам архив, а на веб-страницу, которой может уже не быть.JavaScript используется на стороне клиента для обновления ссылок, но такой трюк, как рекурсивный wget, не сработает.

    спросил 20 окт, 2014 в 10:16

    пользователь36520пользователь36520

    2,54533 золотых знака2020 серебряных знаков1919 бронзовых знаков

    4

    Я пробовал разные способы загрузки сайта и, наконец, нашел загрузчик Wayback Machine, который был создан Hartator (поэтому все кредиты ему, пожалуйста), но я просто не заметил его комментария к вопросу.Чтобы сэкономить ваше время, я решил добавить гем wayback_machine_downloader в качестве отдельного ответа здесь.

    На сайте http://www.archiveteam.org/index.php?title=Restoring перечислены следующие способы загрузки с archive.org:

    • Wayback Machine Downloader, небольшой инструмент на Ruby для загрузки любого веб-сайта с Wayback Machine. Бесплатный и с открытым исходным кодом. Мой выбор!
    • Уоррик — Главный сайт кажется неработающим.
    • Загрузчики Wayback — сервис, который загрузит ваш сайт с Wayback Machine и даже добавит плагин для WordPress.Не бесплатно.

    Добавить комментарий

    Ваш адрес email не будет опубликован.