Ранние веб-наборы данных и возможности для исследователей

Exclusive, high-quality data for premium business insights.
Post Reply
bitheerani319
Posts: 220
Joined: Mon Dec 23, 2024 3:34 am

Ранние веб-наборы данных и возможности для исследователей

Post by bitheerani319 »

В июле мы объявили о нашем партнёрстве с проектом Archives Unleashed в рамках нашей постоянной работы по созданию новых сервисов для учёных и студентов, позволяющих изучать архивы интернета. Сочетание кураторского потенциала нашего сервиса Archive-It , нашей работы по поддержке интеллектуального анализа текстов и данных , а также инструментов анализа Archives Unleashed в браузере откроет новые возможности для изучения петабайтного объёма исторических записей в веб-архивах.


В рамках нашего партнерства мы публикуем серию общедоступных данные электронной почты данных, созданных на основе архивных веб-коллекций. Параллельно с этим проект запускает программу «Когорт», предоставляющую финансирование и техническую поддержку исследовательским группам, заинтересованным в изучении коллекций веб-архивов. Эти совместные усилия направлены на создание инфраструктуры и сервисов, которые позволят большему числу исследователей использовать веб-архивы в своей научной работе. Более подробная информация о новых общедоступных наборах данных и программе «Когорт» представлена ​​ниже.

Ранние веб-наборы данных

Наш первый из серии общедоступных наборов данных из веб-коллекций посвящен теме раннего Интернета. Эти наборы данных, конечно же, предназначены для интеллектуального анализа данных и исследователей, использующих вычислительные инструменты для изучения больших объемов данных, поэтому они не обладают ни информационной, ни ностальгической ценностью, как архивные веб-страницы в Wayback Machine. Если вас больше интересует последнее, вот архивная страница Geocities с GIF-изображениями единорогов .

Коллекция GeoCities (1994–2009)

Geocities, одна из первых платформ для создания веб-страниц без опыта, снизила порог входа для нового поколения веб-разработчиков. До прекращения работы сервиса Yahoo! в 2009 году GeoCities отображал не менее 38 миллионов страниц. Эта коллекция данных содержит ряд отдельных наборов данных, включая такие данные, как количество доменов, графы изображений и веб-графы, а также информацию о двоичных файлах различных форматов, таких как аудио, видео, текстовые и графические файлы. Для графа доменов также доступен файл GraphML.
Post Reply