Мы используем файлы cookie.
Продолжая использовать сайт, вы даете свое согласие на работу с этими файлами.

Проект «Гутенберг»

Подписчиков: 0, рейтинг: 0
Проект «Гутенберг»
англ. Project Gutenberg
Изображение логотипа
URL gutenberg.org
Коммерческий Нет
Тип сайта Цифровая библиотека
Регистрация бесплатно
Язык (-и) Английский
Владелец Прое́кт «Гу́тенберг»
Автор Майкл Харт
Начало работы 1971
Текущий статус работает
Страна
Логотип Викисклада Медиафайлы на Викискладе

Прое́кт «Гу́тенберг» (англ. Project Gutenberg, или PG) — общественная некоммерческая инициатива, направленная на создание и распространение цифровой коллекции находящихся в общественном достоянии произведений. «Гутенберг» считается старейшей в мире электронной библиотекой. Большинство работ было оцифровано волонтёрами и доступны для свободного скачивания.

Проект был создан 4 июля 1971 года, когда студент Иллинойсского университета Майкл Харт вручную перепечатал текст Декларации независимости США и отправил его другим пользователям своей сети, на тот момент состоявшей из 15 узлов ARPANET — прародителя интернета. В течение последующих 20 лет Харт перепечатал около 100 книг. С распространением интернета в начале 1990-х к оцифровке работ подключились волонтёры университета и — уже в 2000-х — организации Distributed Proofreaders. Харт занимался административной работой и сбором средств для поддержки работы веб-сайта. На 1997 год количество произведений в коллекции составило 1000, в 2003 — 10 000, в 2011 — 40 000. На 2021 год в коллекции Проекта есть более 60 000 книг.

Все электронные тексты оцифровываются в 7-битном американском стандартном коде ASCII под названием Plain Vanilla. Подобный формат считывается на любом устройстве и совместим с 99 % любого программного обеспечения. Для книг с акцентированными символами, например, на немецком и французском языках, Project Gutenberg также создает 7-битную версию ASCII с акцентами. Помимо Plain Vanilla ASCII, «Гутенберг» использует и другие форматы, в том числе HTML, XML, RTF, Юникод.

История

Майкл Харт в 2006 году

Формальной датой создания проекта считается 4 июля 1971 года, когда студент Иллинойсского университета Майкл Харт вручную перепечатал текст Декларации независимости США и отправил его другим пользователям сети ARPANET, состоявшей из 15 узлов и около 100 зарегистрированных юзеров. На тот момент отправка файла объёмом 5 килобайт вызвала бы сбой в сети, поэтому Харт разослал место хранения цифрового текста, после чего его скачали шесть пользователей.

Реализация проекта стала возможной благодаря тому, что Харту была предоставлена возможность поработать с мейнфреймом Xerox Sigma 5 — позже создатель проекта посчитал, что выделенное ему компьютерное время стоило примерно 100 млн долларов США. Студент хотел потратить это время на «стоящий» проект, однако его не привлекала обработка данных — основная сфера применения компьютеров на тот момент.

Из письменного интервью Майкла Харта

Я случайно остановился по пути в нашем местном продуктовом магазине IGA. Как раз скоро должно было состояться празднование двухсотлетия Америки, и вместе с продуктами мне положили исторические документы из искусственного пергамента. Так что, пока я рылся в своем рюкзаке в поисках чего-нибудь поесть, я нашел Декларацию независимости США, и у меня в моей голове появилась идея. Некоторое время я думал над тем, смогу ли я придумать что-нибудь, что я смогу сделать с компьютером, что было бы важнее, чем ввод Декларации Независимости – что-то, что всё еще будет там 100 лет спустя. Однако я ничего не смог придумать – так и родился Проект «Гутенберг».

Харта называют «первым информационным провайдером» за то, что он начал понимать сеть как средство массовой информации нового типа почти за 20 лет до того, как Тим Бернерс-Ли сформулировал концепцию Всемирной паутины. Декларация независимости стала первой электронной книгой в мире. Впоследствии Харт начал искать и оцифровывать библиотечные книги, уже находившиеся в общественном достоянии. В основном это были фундаментальные для истории США работы — Билль о правах, Конституция, Библия короля Якова, Полное собрание сочинений Уильяма Шекспира, «Алиса в стране чудес» Льюиса Кэрролла, «Питер Пэн» Джеймса Барри и другие работы. Все эти книги были оцифрованы вручную, текст набирали Харт и добровольцы.

Философия проекта основана на убеждении, что самая большая ценность компьютерных технологий состоит в сохранении и распространении информации. Первоначальной целью проекта была оцифровка 10 000 наиболее популярных книг.

С развитием и повсеместным внедрением интернета в конце 1980-х годов проект приобрёл большую популярность. К 1990-му при Иллинойском университете был создан волонтёрский кружок помогающих Харту набирать тексты. Скорость их работы постепенно увеличивалась, и к 1995 году коллекция проекта пополнялась в среднем на 16 текстов в месяц. Одновременно с этим происходило внедрение технологии оптического распознавания символов. В 1990-е годы был создан первый веб-сайт проекта, а также было заключено соглашение с университетом Карнеги-Меллон в Питтсбурге, взявшим на себя управление финансами проекта.

В начале 2000-х годов проекту начало помогать созданное Чарльзом Фрэнксом в 2000 году движение Distributed Proofreaders. Более тысячи волонтёров в нескольких странах работали над подготовкой и размещением в сети находящихся в общественном достоянии текстов, которые имели важное культурное значение. Благодаря этому сотрудничеству на 2017 год в каталог «Гутенберг» поступало от 150 до 200 книг ежемесячно. Для сравнения, за первые 11 недель 2004 года Project Gutenberg пополнился 313 новыми электронными книгами, в то время как на создание первых 313 электронных книг потребовалось примерно 26 лет. К весне 2002 года в коллекции проекта находилось почти четверть всех произведений общественного достояния, доступных в интернете. Уже в октябре 2003 года проект насчитывал 10 тысяч электронных книг.

В 2007 году Сервис Wattpad и «Гутенберг» вместе разработали и запустили проект, по которому 17 тысяч книг стали доступны для загрузки на большинство мобильных телефонов.

В начале 2000-х Майкл Харт, совместно с основателем World eBook Library Джоном Гуальярдо, попытались запустить Project Gutenberg 2. Однако инициатива не была реализована, поскольку проект предполагал платное скачивание отдельных работ, что не вызвало у пользователей энтузиазма.

В 2011 году Харт скончался. На 2021 год CEO проекта являлся Грегори Ньюби.

Принцип работы

Проект занимается оцифровкой находящихся в общественном доступе работ. Процесс пополнения коллекции осуществляется в три основных этапа — через сканирование, распознавание и коррекцию. После решения вопроса с юридическим статусом произведения и его лицензионной чистотой участники проекта сканируют документ и запускают программу оптического распознавания символов. Затем волонтёры проверяют, перечитывают и исправляют текст, сравнивая его как с отсканированной версией, так и с исходной страницей. В среднем, даже при применении улучшенной программы оптического распознавания, волонтёры находят около 10 ошибок на страницу. Каждая книга проверяется двумя разными волонтёрами, которые вносят все необходимые исправления. В случае, если оригинал работы находится в плохом состоянии, что часто случается со старыми книгами, текст вводится вручную. Работники проекта убеждены, что этап корректировки людьми является одним из важнейших, поскольку простое сканирование работ и размещение в открытый доступ не позволяет осуществлять поиск по текстам. В среднем на работу над одним текстом уходит около 50 часов.

Все электронные тексты оцифровываются в 7-битном американском стандартном коде ASCII под названием Plain Vanilla. Подобный формат считывается на любом устройстве и совместим с 99 % любого программного обеспечения. Для книг с акцентированными символами, например, на немецком и французском языках, Project Gutenberg также создает 7-битную версию ASCII с акцентами. Помимо Plain Vanilla ASCII, «Гутенберг» использует и другие форматы, в том числе HTML, XML, RTF, Юникод.

Мы рассматриваем электронные книги как новую среду, не имеющую реального отношения к бумаге, за исключением представления того же содержания. Однако я не понимаю, как бумага может конкурировать с электронными версиями, особенно если каждый найдет свой собственный удобный способ использования электронных текстов, особенно в школах.Майкл Харт

Благодаря распознаванию текста пользователи могут осуществлять поиск по литературе с помощью функции поиска, доступной в любом браузере и любом программном обеспечении для работы с текстом. В расширенном поиске можно заполнить несколько полей: автор, название, тема, язык, категория (любая, аудиокнига, музыка, изображения), LoCC (классификация каталога Библиотеки Конгресса), тип файла (текст, PDF, HTML, XML, JPEG и т. д.) и номер электронного текста/электронной книги. Для чтения онлайн или скачивания работы платы или регистрации не требуется.

Авторское и имущественное право

Серверы портала расположены и зарегистрированы в США. По этой причине для определения авторских прав применяют законодательство США. Однако законодательство об авторском праве фрагментировано и может значительно различаться в зависимости от юрисдикции. Это может привести к тому, что находящаяся в США вобщественном достоянии книга будет находиться под защитой авторских прав в другой стране. Портал специально описывает «условия пользования», которые уточняют, что пользователи за пределами США должны проверять условия авторских прав в своих странах перед загрузкой или распространением электронных книг из проекта.

Блокировки

В 2015 году в Германии против проекта был подан иск из-за несоблюдения авторского права в отношении 18 находящихся в коллекции библиотеки немецких изданий, которые были в свободном доступе в США, но одновременно защищались авторским правом в Германии. Иск был оформлен от имени издательств S. Fischer Verlag и GmbH., принадлежащих Holtzbrinck Publishing Group. 9 февраля 2018 года немецкий суд постановил, что «Гутенберг» должен заблокировать доступ к 18 работам, предоставить список пользователей, которые загрузили эти работы и оплатить часть судебных издержек истца. В ответ на это сайт временно заблокировал все IP-адреса из Германии.

В 2020 году Проект «Гутенберг» был заблокирован интернет-провайдерами в Италии после обвинения в нарушении авторских прав.

Коллекция

Рост коллекции Проекта «Гутенберг» по годам
Год Оцифрованных книг
1997
1000
1999
2000
2000
3000
2001
4000
2002
5000
2003
10 000
2005
15 000
2008
24 000
2009
34 000
2015
48 000
2018
56 000
2021
60 000

С 1991 года по 1996 год количество выпускаемых работ увеличилось примерно в два раза. Помимо оцифровки книг, Майкл Харт начал координировать работу десятков добровольцев. В августе 1998 года Харт поставил перед собой цель разместить около 10 000 электронных текстов в сеть, и ему удалось это сделать к октябрю 2003 года. Следующей целью стала оцифровка 1 000 000 работ.

В 1993 году коллекция была разделена на три основных категории: «лёгкая литература» (в основном — художественная); «тяжёлая литература», например, Библия, произведения Шекспира или «Моби Дик»; а также «справочная литература» — тезаурус Роже, а также набор энциклопедий и словарей.

В январе 2005 года в коллекции проекта числилось 15 000 электронных книг, а на 2015-й — более чем 49 200 бесплатных электронных книг, все из которых были ранее опубликованы престижными издательствами.

Поскольку проект базируется в США, первоначально он был ориентирован на англоязычную публику и оцифровывал книги исключительно на английском языке. Однако с октября 1997 года Харт принял решение расширить коллекцию и выпускать электронные книги и на других языках, в основном на английском, французском, немецком, испанском, финском, нидерландском и китайском. Уже к 2004 году работы коллекции были представлены на 25 языках, а в июле 2005 года — на 42-х, в том числе на ирокезском, санскрите, языках майя.

В апреле 1995 года в коллекции «Гутенберга» появились первые изображения — французские наскальные рисунки, которые в ноябре 2000 года стали доступны для общественности в формате XHTML.

CD и DVD

В августе 2003 года «Гутенберг» выпустил CD «Best of Gutenberg» с 600 самыми популярными работами из коллекции библиотеки. В декабре 2003-го был скомпилирован DVD «Project Gutenberg» с 9400 наименованиями — что, на тот момент, составило практически всю коллекцию «Гутенберга». В июле 2007 года была выпущена новая версия DVD с 17 000 книгами, а в апреле 2010-го — обновлённый двухслойный DVD с 30 000 работами. Пользователи могли скачать ISO-образы или запросить отправку бесплатной копии по почте. По состоянию на октябрь 2010 года проект разослал около 40 000 дисков. На 2021-й ISO-образы доступны для скачивания, однако доставка бесплатных компакт-дисков прекращена.

Влияние

Коллекция проекта считается старейшей в мире электронной библиотекой, а Майкл Харт — создателем первой цифровой книги. Библиотека послужила прообразом ряда других проектов, среди которых:

  • Project Gutenberg Australia, нацеленный на сбор литературы, изданной в Австралии и США с учётом закона о защите действующего в стране закона об авторских правах;
  • Project Gutenberg Canada, который собирает посвящённые местной тематике, а также книги из Европы и США с истёкшим сроком действия авторских прав;
  • Проект Project Gutenberg Consortia Center, специализирующийся на сборе и распространении тематических коллекций, а также ранее неопубликованных электронных текстов;
  • Проект «Гутенберг» в Германии;
  • Проект «Гутенберг» в Люксембурге;
  • Projekti Lönnrot, специализирующийся на финской литературе; назван в честь финского филолога и просветителя Элиаса Лённрота;
  • Проект «Рунеберг» по сбору и распространению электронной литературы на скандинавских языках;

«Гутенберг» также сотрудничает с Архивом Интернета и LibriVox.

Ряд инициатив уже завершились – Project Gutenberg в Филлипинах, Проект Европа, осуществляемый в рамках сербского проекта Растко (Rastko), Проект «Гутенберг» Россия (именуемый также «Рутенберг» в честь средневекового европейского названия России — Рутения), Project Gutenberg на Тайване, курирующий коллекцию электронных книг на английском и китайском языках.

В 2016 году на основе коллекции «Гутенберга» было выпущено приложение для Android.

Отдельные проекты занимаются конвертацией оцифрованных проектом работ в другие электронные форматы. Так, Blackmask Online конвертируют работы в восемь различных форматах на основе Open eBook. Manybooks.net конвертировал электронные книги Проекта в форматы, удобные для чтения на КПК. Bookshare, главная цифровая библиотека для людей с нарушениями зрения в США, конвертирует книги в формат Брайля и формат DAISY. Многие тексты используются проектом LibriVox для создания аудиокниг.

См. также

Литература

  • Ballard T. Electronic books // Google This!. — 2012. — С. 125—146.
  • Bean R. The Use of Project Gutenberg and Hexagram Statistics to Help Solve Famous Unsolved Ciphers // Proceedings of the 3rd International Conference on Historical Cryptology, HistoCrypt. — 2020. — С. 31—35.
  • Dutta S. Project Gutenberg: A Prototype of Modern Open Movements. // LIS Links Newsletter. — 2015. — Т. 1, вып. 7. — С. 2—8.
  • Eglof M., Adamou A., Picca D. Enabling Ontology-Based Data Access to Project Gutenberg // CEUR-WS. — 2020. — С. 21—32.
  • Hane P. Project Gutenberg Progresses // Information Today. — 2004. — Т. 21, вып. 5.
  • Lebert M. A Short History of eBooks. — University of Toronto. — 2009.
  • Савицкая Т. Е. Проект «Гутенберг»: старейшая электронная библиотека США // Библиотековедение. — 2017. — Т. 66, вып. 5. — С. 560—566.

Ссылки


Новое сообщение