Anna’s Blog
关于安娜的档案的更新,这是人类历史上最大的真正开放图书馆。

ISBNdb转储,或有多少书籍被永久保存?

annas-archive.li/blog, 2022-10-31

如果我们正确地对影子图书馆的文件进行去重,我们保存了世界上多少百分比的书籍?

通过海盗图书馆镜像(编辑:已移至安娜的档案),我们的目标是收集世界上所有的书籍,并永久保存它们。1在我们的Z-Library种子和原始Library Genesis种子之间,我们有11,783,153个文件。但这到底是多少呢?如果我们正确地对这些文件进行去重,我们保存了世界上多少百分比的书籍?我们真的希望有这样的东西:

10% 的人类书面遗产永久保存

对于百分比,我们需要一个分母:有史以来出版的书籍总数。2在Google Books消亡之前,该项目的一名工程师Leonid Taycher试图估算这个数字。他开玩笑地得出了129,864,880(“至少到星期天”)。他通过建立一个世界上所有书籍的统一数据库来估算这个数字。为此,他汇集了不同的数据集,然后以各种方式将它们合并。

顺便说一句,还有另一个人试图将世界上所有的书籍编目:已故的数字活动家和Reddit联合创始人Aaron Swartz。3创办了Open Library,目标是“为每本出版的书创建一个网页”,结合来自许多不同来源的数据。他最终为他的数字保存工作付出了最高的代价,因为他因批量下载学术论文而被起诉,导致他自杀。不用说,这就是我们小组使用化名的原因之一,也是我们非常小心的原因。Open Library仍然由互联网档案馆的工作人员英勇地运营,继续Aaron的遗产。我们将在本文后面回到这一点。

在Google的博客文章中,Taycher描述了估算这个数字的一些挑战。首先,什么构成一本书?有几种可能的定义:

“版本”似乎是“书籍”最实用的定义。方便的是,这个定义也用于分配唯一的ISBN号。ISBN,即国际标准书号,通常用于国际商务,因为它与国际条码系统(“国际商品编号”)集成在一起。如果您想在商店中销售书籍,就需要一个条码,因此您需要获得ISBN。

Taycher的博客文章提到,虽然ISBN很有用,但它们并不普遍,因为它们实际上是在七十年代中期才被广泛采用,并且并非在全球范围内都使用。尽管如此,ISBN可能是书籍版本中最广泛使用的标识符,因此它是我们最好的起点。如果我们能找到世界上所有的ISBN,我们就能得到一份有用的书籍清单,知道哪些书籍仍需保存。

那么,我们从哪里获取数据呢?目前有许多现有的努力正在尝试编制世界上所有书籍的清单:

在这篇文章中,我们很高兴宣布一个小型发布(与我们之前的Z-Library发布相比)。我们抓取了大部分ISBNdb,并将数据在海盗图书馆镜像网站上提供种子下载(编辑:已移至安娜的档案;我们不会在此直接链接,只需搜索即可)。这些大约有3090万条记录(20GB作为JSON Lines;4.4GB压缩后)。在他们的网站上,他们声称实际上有3260万条记录,所以我们可能遗漏了一些,或者他们可能做错了什么。无论如何,目前我们不会分享我们是如何做到的——我们将其留作读者的练习。😉

我们将分享一些初步分析,以尝试更接近估算世界上书籍的数量。我们查看了三个数据集:这个新的ISBNdb数据集,我们从Z-Library影子库(包括Library Genesis)抓取的元数据的原始发布,以及Open Library的数据转储。

让我们从一些粗略的数字开始:

Editions ISBNs
ISBNdb - 30,851,787
Z-Library 11,783,153 3,581,309
Open Library 36,657,084 17,371,977

在Z-Library/Libgen和Open Library中,书籍数量远多于唯一的ISBN。这是否意味着许多书籍没有ISBN,或者只是缺少ISBN元数据?我们可能可以通过基于其他属性(标题、作者、出版商等)的自动匹配、引入更多数据源以及从实际书籍扫描中提取ISBN(在Z-Library/Libgen的情况下)来回答这个问题。

这些ISBN中有多少是唯一的?这最好用维恩图来说明:

更精确地说:

ISBNdb ∩ OpenLib 10,177,281
ISBNdb ∩ Zlib 2,308,259
Zlib ∩ OpenLib 1,837,598
ISBNdb ∩ Zlib ∩ OpenLib 1,534,342

我们对重叠之少感到惊讶!ISBNdb有大量的ISBN没有出现在Z-Library或Open Library中,其他两个也是如此(虽然程度较小但仍然显著)。这引发了许多新问题。自动匹配在标记未标记ISBN的书籍方面能有多大帮助?会有很多匹配从而增加重叠吗?另外,如果我们引入第四或第五个数据集,会看到多少重叠?

这确实为我们提供了一个起点。我们现在可以查看所有不在Z-Library数据集中的ISBN,并且也不匹配标题/作者字段。这可以帮助我们保存世界上的所有书籍:首先通过在互联网上抓取扫描件,然后在现实生活中扫描书籍。后者甚至可以通过众筹实现,或者由希望看到特定书籍数字化的人提供“赏金”来驱动。所有这些都是另一个时间的故事。

如果您想帮助其中的任何一项——进一步分析;抓取更多元数据;寻找更多书籍;对书籍进行OCR;在其他领域(如论文、有声书、电影、电视节目、杂志)中进行这些工作,甚至将这些数据用于机器学习/大语言模型训练等用途——请联系我(Reddit)。

如果您对数据分析特别感兴趣,我们正在努力使我们的数据集和脚本以更易于使用的格式提供。如果您能直接分叉一个笔记本并开始使用,那就太好了。

最后,如果您想支持这项工作,请考虑捐款。这是一个完全由志愿者运营的项目,您的贡献会产生巨大的影响。每一点帮助都很重要。目前我们接受加密货币捐款;请参阅Anna的档案馆的捐赠页面。

- Anna和团队(Reddit

1. 对“永远”的某种合理定义。;)

2. 当然,人类的书面遗产远不止书籍,尤其是在当今时代。为了这篇文章和我们最近的发布,我们专注于书籍,但我们的兴趣更广泛。

3. 关于Aaron Swartz还有很多可以说的,但我们只想简要提及他,因为他在这个故事中扮演了关键角色。随着时间的推移,可能会有更多人第一次听到他的名字,并随后自己深入了解。