Anna’s Blog
关于安娜的档案的更新,这是人类历史上最大的真正开放图书馆。

我们完成了中文版发布

annas-archive.li/blog, 2025-11-28

总结: 我们终于完成了两年前开始的中文版发布。我们回顾了所有涉及的工作。

我们非常高兴地宣布,我们在两年前(本月)开始的中文版发布终于完成了。在我们的中国志愿者团队的努力下,我们终于成功发布并整合了读秀和其他中文收藏。我们想简单概述一下不同的子收藏,及其涉及的工作。

爱阅书
由志愿者j抓取的 爱阅电子书(发音为ai rit i-books; airitibooks.com)。
CADAL
CADAL 是一个古籍收藏。bpb9v解释道:“1. CADAL有两个建设阶段,第一个阶段(数字化一百万本书籍)从2001年到2006年,第二个阶段(数字化150万本书籍)从2007年到2012年。之前由“woz9ts”发送下载链接的图书馆来自第一阶段。
2. 这个图书馆是由一个名为“h”的人在2016年之前下载的。他们利用一些漏洞进行下载。我找到的关于这个图书馆的最早链接是发表于2015年4月。
3. 在这个图书馆中,有超过60万份文件,其中大约一半是书籍或杂志,另一半是论文。似乎没有办法通过ID分离这些文件。
4. 我听说“h”在2021年分享了一些来自第二阶段下载的文件,但我没有找到其他的信息来源。此外,我在我的云盘中找到了一个名为的文件夹,里面有许多读秀书籍,但我不知道它的来源。”
cgiym
由我们的志愿者cgiym提供,来自各种来源的文本(以子目录表示),包括来自中国工信出版社(一家主要的中国出版商)。
中国建筑
由志愿者cm抓取的关于中国建筑的书籍:我通过利用出版社的网络漏洞获取了它,但该漏洞现已被修复
得到
由志愿者“qp”抓取的中国平台书库
读秀
读秀是一个庞大的扫描书籍数据库,由超星数字图书馆集团创建。大多数是学术书籍,扫描后以数字形式提供给大学和图书馆。对于我们的英语读者,普林斯顿大学华盛顿大学有很好的概述。还有一篇优秀的文章提供了更多背景信息:“数字化中国书籍:超星读秀学者搜索引擎案例研究”
读秀的书籍长期以来在中国互联网上被盗版。通常它们被转售商以不到一美元的价格出售。它们通常通过中国版的Google Drive分发,这些平台经常被黑客攻击以增加存储空间。一些技术细节可以在这里这里找到。
尽管这些书籍已经半公开分发,但要批量获取它们还是相当困难的。我们将此列为待办事项的高优先级,并分配了数月的全职工作时间。然而,在2023年末,一位令人难以置信、惊人且才华横溢的志愿者联系了我们,告诉我们他们已经完成了所有这些工作——并为此付出了巨大的代价。他们与我们分享了完整的收藏,不求任何回报,只希望能长期保存。真是令人钦佩。
读秀的种子文件路径包含从原始ZIP文件转换而来的PDF文件。部分转换使用了我们采用志愿者代码的pdgconvert工具。那些已经处于适当格式(如PDF、EPUB或DJVU)的文件被包括在不同的“上传”种子子集合数据集描述文件路径中。
读秀_epub
由志愿者w直接从读秀收集的读秀epub。只有最近的读秀书籍可以直接通过电子书获取,因此这些书籍大多数都是近期的。
读秀_ts
更多格式为“TS*”(较新文件)的读秀文件,由志愿者“w”抓取。
gxds_epub
志愿者“woz9ts”解释说:“国学大师资源库是https://www.guoxuedashi.net/。这个网站有一个不错的古籍收藏。它发布了多个版本的本地图书阅读器(带加密的metadata和全文数据库)。我找到了提取密钥和解密数据库的方法。我的‘gxds’收藏涵盖了国学大师资源库/软件文件夹。”
huafuzhi
由志愿者“w”抓取的huafuzhi.com。主要由c-textilep(中国纺织出版社)出版。
huawen_library
由志愿者“bl”抓取的台湾华文电子书库。志愿者“bpb9v”指出:“我认为国学大师的私密社区以前抓取过这个。我在书商网站上看到过一个收藏。”
longquan_archives
龙泉司法档案精选,由志愿者c提供。部分metadata可在index for Longquan archives.xls中找到,更多信息在instruction.txt中。
ptpress
志愿者“w”抓取的人邮社
sciencereading
由志愿者“qp”、“w”和“ma”抓取的科学阅读。“qp”解释:“在2024年8月,网站出现了前所未有的漏洞。我们安排了大约30人来抓取。”
shanghai_library_ancient
上海图书馆的古籍。
zjjd
志愿者“w”抓取的ZJJD.cn。更多信息:[1]。许多图书仅为预览版,因此只包含metadata。“w”将“.zjjd”扩展名解密为“.pdf”,使用AES密码"xSeZw1dY2HKAj3yk"
shuge
由志愿者联合收藏的蜀阁
shukui_net_cdl
志愿者“w”抓取的书魁网,一个中国影子库,它以独特方式分发和加密文件。我们推测解密网址jyjl.org由同一人运营,但被分开以避免法律问题。我们设法获取了他们的“二级图书馆”(CDL,中国数字图书馆,由国家图书馆建设)。“主图书馆”仍需完成,不过它似乎与我们现有的“读秀”收藏有显著重叠。
 
志愿者“bpb9v”解释:“他们从未提到这个图书馆的全名,只说‘中数’。我猜这指的是‘中国数字图书馆(Chinese Digital Library, CDL)’。这个图书馆由国家图书馆下属的一家公司建设。有时它被称为‘中数书屋(CDL Book Room)’。”
sklib
来自志愿者“w”的中国社会科学图书馆的metadata抓取。还需要有人来抓取实际的文件。
SuperStar_Journals
超星是读秀背后的公司。bpb9v解释:“超星期刊:这些期刊可以在https://epubf.5read.com/qikan/ZYJC/ZYJC202201/index.html这样的链接中阅读,原始PDF文件可以从https://epubf.5read.com/qikan/ZYJC/ZYJC202201/files/extfile/ebook.pdf下载。ZYJC是《中国中医基础医学杂志》的缩写。220101表示2022年第1期。”
twlibrary
由志愿者“woz9ts”抓取的影子库“台湾图书馆馆藏书籍(2T)”。看起来它来自这些官方网站[1][2]。我们结合了来自台湾特藏预览.zip【新】台湾特藏目录.xlsx的metadata。我们将文件转换为PDF,但也保留了原始.zip文件(因为有些无法正确转换)。
文曲
文曲经典图书馆bpb9v解释:“这个网站现在无法访问,因为有人(可能是书商)在短时间内抓取了过多的数据。约有8万份PDF文件和4千份epub文件(还有一些mobi文件)。所有pdf文件都在官网上,因此现在无法访问。但是epub文件存储在阿里云服务器上。它们都已上传。”
woz9ts
来自志愿者woz9ts的收藏:program-thinkhaodoo(附加metadata和代码:[1][2][3]),skqs(由迪志(Dizhi)在台湾创建;有两个地方:[1][2]),mebook (mebook.cc, 我的小书屋,我的小书房 — woz9ts: 此网站主要专注于分享高质量的电子书文件,其中一些是由站长本人排版的。站长于2019年被捕,后来有人整理了他分享的文件集。)。
万方新方志45616
志愿者“woz9ts”解释:“万方新方志45616是一个重要的收藏。方志是一种书籍,包含一个镇/县的历史、经济、农业、地理、文化及其他评论。这些书籍由地方政府每隔几十年编纂一次。XFZ表示新方志。万方是一个数字图书馆。”数据似乎是从较小的PDF中拼接而来的(见 './江苏省/XFZ20651.《 南京市志》第一册(总述、大事专记、地理、人口、环保)/combin.bat'),而pdf内容的创建者似乎是'pdftk'。所有文件似乎都是在2020年8月11日左右生成的。duxiu_main2/万方新方志45616中的文件名与万方的标题相匹配。
国学大师资源库/guji
相关链接[1][2][3][4][5]

可以在读秀数据集读秀种子上传数据集上传种子其他metadata数据集其他metadata种子的页面上找到更多信息。

非常感谢所有志愿者的辛勤工作。当然,还有更多的工作在进行中。这项工作永远不会结束。

- Anna和团队(Reddit