随笔之把你的哲学书变成生词本之正义论用了多少单词

背单词是老大难问题，尤其是所背诵的单词和自己的专业相差甚远的时候，更没有动力去记忆单词了。兴趣和毅力，因为没有兴趣，也就没有毅力。

为了克服背单词的难题，我突发奇想，能不能把要阅读的哲学书里面的词汇提取出来，并制作成 Anki 词库，以提高学习效率。这样一来，兴趣的原动力就有了，剩下的工作就是坚持下去了。

说做就做，我的第一个想法是直接把 epub convert 到 anki 中，anki 是一个开源 flash card 软件。首先，我不可能自己写代码，否则又陷入生产力怪圈，于是开始做研究，发现已经有人做了一些工作，能将 epub 直接变成 deck 文件。于是开始配这个包的 python 环境，下载，然后执行，然后失败。然而，这些工具大多年久失修，或者无法完美处理各种格式的 epub 文件，因此效果并不理想。这不是作者的错。毕竟，没有多少人想到要把书变成词库，又没有多少人能付诸实践。

上面的想法放弃后，我想，这种事情，我只能用半天时间，不能再多了，于是放弃上述稍微硬核的做法，开始搜寻，如果能把 epub 先变成 text，然后分割词组，之后再去重，再用 regex 过滤掉符号和数字，则完美得到一本书的无重复单词本。

功夫不负有心人。

首先，我用 calibre 把 epub 变成 text。
其次，我找到一个网站，甚至不需要我写脚本，能把上一步的 TOJ.txt 直接 split 成单行 text。（请选网站下方的：Text Cleanup via a Regular Expression 模式）
1. https://onlinetexttools.com/split-text
第三步，上面的 text 其实还没去重，我自己跑了一行命令去了重，但是其实这一步是浪费时间，跳过。
第四步，去重的工作完全可以用欧陆词典来代替：
1. https://my.eudic.net/studylist/import/
点击，第四步的链接，点击导入其他软件生词，你有两个选择：
1. 一是把第二步的文件直接复制到剪贴板，然后点击 “通过文本导入生词”，复制进入即可。
2. 二是，将文件存到本地的.txt 文件中，我选了这个，然后点击 “导入其他软件生词本” 的 “上传”，上传你的.txt 文件即可。
欧陆会自动帮你去重，并且会帮你匹配单词释义和发音。
下面，坚持就好了。

正义论，如果我的去重命令没出错的话，罗尔斯用了 “8239” 个词汇。
本文经 Google Gemimi Ultra 润色。