网上关于如何解决新编医药学大词典对一般非加密、非扫描pdf格式文档取词的文章已经有不少了。此类文章只是针对医学大词典的取词插件没有正确安装的解决办法。具体的方法简单的说就是将大辞典安装目录下plugin文件夹里的三个文件-RwAcrob4c.api、RwAcrob5c.api、RwAcrob6c.api粘贴到acrobat reader软件安装路径plug_ins文件夹中即可。但是对于如何使加密或扫描的pdf文件也支持取词的解决办法的文章却很少,且说明多不够详尽。应用pdf加密破解软件-advanced PDF password Recovery 对加密pdf文档进行解密,从而令其支持大词典取词,是目前网上对于加密pdf文件解决取词问题的较普遍的解决方案,但是本人在实际应用该方法过程中,成功的机率很低。对于大多数加密的pdf文件来说,该软件是不能正确破解的。
相信大家和我一样,在日常的科研工作中会碰到大量的需要查阅的英文pdf文档,由于版权保护的原因,这些文档有一部分是被加密的。加密的方法有两种:口令加密和证书加密,加密的选项概括的说有四个:打开文档加密、打印加密、修改加密和文本复制加密。对于不同的加密形式,我们在进行相应的操作时即会证实。其实,解决的万能方法就是利用adobe公司acrobat软件的一个致命软肋:就是其对pdf文件的加密只有当使用adobe公司的pdf阅读器-acrobat reader时才有效,可能对于其他的pdf阅读器无效!这个问题其实在adobe acrobat的软件说明中就提到了。解密推荐的工具为:1、CAJViewer 7.0 pdf阅读器 可以到其官方网站-中国知网去下载它的最新版本;2、Adobe Acrobat 8 Professional 可以到起点下载(破解联盟)去下载它的破解版,非常好用的一个版本;3、两个虚拟打印机:一个是Adobe PDF,在安装Adobe Acrobat 8 Professional 时会自动安装,另一个office自带的Microsoft Office Document Image Writer ,需要在安装office软件时在工具选项中将其选中,我用的是 office 2003 的版本。有了上述几个工具即可解决一切取词问题!!具体操作如下:
1、扫描pdf文档的取词:用Adobe Acrobat 对文档进行文字识别,识别后的文档即可顺利取词。具体操作在该软件的菜单栏-文档-ocr文本识别执行。
2、对于文本复制加密文档的取词:利用上述安装的虚拟打印机打印该文档,然后再对打印的文档进行文本识别即可。推荐首选Adobe PDF虚拟打印机,如果不能正常打印再考虑使用另一个。
3、对于打印加密文档的取词:用CAJViewer打开文档,此时打印加密完全无效,再用虚拟打印机打印,然后再对文档进行文本识别即可。
4、对于知网caj文件的取词:可以用上述虚拟打印机将caj文档打印成pdf文档,再对其进行文本识别即可。
通过上述方法,可以解决一切pdf文档大词典不能正确取词的问题。建议大家下载目前被认为加密程度最高的一套经典pdf电子书-创世卓越系列图书进行实战测试。