Linux|系统管理|WEB开发

关注Linux,系统管理,WEB开发以及开源世界

为pdf和chm文件自动重命名

| Comments

前面提到了用Photorec工具恢复出来的文件都是以inode命名的名字,不看内容,你很难知道这是什么文件。不过不幸的幸运是他识别出了文件的类型(当然在Linux里,即便没有识别出来,也能通过file只能识别出大部分知名的文件类型)。

我们知道每一个结构性(二进制)文件都有metadata信息,一般包括文件的作者、创建,修改时间,标题、主题、关键字等。
pdf文件,office文件,chm文件等当然也包含了这些信息。

因为本文就是根据这些metadata信息提取出标题来,然后用标题给文件重新命名。
因为office文档我在Linux平台还没有找到好的提取办法(可恶的专有格式),pdf和chm都有基本的处理库文件,我这里使用python调用这些库,来做一些简单的处理,没有考虑很复杂的情况,依赖这个脚本,我给大约150个pdf文件,40个chm文件成功的重命名了。

但是有一部分pdf文档,虽然没有加密,但是程序库认为加密了,使用空密码或者随机字符串解密都失败,针对这类文件,我暂时还没有好的办法。 下面是程序源代码

Comments