PDF乱码校正系统

 

PDF文档文字符号显示原理

  • 计算机系统中显示出来的字符,是通过每个字符所对应的唯一码(即内码),再用此字符不同字体的字模样式显示出来。如:“国”字的内码是“B9FA”,用黑体显示就是“国”的字样,用楷体显示就是“国”的字样,但内码都是同一的“B9FA”。
  • 对于PDF文档来说也一样,当打开一个PDF文件时,我们看到显示出来的字符是每个字符的字模样式,但当字模与该字符的内码不能对应时,将pdf文档内的字符复制粘贴出来则会出现乱码现象,即显示其非对应内码的另外一个字符。
  • 例如:“简”字的内码显示为“{”,则将“简”字复制出来粘贴到写字板显示出来就变成了“{”,这就是乱码现象。

 

系统界面及功能介绍

校正后的PDF可以正常文本复制和检索。

 

截图说明:

    截图1:内码显示并对比

截图说明:

说明:将一个PDF文档中所有字符的内码与字模一一对应显示出来,即可找出内码与字模不一致的字符(内码与字模不一致的字符表明此字符的内码是错误的,即复制出的文本将以错误的内码形式显示);

 

截图2:对应字模修改内码

截图说明:

说明:把内码不对的字符进行内码修改,使其与字模显示一致

 

截图3:保存修改后的PDF文档