“PDF复制后乱码问题”解决方案
1. 什么是乱码?(即PDF文档文字符号显示原理)
计算机系统中显示出来的字符,是通过每个字符对应的唯一码(即内码),再用此字符不同字体的字模样式显示出来。如:” 国 ”字的内码是“ B9FA ”,用黑体显示就是“ 国 ”的字样,用楷体显示就是“ 国 ”的字样,但内码都是同一的“ B9FA ”。
对于PDF文档来说也一样,当打开一个PDF文件时,我们看到显示出来的字符是每个字符的字模样式,但当字模与该字符对应的内码不能对应时,将PDF文档内的字符复制黏贴出来则会出现乱码现象,即显示非对应内码的另外一个字符。
例如,“简”字的字符内码显示为“ { ”,则将“简”字复制出来黏贴到写字板显示出来就变成了“ { ”,这就是乱码现象。
![]() |
2. 什么是乱码PDF?
乱码PDF通常具有以下特征:
1)PDF显示很正常。
2)将PDF中的文字复制粘贴到写字板,会发现这些文字变成了乱码。
3)无法在此PDF中查找文本。
4) 无法将PDF另存为txt文本文件。
这种PDF只能用于浏览和打印,无法存档和二次利用。
由于历史原因,国内出版行业中存在大量的PDF乱码现象。对于这种PDF,弃之可惜,用之难受。
3. 我们提供怎样的解决方案
我们能够提供一整套的软件系统及服务,彻底解决PDF乱码问题,让这些乱码PDF起死回生。
我们的解决方案主要包括:
1)一套PDF内码校正的软件系统(内测阶段)
2)一套自动校正的字模对照表(制作阶段)
3)PDF乱码校正加工服务。
我们的解决方案的特点是:
1)保持PDF的外观和版式。
2)绿色软件,无需安装,无需第三方SDK。
3)支持批量操作。
4)支持各种版本的PDF。
我们的PDF乱码校正服务的优点是:
1)我们专业的PDF处理团队,包括PDF开发人员和具有丰富经验的加工人员;
2)我们可以同时解决PDF双层OCR、PDF转曲后文件还原等复杂的问题;
3)乱码校正的速度很快,是普通图片OCR校对速度的几倍。
我们修正后的PDF文件能够达到以下质量:
1)原版原式地pdf文件,绝不破坏原始pdf文件的结构和版式;
2)乱码PDF经过校正之后,文本内容可以正常复制、粘贴和检索、查找;
3)乱码校正后的文本错误率可以保证在万分之三以下,准确率高。
4. 如何获取我们的加工服务
如果你有乱码的PDF文件需要修正,可以按照以下方式获取我们的加工服务:
1)将你的乱码pdf文件发送一个样文到这个邮箱:896502749@qq.com ;
(说明:选择有代表性的乱码pdf作为样文,10页以内,并在邮件标题注明“乱码pdf校正”)
2)邮件中详细说明加工的要求和需要加工的文件数量或总页数;
3)我们会根据你的样文核算加工费用,并将样文处理后回复给你;
4)如果你满意我们的价格和质量,即可签订加工合同,必要时请拨打(86)15711178958与我们联系。
5. 我们如何修改乱码?
PDF文件中的字符包括两样东西:
(1)字符的形状(通常称“字模”)
(2)字符对应的Unicode码(内码)。
我们打开一个PDF,看到的是字的模型(通常称“字模”),而我们复制出来后的文字是字符的内码。
PDF中所有的字体都包含两个表:字模表、字模序号与Unicode对照表。
字模通常被嵌入到PDF中,叫内嵌字体。
但是,某些PDF制作工具在生成PDF时,没有正确生成“字模序号与Unicode对照表”,这导致生成的PDF无法复制。
所以,要解决这些复制问题,最直接的方法就是修改“字模序号与Unicode对照表”。
下图是一个演示图,说明pdf中的字模与内码对应关系,以及如何修改PDF中的乱码。

图中每个单元格是一个字符,单元格的上方是字符的字模,单元格的下方是字符的内码。当上下一致时,则表示字符的内码是正确的。
图中不同底色的说明:①黄色,说明修改正确后已保存的状态;②绿色,表示修改正确后未保存的状态;
③紫色,表示当前鼠标放在其字符框中准备修改的状态;④白色,表示未修改的区域
6. 我们如何保证校正质量?
1)采用多种自动校正的手段
① OCR(光学字符识别)【是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。】(此方法正确率在90%以上)

② 字模比对 【PDF中的字模同系统字库中的字模相比对,用以还原其内码】
2) 也可采用多种手动的校对方式
① 字符上下对照 (也称横校模式)【将字符与其对应的内码上下对照,一目了然,即可显示对应错误的内码,以待改正】

② 纵校模式 【按字符归类显示,校对更细致】
③ 原始版面定位 【适用于“ 0 ”和“ O ”, “ I "和 “ i " 等一时无法清晰辨别的字符】
(运用自动与手动方法相辅的校正方式,横向和纵向的检查模式,逐层递进,以确保高效率、高正确率、高质量的服务理念)
7. 示例文件
(1)复制乱码的PDF修复
校正前的乱码PDF:乱码PDF
校正后的正常PDF:正常PDF
(2)转曲后的PDF修复
原始PDF:原始PDF
校正后的正常PDF:正常PDF
