“PDF复制后乱码问题”解决方案

      1. 什么是乱码?(即PDF文档文字符号显示原理)

           计算机系统中显示出来的字符,是通过每个字符对应的唯一码(即内码),再用此字符不同字体的字模样式显示出来。如:” 国 ”字的内码是“ B9FA ”,用黑体显示就是“ 国 ”的字样,用楷体显示就是“ 国 ”的字样,但内码都是同一的“ B9FA ”。

           对于PDF文档来说也一样,当打开一个PDF文件时,我们看到显示出来的字符是每个字符的字模样式,但当字模与该字符对应的内码不能对应时,将PDF文档内的字符复制黏贴出来则会出现乱码现象,即显示非对应内码的另外一个字符。

           例如,“简”字的字符内码显示为“ { ”,则将“简”字复制出来黏贴到写字板显示出来就变成了“ { ”,这就是乱码现象。

 

     2. 什么是乱码PDF?

          乱码PDF通常具有以下特征:

             1)PDF显示很正常。

            2)将PDF中的文字复制粘贴到写字板,会发现这些文字变成了乱码。

            3)无法在此PDF中查找文本。

            4)  无法将PDF另存为txt文本文件。

         这种PDF只能用于浏览和打印,无法存档和二次利用。

         由于历史原因,国内出版行业中存在大量的PDF乱码现象。对于这种PDF,弃之可惜,用之难受。

  

     3.  我们提供怎样的解决方案

            我们能够提供一整套的软件系统及服务,彻底解决PDF乱码问题,让这些乱码PDF起死回生。

            我们的解决方案主要包括:

             1)一套PDF内码校正的软件系统(内测阶段)

             2)一套自动校正的字模对照表(制作阶段)

             3)PDF乱码校正加工服务。

 

             我们的解决方案的特点是:

             1)保持PDF的外观和版式。

             2)绿色软件,无需安装,无需第三方SDK。

             3)支持批量操作。

             4)支持各种版本的PDF。

 

            我们的PDF乱码校正服务的优点是:

            1)我们专业的PDF处理团队,包括PDF开发人员和具有丰富经验的加工人员;

            2)我们可以同时解决PDF双层OCR、PDF转曲后文件还原等复杂的问题;

            3)乱码校正的速度很快,是普通图片OCR校对速度的几倍。

 

           我们修正后的PDF文件能够达到以下质量: 

            1)原版原式地pdf文件,绝不破坏原始pdf文件的结构和版式;

            2)乱码PDF经过校正之后,文本内容可以正常复制、粘贴和检索、查找;

            3)乱码校正后的文本错误率可以保证在万分之三以下,准确率高。

 

 

     4.  如何获取我们的加工服务

            如果你有乱码的PDF文件需要修正,可以按照以下方式获取我们的加工服务: 

            1)将你的乱码pdf文件发送一个样文到这个邮箱:896502749@qq.com

            (说明:选择有代表性的乱码pdf作为样文,10页以内,并在邮件标题注明“乱码pdf校正”)

            2)邮件中详细说明加工的要求和需要加工的文件数量或总页数;

            3)我们会根据你的样文核算加工费用,并将样文处理后回复给你;

            4)如果你满意我们的价格和质量,即可签订加工合同,必要时请拨打(86)15711178958与我们联系。

 

 

     5.  我们如何修改乱码?

    PDF文件中的字符包括两样东西:

           (1)字符的形状(通常称“字模”)

           (2)字符对应的Unicode码(内码)。
    我们打开一个PDF,看到的是字的模型(通常称“字模”),而我们复制出来后的文字是字符的内码。
    PDF中所有的字体都包含两个表:字模表、字模序号与Unicode对照表。
    字模通常被嵌入到PDF中,叫内嵌字体。
    但是,某些PDF制作工具在生成PDF时,没有正确生成“字模序号与Unicode对照表”,这导致生成的PDF无法复制。
    所以,要解决这些复制问题,最直接的方法就是修改“字模序号与Unicode对照表”。
   下图是一个演示图,说明pdf中的字模与内码对应关系,以及如何修改PDF中的乱码。

       

       图中每个单元格是一个字符,单元格的上方是字符的字模,单元格的下方是字符的内码。当上下一致时,则表示字符的内码是正确的。

      图中不同底色的说明:①黄色,说明修改正确后已保存的状态;②绿色,表示修改正确后未保存的状态;

                  ③紫色,表示当前鼠标放在其字符框中准备修改的状态;④白色,表示未修改的区域


 

       6. 我们如何保证校正质量?

            1)采用多种自动校正的手段

                ① OCR(光学字符识别)【是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。】(此方法正确率在90%以上)

                ② 字模比对 【PDF中的字模同系统字库中的字模相比对,用以还原其内码】

 

           2) 也可采用多种手动的校对方式

                ① 字符上下对照 (也称横校模式)【将字符与其对应的内码上下对照,一目了然,即可显示对应错误的内码,以待改正】

                ② 纵校模式 【按字符归类显示,校对更细致】

                ③ 原始版面定位 【适用于“ 0 ”和“ O ”, “ I "和 “ i " 等一时无法清晰辨别的字符】

  (运用自动与手动方法相辅的校正方式,横向和纵向的检查模式,逐层递进,以确保高效率、高正确率、高质量的服务理念)

        7. 示例文件

        (1)复制乱码的PDF修复

                      校正前的乱码PDF:乱码PDF

                      校正后的正常PDF:正常PDF

        (2)转曲后的PDF修复
                      原始PDF:原始PDF

                      校正后的正常PDF:正常PDF