加工服务
加工服务
“PDF复制后乱码问题”解决方案
1. 什么是乱码?(即PDF文档文字符号显示原理)
计算机系统中显示出来的字符,是通过每个字符对应的唯一码(即内码),再用此字符不同字体的字模样式显示出来。如:” 国 ”字的内码是“ B9FA ”,用黑体显示就是“ 国 ”的字样,用楷体显示就是“ 国 ”的字样,但内码都是同一的“ B9FA ”。
PDF文档格式转换
- PS文件转换成PDF
包括:方正书版、方正飞腾发排的PS文件,都可以转换成PDF格式。 - 方正大样文件转换
包括s2,s72,s92,ps2,mps,s10,nps等大样文件转换成PDF格式。 - Word转PDF
word文档可批量转换成PDF格式。 - PDF转XML
可以先进行人工标引,分章节、段落、主题信息后导出XML文件,对于报纸类信息,可以按文字块及图片进行合并、组合后,导出到XML文件。
扫描-OCR-识别
- 纸质图书扫描
彩色、黑白均以300dpi以上进行高速扫描 - OCR识别
采用先进的文本识别技术,将错误率降至最低 - 文档校对
进行三次人工校对,保证内容信息的高度准确 - 制作成双层PDF
将图片层与识别层组合成双层的PDF,这种PDF文件既能保持原版原式又可以检索、复制、拷贝 - 制作成单层PDF
双层、单层PDF的制作
- 可检索PDF(上面是图,下面是文字)制作
可以将扫描后的图片,进行识别加工成双层的pdf,上面是图片,下面是文本,可以支持文本检索、复制、拷贝。 - 可选择PDF(上面是文字,下面是图)制作
可以将扫描后的图片,进行识别加工成双层的pdf,上面是文本,下面是图片,可以支持文本检索、复制、拷贝。 - 图片转单层PDF制作
可以将扫描后的图片,进行识别加工成单层的pdf,文字是矢量的,不仅可以支持文本检索、复制、拷贝,文件还可用于高精度打印和印刷。
PDF内容信息提取
- 电子图书CIP数据抽取
对书籍的版权页面、目录信息、摘要内容进行针对性的信息提取,例如:书名、作者、责任编辑、出版单位、CIP数据、ISBN、开本、定价、发行单位、章节信息等分别提取出来建立索引数据库。 - 电子图书目录自动抽取
可以对书籍的目录页面进行自动抽取,生成对应的文本文件,并还原到PDF中生成书签。 - 学术期刊信息抽取
可以对期刊内容指定信息抽取,例如:标题、作者、作者单位、摘要、关键词、文章编号等。 - 电子报纸文章信息识别
期刊杂志检索光盘
我们为期刊、杂志出版物的配套光盘和合订本光盘提供专业的检索光盘制作服务。光盘形式可选择传统的页面文章浏览模式,和最新的flash翻页模式播放,两种模式均可达到较好的电子期刊、杂志展示效果。
我们的系统特点如下:
《百科全书检索光盘》
我公司专业制作《百科全书检索光盘》(载体:VCD / DVD / U盘 / 移动硬盘),是各大出版单位开发“电子读物系列产品”发行和“书籍配套光盘”发售的良好选择。
《百科全书检索光盘》,具有以下功能特色: