加工服务

加工服务

PDF转XML服务

PDF转XML演示

 

原始图片: 第一页      第二页

转换后的XML:点击此处查看

 

“PDF复制后乱码问题”解决方案

      1. 什么是乱码?(即PDF文档文字符号显示原理)

           计算机系统中显示出来的字符,是通过每个字符对应的唯一码(即内码),再用此字符不同字体的字模样式显示出来。如:” 国 ”字的内码是“ B9FA ”,用黑体显示就是“ 国 ”的字样,用楷体显示就是“ 国 ”的字样,但内码都是同一的“ B9FA ”。

PDF文档格式转换

  1. PS文件转换成PDF
    包括:方正书版、方正飞腾发排的PS文件,都可以转换成PDF格式。
  2. 方正大样文件转换
    包括s2,s72,s92,ps2,mps,s10,nps等大样文件转换成PDF格式。
  3. Word转PDF
    word文档可批量转换成PDF格式。
  4. PDF转XML
    可以先进行人工标引,分章节、段落、主题信息后导出XML文件,对于报纸类信息,可以按文字块及图片进行合并、组合后,导出到XML文件。

特殊PDF加工

  1. PDF文件内容校对

  2. PDF文件内码校对

  3. PDF页面分割

  4. PDF文件目录自动生成

  5. PDF文件批量加密、加水印、加背景

扫描-OCR-识别

  1. 纸质图书扫描
    彩色、黑白均以300dpi以上进行高速扫描
  2. OCR识别
    采用先进的文本识别技术,将错误率降至最低
  3. 文档校对
    进行三次人工校对,保证内容信息的高度准确
  4. 制作成双层PDF
    将图片层与识别层组合成双层的PDF,这种PDF文件既能保持原版原式又可以检索、复制、拷贝
  5. 制作成单层PDF

双层、单层PDF的制作

  1. 可检索PDF(上面是图,下面是文字)制作
    可以将扫描后的图片,进行识别加工成双层的pdf,上面是图片,下面是文本,可以支持文本检索、复制、拷贝。
  2. 可选择PDF(上面是文字,下面是图)制作
    可以将扫描后的图片,进行识别加工成双层的pdf,上面是文本,下面是图片,可以支持文本检索、复制、拷贝。
  3. 图片转单层PDF制作
    可以将扫描后的图片,进行识别加工成单层的pdf,文字是矢量的,不仅可以支持文本检索、复制、拷贝,文件还可用于高精度打印和印刷。 

    

PDF内容信息提取

  1. 电子图书CIP数据抽取
    对书籍的版权页面、目录信息、摘要内容进行针对性的信息提取,例如:书名、作者、责任编辑、出版单位、CIP数据、ISBN、开本、定价、发行单位、章节信息等分别提取出来建立索引数据库。
  2. 电子图书目录自动抽取
    可以对书籍的目录页面进行自动抽取,生成对应的文本文件,并还原到PDF中生成书签。
  3. 学术期刊信息抽取
    可以对期刊内容指定信息抽取,例如:标题、作者、作者单位、摘要、关键词、文章编号等。
  4. 电子报纸文章信息识别

期刊杂志检索光盘

 

我们为期刊、杂志出版物的配套光盘和合订本光盘提供专业的检索光盘制作服务。光盘形式可选择传统的页面文章浏览模式,和最新的flash翻页模式播放,两种模式均可达到较好的电子期刊、杂志展示效果。

 

我们的系统特点如下:

《数据库检索光盘》

 

针对条目式的数据类型(如:黄页、名录、书目等),我们拥有一套专业的系统来展现这些数据的内容。

 

我们的系统特点如下:

《百科全书检索光盘》

 

我公司专业制作《百科全书检索光盘》(载体:VCD / DVD / U盘 / 移动硬盘),是各大出版单位开发“电子读物系列产品”发行和“书籍配套光盘”发售的良好选择。

 

《百科全书检索光盘》,具有以下功能特色:

同步内容