PDF文档检索系统
PDF文档检索系统
将传统的纸制书籍,进行电子化加工和整理,制作成可以在计算机及手持电子终端设备上播放并且可以检索的电子书光盘,以方便我们广大读者用户在现今的科技时代普遍运用电脑阅读和学习。这样的电子出版物与传统纸张出版物相比:其信息存储量大、可靠性高、承载内容丰富,具有较强的交互性,且便于携带和保存。
光盘系统种类:
1.大型电子百科全书制作
专业型大型电子百科全书,海量数字图书馆建设,数据量支持在百万册以上。采用多张VCD/DVD、U盘或大存储量硬盘(可达200G容量)的存储介质保存数据提供服务。文件数据库提供全文检索、主题词检索及复合检索,检索速度快、结果准确、检索结果定位标红、点击即跳转到相应页面,极大地提高了阅读效率。
2.多媒体数据检索光盘制作
针对多媒体数字检索光盘,支持音频、视频、图片及有声朗读等多媒体功能,支持数据库检索、全文检索、字段检索等多种检索方式。适用于图书配套光盘发行等。
3.条目及书目式电子检索光盘
针对条目式、书目式数据的电子检索光盘制作。适用于电子黄页、书目目录检索系统等。
针对企业的资料手册、档案、文件、合同的电子资料,提供分类、加密、阅读、全文检索、复合检索的多种功能。方便用户查找和管理企业内部资料。
1. 支持多种数据格式
能够处理的数据源格式有:Word、Html、Text、Wps、电子表格、方正排版的大样文件、PS文件、PDF文件格式等,以及 常用的图片格式:Bmp、Jpg、Tif、Gif、Png等。
2. 数据安全保护措施
加载的所有文字与图片均采用高强度的加密算法进行文件加密,有效地保护了用户的资料安全。
3. 完整展现原书风貌
能够很好地保持原书的版式、字体、插图、表格等排版信息,最大限度地再现了原书的整体风貌。
4. 分类目录功能
可建立与原书相同的分类目录表,可以通过关键词直接检索到相关目录及正文内容,并将检索结果有效排列,方便定位。
5. 智能精准的全文检索
拥有一个优良的全文检索引擎,该引擎支持与、或、非等逻辑表达式,并能对正文中的检索词精准定位并高亮显示,一目了然。
6. 美观便捷的界面
使用的独立定制的阅读器界面美观大方,操作方便快捷,可以使用菜单、工具条、快捷键完成多数功能。
7. 多种可选的浏览方式
具有自动翻页、自动滚屏、页宽显示、整页显示、全屏浏览等许多种浏览方式,方便读者的阅读。
多媒体环境设置 自带播放背景音乐和更换背景图片等多媒体设置,增加读者的阅读情趣。
流程说明:
- 收集所要制作整理和发布的电子数据资料,包括各种类型格式的电子文档(包括:word、txt、html、排版文件s2、s72、s92、mps、ps2、ps等);
- 将收集好的数据统一转换成PDF文档格式;
- 对转换后的PDF文档建立关键目录及索引库,实现全文检索功能;
- 嵌入我公司自己的PDF阅读器软件,无需安装Adobe PDF Reader,对PDF进行阅读控制;
- 结合用户的界面要求和Logo设计,制作安装程序或自动运行程序;
- 完成数字检索光盘的软件制作,将软件刻制成光盘或压制母盘进行发行。
数据加工:
一、面向服务对象:
向图书馆、杂志社、企事业单位、政府机关、报社、出版社等单位及个人提供数据加工服务。同时根据客户需求提供个性化服务。
二、数据加工范围:
- 文字录入、数值录入、数据录入、数学公式录入、调查问卷录入、统计单位各种社会调查数据
- 图书及教辅图书录入、杂志、报刊录入、英文录入、电子出版物
- 网上录入、互联网信息搜索录入、指定关键词信息搜索录入、网站新闻实时更新录入、信息挖掘、网络公司的数字化建设
- 声音文件录入、视频文件录入
- 银行、证券部门各种单据 、单据录入、企事业单位各种财务报表、营销部门各种进出单录入
- 文献、档案、图书馆数字化建设、数据库灌库等业务
- 政府部门资料、论文、文件归档、信息中心、大中型网站海量数据录入任务
- 其他服务:个人服务、保密服务、外派服务
三、服务特点:
- 大批量图书资料数字化,数据排版及格式转换,建立数据库
- 加工完成所提交的数据,在收到客户确认删除时,对原数据做格式化删除
- 保证质量,严格为用户保密
- 上门取送图书资料及指导
四、服务解决方案:
1. 图书资料经过扫描、OCR识别、版面复原、格式转换等加工处理后,生成电子版数据,可以直接上网或制作电子版光盘。全文采用目前国际通用的PDF文献存储浏览格式,有较大的图形压缩比,使最终文件占有较小的存储空间。PDF格式的文件用Adobe公司的Acrobat软件进行阅读,并可以嵌入到通用浏览器中,有较强的兼容性。
2. 用户自定义数据格式,数据加工处理类型如下:
HTML、DOC、TXT、XML、DBF、Excel数据表、Access数据库、S2、PS2、PS等数据类型。提供包括GIF、BMP、TIF、JPG、PSD等各种图像文件。
3. 个性服务:可以根据用户的需要为其提供并建立专门的数据库系统、光盘检索系统、光盘WEB检索系统等增值服务。此外对特色文献进行整合及深层次加工、分析,开发全文特色数据库,将其转化为有用的数据资源提供利用。并且视要求对该数据资源进行分类、汇总、排序及做检索等。
五、加工流程:
1. 了解客户需求:了解客户要求并准备相应的工具。
2. 成立项目小组:确定项目处理方案、选择小组成员、分配工作安排进度。
3. 资料整理:包括扫描及检索而进行的原稿资料的分类、标记编号、排序等工作。
4. 扫描录入:将文稿、图像等输入到计算机。
5. 图像处理:去掉图像中的杂质。
6. 一次校对:OCR识别系统对图像文件进行识别并进行初校。
7. 二次校对:在一校的基础上再进行一次校对,使错误率控制在万分之三以内。
8. 拼写检查:主要是针对外文数据而进行的质量检查。
9. 格式检查:根据客户要求给需要标引的标题及段落做标引或因其他格式要求而进行的
一次必要的检查工序。
10. 多从录入:为满足客户的特别精度要求,采取的多人录入相同的内容然后进行比较校
对。取样人为参砂、返回校对、检查样品,如不合格则须返工。
11. 版面还原:将完成后的数据根据其原文版式还原,输出RTF、内DOC或PDF等格式。
12. 数据入库:数字文档的备份入库,以备以后使用查阅。
13. 制成盘:以光盘为主要介质形成的电子版资料。
常规数据加工流程图:

电子期刊光盘:
一、服务对象
往期、过刊、杂志、期刊进行数字化并制作电子检索光盘
期刊、杂志制作合订本电子配套光盘
二、光盘简介
光盘为读者提供浏览和检索相结合的阅读方式:
1. 内容浏览:浏览界面采用经典的左、中、右三栏结构显示,左栏为期刊列表和检索输入框,中栏显示期刊页面的内容,右 栏显示当前期刊的目录。点击进入期刊列表中的某一期,中栏即打开相应的期刊的pdf文件,同时右栏显示这本期刊的详细目录,同时读者可以对需要的文章还可进行放大、缩小、跳转、复制、打印和查找、检索等操作。
为阅读方便,还可以通过总目录方式进行浏览,总目录以栏目顺序排列,点击相应栏目,则可以浏览本栏目下所有历史文章,按时间先后顺序显示。
2. 全文检索和主题检索:在左栏,读者输入要查阅的篇名、作者或关键词的任何词,可以查出关于这个关键词的所有文章,并将关键词高亮显示,点击某个检索结果,即可打开包涵这个关键词的页面的文章,同时可以阅读该文章的PDF全文。
3. 内容安全保护:
为防止数据被任意复制盗取,数据采用文件加密功能,使光盘数据不能直接复制到硬盘上使用,并且,单独将数据拷贝到硬盘后,不通过本系统无法打开文章进行浏览。
三、加工流程

1. 扫描: 期刊全文扫描成300dpi的TIF图形文件;
2. OCR识别: 除表格、图片以外,正文识别成纯文本文件;
3. 数据排版: 全文排版格式参照印刷版;
4. 建立数据库: 按照文章题目、关键词、作者、年卷期、栏目、页码等为字段,建立一个可供检索的主题检索数据库;同时建立一个全文检索数据库;
5. 合成: 将数据库与全文组合,制造成可以阅读、检索的光盘检索系统;
(6)刻盘: 合成后的检索系统及软件进行刻盘。
保密服务
为了满足公司及个人的纸制及电子机密资料不被他人解密及窃取,我们将为您提供国际标准加密解密及私人自由加密解密软件。为了您数据处理的安全,我们签订保密合同,本着先加密后处理的原则,保证您的利益不被损害。
服务流程图: 
