PDF内容信息提取
- 电子图书CIP数据抽取
对书籍的版权页面、目录信息、摘要内容进行针对性的信息提取,例如:书名、作者、责任编辑、出版单位、CIP数据、ISBN、开本、定价、发行单位、章节信息等分别提取出来建立索引数据库。 - 电子图书目录自动抽取
可以对书籍的目录页面进行自动抽取,生成对应的文本文件,并还原到PDF中生成书签。 - 学术期刊信息抽取
可以对期刊内容指定信息抽取,例如:标题、作者、作者单位、摘要、关键词、文章编号等。 - 电子报纸文章信息识别
对报纸版面信息进行自动分析、分块,并可以对块进行合并、拆分、删除、还原等操作,最后导出成XML文件,并自动通过XML生成HTML网页。 - PDF表格信息抽取
对PDF表格中的信息进行抽取。