PDF内容信息提取

  1. 电子图书CIP数据抽取
    对书籍的版权页面、目录信息、摘要内容进行针对性的信息提取,例如:书名、作者、责任编辑、出版单位、CIP数据、ISBN、开本、定价、发行单位、章节信息等分别提取出来建立索引数据库。
  2. 电子图书目录自动抽取
    可以对书籍的目录页面进行自动抽取,生成对应的文本文件,并还原到PDF中生成书签。
  3. 学术期刊信息抽取
    可以对期刊内容指定信息抽取,例如:标题、作者、作者单位、摘要、关键词、文章编号等。
  4. 电子报纸文章信息识别
    对报纸版面信息进行自动分析、分块,并可以对块进行合并、拆分、删除、还原等操作,最后导出成XML文件,并自动通过XML生成HTML网页。
  5. PDF表格信息抽取
    对PDF表格中的信息进行抽取。