Skip to content

读取PDF表格

1. 组件说明

读取pdf文件的表格信息,可以选择全部或指定页码进行表格文本提取。

img_2.png

2. 字段说明

  1. 文件路径: 选择系统中的pdf文件。
  2. 提取范围: 选择提取类型:包括:“全部”,“单页” 和 “部分”,可以按全部和部分提取。
  3. 页码: 当 "提取范围" 选择为"单页"时,需录指定页码,从1开始。
  4. 起始页码: 当"提取范围"选择为"部分"时,需录指定范围起始页码,从1开始。
  5. 终止页码: 当"提取范围"选择为"部分"时,需录指定范围终止页码,从1开始。
  6. 表格列表(输出参数): 返回读取文本,默认通过变量table_list返回。返回数据类型为多维数组 如: [[['姓 名', '性别', '城市'], ['张三', '男', '深圳'], ['韩梅梅', '女', '英国']]]

3. 使用示例

指定PDF文件,选择提取范围,如是部分提取需要录入页码,然后提取PDF文件表格文本信息。 img.png

表格文本通过变量table_list,传递给其他组件使用。 存在多个表格时格式如:[table1,table2]img_1.png