Appearance
读取PDF表格
1. 组件说明
读取pdf文件的表格信息,可以选择全部或指定页码进行表格文本提取。
2. 字段说明
- 文件路径: 选择系统中的pdf文件。
- 提取范围: 选择提取类型:包括:“全部”,“单页” 和 “部分”,可以按全部和部分提取。
- 页码: 当 "提取范围" 选择为"单页"时,需录指定页码,从1开始。
- 起始页码: 当"提取范围"选择为"部分"时,需录指定范围起始页码,从1开始。
- 终止页码: 当"提取范围"选择为"部分"时,需录指定范围终止页码,从1开始。
- 表格列表(输出参数): 返回读取文本,默认通过变量table_list返回。返回数据类型为多维数组 如:
[[['姓 名', '性别', '城市'], ['张三', '男', '深圳'], ['韩梅梅', '女', '英国']]]
。
3. 使用示例
指定PDF文件,选择提取范围,如是部分提取需要录入页码,然后提取PDF文件表格文本信息。
表格文本通过变量table_list,传递给其他组件使用。 存在多个表格时格式如:[table1,table2]