Skip to content

浏览器智能体

1. 组件说明

通过自然语言描述需求,通过大语言模型理解用户需求,驱动浏览器完成相关的操作。支持按钮点击、文本输入、数据抓取等常见的网页操作。

2. 字段说明

  1. 浏览器对象:可以选择流程中已有的浏览器对象,也可以留空,则流程会自动打开浏览器。
  2. 模型名称:可以选择Qwen/Qwen3-32B或者Qwen2.5-VL-72B-Instruct,前者为纯文本的,后者为多模态,区别是选择后者的时候会把页面截图也发送给大模型,对于一些使用纯文本模型无法操作的页面,可以选择多模态的模型,但是多模态模型的响应时间会慢一些。
  3. 任务描述:通过自然语言描述需求,必填
  4. 输出格式:对于数据抓取的需求,可以在这里要求输出格式,一般使用json样例
  5. 执行结果(输出参数): 执行结果,如果描述中要求抓取数据,这里为抓取的内容。
  6. 浏览器对象(输出参数):如果输入中没有选择浏览器对象,后续的组件又需要继续进行浏览器相关的操作,可以从这里获取到浏览器对象

3. 使用示例

选择已打开的浏览器对象,选择模型,输入需求描述,并指定输出格式,然后运行流程。

4. 提示词技巧

1. 下载文件

  1. 如果只是触发下载文件,不需要返回保存地址: 点击导出按钮下载文件,保存至C:\Users\nosthanks\Downloads
  2. 如果需要返回文件的保存地址 点击导出按钮下载文件,保存至C:\Users\nosthanks\Downloads,并返回下载文件地址。 为了保证输出内容的格式固定,在输出格式处指定输出格式:

2. 输入验证码

识别验证码的操作最好跟输入用户名的操作分开,使用2个组件,不然模型的幻觉会比较严重,另外,提示词中最好说明该步完成的标志。 例如: 第一个组件提示词: 输入用户名:xxxxx, 密码:xxxx, 不要点击登录按钮直接结束

第二个组件提示词: 先识别验证码,然后下一步再将识别到的验证码输入到验证码输入框,然后点击登录按钮,如果提示验证码错误,则重复上面的步骤,如果进入到系统首页,代表登录成功,登录成功则结束

3. 页面中有相似的区域

比如下面的页面,左侧有搜索框,右侧也有搜索框,大多数的逻辑是在右侧进行搜索,因此一般大模型也会默认在右侧的搜索框进行操作,如果想要在左侧进行搜索,则需要在提示词中强调操作左侧区域。例如: 在左侧问题验证应用菜单下方的搜索应用内的业务页面输入框中输入:流程表单-0616(注意是左侧的搜索框,不是待办理区域的搜索框),回车搜索,等待3s至搜索结果出现,然后点击搜索结果流程表单-0616(注意是左侧题验证应用菜单下方的搜索结果,不是右侧待办理区域的搜索结果)

4. 有些元素鼠标移动上去才出现

将鼠标移动到到文件列表的第一条记录上