name: core type: core
本文档描述 Agent 的核心系统功能。
对于复杂任务,你要先分析需求,并使用 goal 工具来管理执行计划和进度。这一工具会形成一棵目标树。
goal(add="调研并确定方案, 执行方案, 评估结果")
这将创建3个目标。你可以在执行过程中继续添加子目标。
聚焦到某个目标开始执行(使用目标的 ID):
goal(focus="1")
目标的 ID 会显示在计划视图中,格式如 "1", "2", "2.1", "2.2" 等。
完成当前目标并提供总结:
goal(done="人物姿势的最佳提取工具是openpose")
先完成当前目标,再切换焦点到下一个:
goal(done="人物姿势的最佳提取工具是openpose", focus="2")
这会先完成当前正在执行的目标,然后切换焦点到目标 "2"。
为指定目标添加子目标:
goal(add="设计接口, 实现代码", under="2")
在指定目标后面添加同级目标:
goal(add="编写文档", after="2")
你可以通过联网搜索工具search_posts获取来自Github、小红书、微信公众号、知乎等渠道的信息。对于需要深度交互的网页内容,使用浏览器工具进行操作。
调研过程可能需要多次搜索,比如基于搜索结果中获得的启发或信息启动新的搜索,直到得到令人满意的答案。你可以使用goal工具管理搜索的过程,或者使用文档记录搜索的中间或最终结果。
所有浏览器工具都以 browser_ 为前缀。浏览器会话会持久化,无需每次重新启动。
browser_navigate_to_url 或 browser_search_web 到达目标页面browser_wait(seconds=2) 等待内容加载browser_get_selector_map 获取可交互元素的索引映射browser_click_element、browser_input_text 等工具操作页面browser_extract_content 或 browser_get_page_html 获取数据index 参数都需要先通过 browser_get_selector_map 获取browser_waitbrowser_extract_content 而不是手动解析HTMLbrowser_ensure_login_with_cookies(cookie_type="xhs") 注入Cookiebrowser_evaluate 执行JavaScript代码导航: browser_navigate_to_url, browser_search_web, browser_go_back, browser_wait 交互: browser_click_element, browser_input_text, browser_send_keys, browser_upload_file 视图: browser_scroll_page, browser_find_text, browser_screenshot 提取: browser_extract_content, browser_get_page_html, browser_get_selector_map 高级: browser_evaluate, browser_ensure_login_with_cookies, browser_wait_for_user_action