掘金 人工智能 06月30日
🔥 Midscene MCP 来啦!
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Midscene 推出 MCP 服务,使用户能通过自然语言命令控制浏览器,实现 UI 自动化和 Midscene 自动化脚本生成。MCP 作为 AI 模型与外部工具交互的标准,允许 AI 模型调用工具执行任务,例如控制浏览器、导航网页、与 UI 元素交互等。用户可以通过配置 OpenAI API 密钥等,安装 Midscene Chrome 扩展,并配置 MCP 服务器。Midscene MCP 提供多种浏览器自动化工具,例如导航、标签页管理、页面交互、验证和观察等,并支持生成执行用例报告。

🤖 Midscene 的 MCP 服务允许 AI 助手通过自然语言命令控制浏览器,实现 UI 任务的自动化执行,并支持生成 Midscene 自动化脚本。

⚙️ MCP 通过标准化的方式,使 AI 模型能够与外部工具交互。用户可以通过配置 OpenAI API 密钥等,安装 Midscene Chrome 扩展并配置 MCP 服务器。

🛠️ Midscene MCP 提供了多种浏览器自动化工具,包括导航、标签页管理、页面交互、验证和观察等功能,方便用户进行自动化操作。

✅ Midscene MCP 具有优势,如支持 Bridge 模式直接控制浏览器,内置最佳 Prompt 模板和操作实践,以及自动生成执行用例报告。

❓ 用户在使用 Midscene MCP 时,需注意避免本地多个 Client 导致 Server 端口占用的问题,并了解如何获取 Midscene 执行报告。

Midscene 提供了 MCP 服务,允许 AI 助手通过自然语言命令控制浏览器,自动化执行 UI 任务,以及生成 Midscene 自动化脚本。

MCP 是一种标准化的方式,使 AI 模型能够与外部工具和功能进行交互。MCP 服务器暴露一组工具后,AI 模型可以调用这些工具来执行各种任务。对于 Midscene 来说,这些工具允许 AI 模型控制浏览器、导航网页、与 UI 元素交互等等。

使用场景

使用示例

给 Sauce Demo 站点生成 Midscene 测试用例

操作视频传送门:lf3-static.bytednsdoc.com/obj/eden-cn…

设置 Midscene MCP

前提条件

    OpenAI API 密钥或其他支持的 AI 模型提供商,更多信息请前往官网查看 选择 AI 模型

    对于 Chrome 浏览器集成(桥接模式):

      安装 Midscene Chrome 扩展(从 Chrome Web Extension 下载)在扩展中切换到"桥接模式"并点击"允许连接"

配置

将 Midscene MCP 服务器添加到你的 MCP 配置中:

{  "mcpServers": {    "mcp-midscene": {      "command": "npx",      "args": ["-y", "@midscene/mcp"],      "env": {        "MIDSCENE_MODEL_NAME": "REPLACE_WITH_YOUR_MODEL_NAME",        "OPENAI_API_KEY": "REPLACE_WITH_YOUR_OPENAI_API_KEY",        "MCP_SERVER_REQUEST_TIMEOUT": "800000"      }    }  }}

有关配置 AI 模型的更多信息,请参阅选择 AI 模型

可用工具

Midscene MCP 提供以下浏览器自动化工具:

功能分类工具名称功能描述
导航midscene_navigate在当前标签页导航到指定 URL
标签页管理midscene_get_tabs获取所有打开的浏览器标签页列表
midscene_set_active_tab通过 ID 切换到特定标签页
页面交互midscene_aiTap点击通过自然语言描述的元素
midscene_aiInput在表单字段或元素中输入文本
midscene_aiHover悬停在元素上
midscene_aiKeyboardPress按下特定键盘按键
midscene_aiScroll滚动页面或特定元素
验证和观察midscene_aiWaitFor等待页面上的条件为真
midscene_aiAssert断言页面上的条件为真
midscene_screenshot对当前页面截图
Playwright 代码示例midscene_playwright_example提供了 Midscene 的 Playwright 代码示例

导航

参数:- url:要导航到的 URL

标签页管理

参数:无
参数:- tabId:要激活的标签页 ID

页面交互

参数:- locate:要点击元素的自然语言描述
参数:- value:要输入的文本- locate:要输入文本的元素的自然语言描述
参数:- locate:要悬停元素的自然语言描述
参数:- key:要按下的按键(例如 'Enter''Tab''Escape')- locate:(可选)在按键前要聚焦的元素描述- deepThink:(可选)如果为 true,使用更精确的元素定位
参数:- direction:'up''down''left''right'- scrollType:'once''untilBottom''untilTop''untilLeft''untilRight'- distance:(可选)以像素为单位的滚动距离- locate:(可选)要滚动的元素描述- deepThink:(可选)如果为 true,使用更精确的元素定位

验证和观察

参数:- assertion:要等待的条件的自然语言描述- timeoutMs:(可选)最大等待时间(毫秒)- checkIntervalMs:(可选)检查条件的频率
参数:- assertion:要检查的条件的自然语言描述
参数:- name:截图的名称

常见问题

Midscene MCP 对比其他浏览器 MCP 有什么优势?

本地如果出现多个 Client 会导致 Server port 占用

问题描述

当用户在本地多个 Client (Claude Desktop、Cursor MCP、) 中同时使用了 Midscene MCP 将会出现端口占用导致服务报错

如何解决

# For macOS/Linux:lsof -i:3766 | awk 'NR>1 {print $2}' | xargs -r kill -9# For Windows:FOR /F "tokens=5" %i IN ('netstat -ano ^| findstr :3766') DO taskkill /F /PID %i

如何获取 Midscene 执行的报告

在每次执行完任务后都会生成 Midscene 任务报告,可以在命令行直接打开该 html 报告

# 将打开的地址替换为你的报告文件名open report_file_name.html

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Midscene MCP AI助手 浏览器自动化
相关文章