Claude又又又更新了,它操作我电脑的样子,快把我急死了!
作者:轩辕的编程宇宙 发布时间:2026年3月24日 15:24
大家好,我是轩辕。
今天早上刷推,Claude又又又更新了,这次推出了一个新功能:Computer Use。
简单来说,就是本地电脑上安装的Claude客户端也能操作电脑上的应用了。
比如打开浏览器、邮件、日历等电脑上安装的应用完成复杂的操作,目前只作为技术预览版仅限Mac平台的Pro/Max用户使用。
不知道Anthropic是不是受OpenClaw刺激太深,最近一连串的动作都在把Claude应用迭代的越来越像OpenClaw了。
说回这个功能,如果应用本身有API可以操作,那就使用API,如果没有API,那就通过截屏识别界面元素,自动帮你点鼠标、敲键盘、切换应用,完成各种桌面操作。
听起来是不是有点科幻?我也是这么觉得的,然后我兴冲冲的开始给它下达了任务。
结果嘛,一言难尽。
任务一:做一份Keynote
第一个任务很简单:帮我打开Keynote,做一份演示文稿。
Keynote是Mac上的演示文稿,我之前很多视频里的动画都是用它来制作的。
Claude成功打开了Keynote,选了一个黑色主题,创建了新文档。接下来就要往幻灯片里填内容了,它决定双击标题区域开始编辑。
然后,问题来了。
点击位置偏了,死活编辑不了文字。
它自己也意识到不对劲,开始排查坐标系统,甚至调用了一堆工具来检查显示器配置——折腾了一通,还是点不准。
鼠标不行,那就换条路走。它想到了用AppleScript来操控Keynote,于是通过Spotlight打开了终端。
终端倒是打开了,结果不知道怎么搞的,还是无法输入文字到终端中去。
再试试iTerm?一样,也是只能点不能输入。
它又想打开Script Editor,结果发现macOS上压根没装这个应用。
几条路全堵死了。
最后Claude想了个办法:不用鼠标了,纯键盘操作!
在Keynote里按Escape回到幻灯片层级,按Tab选中标题框,按Return进入编辑模式——这招居然成了,标题文字输进去了。
但好景不长,切到副标题框的时候,文字跑到了标题框里。只好Cmd+Z撤销,从头再来......
就这样反反复复,到我实在看不下去手动叫停为止,一张完整的幻灯片都没做出来。
你说它笨吧,它能想到这么多种办法去尝试。
你说它聪明吧,绕了一大圈,结果一个字也没写进去。
任务二:在微信里搜索公众号
第二个任务:打开微信桌面版,搜索我的公众号“轩辕的编程宇宙”,获取它的文章数据。
大家知道,微信的生态封闭,没有API可以获取到文章的数据,只有通过微信客户端打开才能看到。
那既然Claude现在可以自动基于视觉完成工作,这个工作交给它再合适不过了。
这次Claude进展很顺利——打开微信,在搜索框输入关键词,还真让它搜到了目标公众号。到这里我一度觉得,行啊,有戏!
然后它要点击搜索结果进入公众号页面。
点了一下,没反应。
换个坐标再点,还是没反应。
用键盘方向键去选,选不中。
按Escape关闭下拉菜单重新来,还是定位不到。
它在那里反复截屏、分析、尝试点击,像一个近视800度还不戴眼镜的人在手机上戳屏幕,明明看到了目标就在那里,就是点不中。
折腾了十几轮之后,Claude自己也承认了:“鼠标点击似乎存在坐标问题。”
然后决定换一种方式——改用Chrome浏览器去访问公众号文章。
但这已经完全偏离了我的需求,任务基本宣告失败。
任务三:统计Excel表格
第三个任务:打开一份Excel表格,按省份统计数据,插入一个饼图。
Claude的思路是:在WPS里打开VBA编辑器,写一段宏代码来自动完成统计和图表生成。
思路没毛病,它还真写了一段200多行的宏代码,通过剪贴板粘了进去。
但是运行的时候,出了点问题,语法出现了错误。
Claude意识到了这个问题,重写了一版代码,又粘贴进去。
这次代码200多行,粘完之后光标停在第174行,需要回到第1行才能运行。
按Ctrl+Home?不管用。
按Cmd+Home?也不管用。
最后发现fn+上箭头有效——于是一路按箭头键,从第174行一行一行往上跳:到124行、再到更上面···终于到了第1行。
怀着激动的心情按下F5,结果宏对话框再次弹出,列表依然是空的。大概率是因为.xlsx格式根本就不支持运行宏。
试了F8单步调试也不行,键盘和鼠标操作处处受限。
最终Claude无奈之下放弃了这个方案,试图改用Python脚本来处理···
三个任务,全军覆没。
问题出在哪?
体验完这三个任务,我来聊聊感受。
截屏驱动的操作方式,天然就慢。
Computer Use的原理是不断截取屏幕画面,用视觉模型识别界面元素,然后决定下一步该干什么。
每一个动作,哪怕就是点一下按钮,都要走完“截屏→识别→决策→执行→再截屏确认”的完整循环。
你肉眼看着它操作,就像在看一个网络延迟两秒的远程桌面,每一步都要等,体验极其割裂。
权限限制,让“全自动”成了一句空话。
出于安全考虑,不同类型的应用有不同的权限等级:浏览器只能看不能点,终端和IDE能点击但不能打字,只有普通应用才有完整的操作权限。
遇到意外就卡死,缺乏应变能力。
点击坐标偏了、弹出了意料之外的对话框、界面加载慢了一拍,这些对人类来说只需要零点几秒就能调整的状况,对Claude来说往往是致命的。
它会在同一个错误状态下反复尝试同一个动作,不知道退回去换条路走。
在微信那个任务里,它反复点击同一个位置十几次,像是陷入了某种执念。
Token消耗大得惊人。
每次截屏都是一张图片,每张图片都要送进视觉模型分析。
三个任务没一个完成的,但Token已经刷刷地烧掉了一大截。花钱请一个AI看着屏幕发呆,这笔账怎么算都不划算。
这是上面三个失败的任务执行停止之后,我的5小时额度已经花掉了65%了,我要不及时中止,能直接给我干到token用完。
## 问题的本质
说到底,Computer Use试图让AI以“模拟人类操作GUI”的方式来完成任务。
但GUI是为人类的视觉系统和手眼协调设计的,让一个靠截屏来看、靠坐标来点的AI去适配这套交互逻辑,本质上就是扬短避长。
对比一下,Claude在文本和代码领域的表现已经非常强了——写代码、处理数据、生成文档,这些通过API和文件系统直接交互的任务,完成质量很高。
但一旦要它去操控图形界面,能力就出现了断崖式下降。
真正高效的人机协作,也许不该是让AI学着人类的样子去点鼠标,让应用主动暴露API接口给AI调用或许才是正解。
写在最后
Computer Use作为概念确实很酷,但作为产品,目前只能说是一个早期技术预览。
三个实际工作任务全部失败,效率低、效果差、Token消耗大,不建议当前阶段在正式工作中使用。
不过Anthropic迭代产品速度很快,期待后面有更成熟方案的版本出现。