人工智能2026-03-24300 阅读

Claude又又又更新了，它操作我电脑的样子，快把我急死了！

作者：轩辕的编程宇宙发布时间：2026年3月24日 15:24

大家好，我是轩辕。

今天早上刷推，Claude又又又更新了，这次推出了一个新功能：Computer Use。

简单来说，就是本地电脑上安装的Claude客户端也能操作电脑上的应用了。

比如打开浏览器、邮件、日历等电脑上安装的应用完成复杂的操作，目前只作为技术预览版仅限Mac平台的Pro/Max用户使用。

不知道Anthropic是不是受OpenClaw刺激太深，最近一连串的动作都在把Claude应用迭代的越来越像OpenClaw了。

说回这个功能，如果应用本身有API可以操作，那就使用API，如果没有API，那就通过截屏识别界面元素，自动帮你点鼠标、敲键盘、切换应用，完成各种桌面操作。

听起来是不是有点科幻？我也是这么觉得的，然后我兴冲冲的开始给它下达了任务。

结果嘛，一言难尽。

任务一：做一份Keynote

第一个任务很简单：帮我打开Keynote，做一份演示文稿。

Keynote是Mac上的演示文稿，我之前很多视频里的动画都是用它来制作的。

Claude成功打开了Keynote，选了一个黑色主题，创建了新文档。接下来就要往幻灯片里填内容了，它决定双击标题区域开始编辑。

然后，问题来了。

点击位置偏了，死活编辑不了文字。

它自己也意识到不对劲，开始排查坐标系统，甚至调用了一堆工具来检查显示器配置——折腾了一通，还是点不准。

鼠标不行，那就换条路走。它想到了用AppleScript来操控Keynote，于是通过Spotlight打开了终端。

终端倒是打开了，结果不知道怎么搞的，还是无法输入文字到终端中去。

再试试iTerm？一样，也是只能点不能输入。

它又想打开Script Editor，结果发现macOS上压根没装这个应用。

几条路全堵死了。

最后Claude想了个办法：不用鼠标了，纯键盘操作！

在Keynote里按Escape回到幻灯片层级，按Tab选中标题框，按Return进入编辑模式——这招居然成了，标题文字输进去了。

但好景不长，切到副标题框的时候，文字跑到了标题框里。只好Cmd+Z撤销，从头再来......

就这样反反复复，到我实在看不下去手动叫停为止，一张完整的幻灯片都没做出来。

你说它笨吧，它能想到这么多种办法去尝试。

你说它聪明吧，绕了一大圈，结果一个字也没写进去。

任务二：在微信里搜索公众号

第二个任务：打开微信桌面版，搜索我的公众号“轩辕的编程宇宙”，获取它的文章数据。

大家知道，微信的生态封闭，没有API可以获取到文章的数据，只有通过微信客户端打开才能看到。

那既然Claude现在可以自动基于视觉完成工作，这个工作交给它再合适不过了。

这次Claude进展很顺利——打开微信，在搜索框输入关键词，还真让它搜到了目标公众号。到这里我一度觉得，行啊，有戏！

然后它要点击搜索结果进入公众号页面。

点了一下，没反应。

换个坐标再点，还是没反应。

用键盘方向键去选，选不中。

按Escape关闭下拉菜单重新来，还是定位不到。

它在那里反复截屏、分析、尝试点击，像一个近视800度还不戴眼镜的人在手机上戳屏幕，明明看到了目标就在那里，就是点不中。

折腾了十几轮之后，Claude自己也承认了：“鼠标点击似乎存在坐标问题。”

然后决定换一种方式——改用Chrome浏览器去访问公众号文章。

但这已经完全偏离了我的需求，任务基本宣告失败。

任务三：统计Excel表格

第三个任务：打开一份Excel表格，按省份统计数据，插入一个饼图。

Claude的思路是：在WPS里打开VBA编辑器，写一段宏代码来自动完成统计和图表生成。

思路没毛病，它还真写了一段200多行的宏代码，通过剪贴板粘了进去。

但是运行的时候，出了点问题，语法出现了错误。

Claude意识到了这个问题，重写了一版代码，又粘贴进去。

这次代码200多行，粘完之后光标停在第174行，需要回到第1行才能运行。

按Ctrl+Home？不管用。

按Cmd+Home？也不管用。

最后发现fn+上箭头有效——于是一路按箭头键，从第174行一行一行往上跳：到124行、再到更上面···终于到了第1行。

怀着激动的心情按下F5，结果宏对话框再次弹出，列表依然是空的。大概率是因为.xlsx格式根本就不支持运行宏。

试了F8单步调试也不行，键盘和鼠标操作处处受限。

最终Claude无奈之下放弃了这个方案，试图改用Python脚本来处理···

三个任务，全军覆没。

问题出在哪？

体验完这三个任务，我来聊聊感受。

截屏驱动的操作方式，天然就慢。

Computer Use的原理是不断截取屏幕画面，用视觉模型识别界面元素，然后决定下一步该干什么。

每一个动作，哪怕就是点一下按钮，都要走完“截屏→识别→决策→执行→再截屏确认”的完整循环。

你肉眼看着它操作，就像在看一个网络延迟两秒的远程桌面，每一步都要等，体验极其割裂。

权限限制，让“全自动”成了一句空话。

出于安全考虑，不同类型的应用有不同的权限等级：浏览器只能看不能点，终端和IDE能点击但不能打字，只有普通应用才有完整的操作权限。

遇到意外就卡死，缺乏应变能力。

点击坐标偏了、弹出了意料之外的对话框、界面加载慢了一拍，这些对人类来说只需要零点几秒就能调整的状况，对Claude来说往往是致命的。

它会在同一个错误状态下反复尝试同一个动作，不知道退回去换条路走。

在微信那个任务里，它反复点击同一个位置十几次，像是陷入了某种执念。

Token消耗大得惊人。

每次截屏都是一张图片，每张图片都要送进视觉模型分析。

三个任务没一个完成的，但Token已经刷刷地烧掉了一大截。花钱请一个AI看着屏幕发呆，这笔账怎么算都不划算。

这是上面三个失败的任务执行停止之后，我的5小时额度已经花掉了65%了，我要不及时中止，能直接给我干到token用完。

## 问题的本质

说到底，Computer Use试图让AI以“模拟人类操作GUI”的方式来完成任务。

但GUI是为人类的视觉系统和手眼协调设计的，让一个靠截屏来看、靠坐标来点的AI去适配这套交互逻辑，本质上就是扬短避长。

对比一下，Claude在文本和代码领域的表现已经非常强了——写代码、处理数据、生成文档，这些通过API和文件系统直接交互的任务，完成质量很高。

但一旦要它去操控图形界面，能力就出现了断崖式下降。

真正高效的人机协作，也许不该是让AI学着人类的样子去点鼠标，让应用主动暴露API接口给AI调用或许才是正解。

写在最后

Computer Use作为概念确实很酷，但作为产品，目前只能说是一个早期技术预览。

三个实际工作任务全部失败，效率低、效果差、Token消耗大，不建议当前阶段在正式工作中使用。