近期,多家领先的 AI 公司都推出了基于强大基础大型语言模型(LLM)的新功能,能够快速实现用户屏幕操作的自动化。例如 Anthropic 的 Computer Use、Amazon Q Business 以及 OpenAI 即将发布的“Operator”,均能实现无需代码和模型训练,直接理解屏幕内容、操作软件并模拟用户行为的功能。

基于 LLM 的自动化是一种全新方式,与依赖规则模型和预设指令的 UI 自动化有显著差异。由于 LLM 自动化更易用,部分行业观察者认为其可能取代 UI 自动化。
我们对这类技术进行了深入评估,对它们在企业自动化领域的潜力感到兴奋,我们也正在将相关技术整合至 UiPath 平台。它们使 AI 能以类似于人类的方式与软件交互,有望彻底改变人机互动模式,大幅提升个人效率,让普通用户也能轻松实现任务自动化。
但有一点需要注意:基于 LLM 的自动化无法完全替代基于 UI 的自动化。例如,在高吞吐量、涉及多系统操作或敏感数据的关键业务流程中,UI 自动化仍是更优选择。
两种技术的核心差异
LLM 自动化
通过多模态 LLM(支持图像、文本、音频等)“读取”屏幕内容并执行操作。模型基于云端数据预测用户行为并发送指令(如复制粘贴数据)。
UI 自动化
机器人按预设指令执行任务,可在本地环境中运行,数据仅限本地解析,遵循明确的确定性指令集。近年 AI 技术的进步显著提升了其稳定性和可靠性。
UI 自动化的核心优势
在复杂、高安全要求的流程中,UI 自动化表现更优,原因包括:
精准性
1
关键流程(如订单到收款)需确保数据提取、传输和记录的绝对准确。测试数据显示,UiPath 的 UI 自动化成功率高达 96.5%,而当前 AI 自动化准确率普遍较低(如 Anthropic 测试中仅 14.9%)。
2
可控性
LLM 可能出现不可预测行为(如点击错误界面或下载无关文件),而 UI 自动化机器人严格按指令运行,无此风险。
数据完整性
3
基于屏幕截图的 LLM 可能遗漏下拉菜单或瞬时操作数据,UI 自动化则无此限制。
4
安全性
UI 自动化仅收集必要数据,避免截屏泄露敏感信息,且支持权限管控。而 LLM 自动化目前缺乏同等安全机制。
未来:两者协同而非替代
UI 自动化仍将主导关键业务流程,而 LLM 自动化将推动特定场景的变革(如零代码即时自动化)。我们已开始将 LLM 引入 UiPath 平台,例如 Autopilot™ for Everyone。此外,我们还通过以下举措实现两者融合:
– 持续优化 UI 自动化,例如推出可自修复故障流程的 Healing Agent(公测中);
– 提供统一平台,支持企业对各类自动化技术的编排与管理。
UiPath 相信未来每种形式的自动化方法都有其独特优势。通过 UiPath 平台,灵活调用 UI 自动化、LLM 自动化及未来新兴技术,将能够满足不同企业和业务的多样化需求。
1.本内容作为作者独立观点,不代表RPA学习天地立场,RPA学习天地仅提供信息存储空间服务。
2.如果对本稿件有异议或投诉,请联系客服微信号。