※この記事はアフィリエイト広告を含みます
AI代理专用桌面操作工具“agent-desktop”问世!基于Rust的超快速低成本操作
📰 新闻概览
- 基于Rust的原生桌面自动化CLI: AI代理操作PC所需的“眼睛”和“手”的超快速单一二进制工具已发布。
- 利用可访问性树的非图像识别型: 不再依赖截图或像素匹配,而是直接解析OS的可访问性结构来控制应用程序。
- 惊人的令牌减少: 通过“渐进式骨架遍历”功能,将发送给AI的UI信息分层处理。在密集型应用中令牌消耗可减少78%至96%。
💡 重要要点
- C-ABI (FFI) 支持: 可直接从Python、Go、Node、Swift等主要语言中调用功能,而无需启动子进程。
- 丰富的53种命令: 涵盖窗口管理、通知获取、剪贴板操作、键盘和鼠标输入等PC操作所需的动作。
- 确定性的元素引用: 为每个UI元素分配唯一ID,如“@e1”,使AI可准确无误地执行点击和输入操作。
🦈 鲨鱼的视角(策展人观点)
终于解放了AI代理不再受限于“看屏幕思考”的成本!这个工具的惊人之处在于,摒弃了“让人类看到的屏幕展示给AI”的低效方法,直接让AI处理OS内部的“结构数据”。特别是“可访问性优先”的设计令人钦佩,首先通过API尝试操作,仅在无法执行时才回退到鼠标事件的15级链实现,既具体又可靠!令牌的减少直接影响代理的运营成本,预示着这将成为2026年的标准技术!
🚀 未来展望
基于图像识别的操作工具将被淘汰,轻量且快速的可访问性基础自动化将成为主流。这将催生大量“完全自主桌面代理”的开发,AI将能够自由操作浏览器外的应用(如Xcode、Slack、Finder等)。
💬 鲨鱼的简短评论
等待图像识别的时代已经结束!让爆速的Rust力量将PC交给AI掌控鲨鱼!🦈🔥
📚 术语解释
-
可访问性树: OS为支持残障人士而保留的屏幕结构数据。可以在不依赖图像识别的情况下识别元素的角色和文本。
-
C-ABI (FFI): 用于跨不同编程语言调用函数的通用标准。这使得基于Rust的功能可以被Python等以超高速利用。
-
渐进式骨架遍历: 不一次性获取整个屏幕的详细信息,而是先获取大致框架,然后仅深入查询所需部分,从而减少发送给AI的数据量。
-
信息来源: Agent-desktop – Native desktop automation CLI for AI agents