软件所提出大语言模型友好的新型操作系统接口
文章来源: | 发布时间:2026-02-05 | 【打印】 【关闭】
近日,中国科学院软件研究所基础软件与系统重点实验室为大语言模型(LLM)设计出一种声明式操作系统接口,可提升LLM在图形用户界面(GUI)的表现。相关成果论文From Imperative to Declarative: Towards LLM-friendly Interfaces for Boosted Computer-Use Agents被计算机系统领域国际会议EuroSys 2026接收,第一作者为博士生王远,通讯作者为李明煜副研究员和陈海波研究员。
为适配人类不断发展演化的能力特征,GUI通常会要求使用者给出具体“怎么做”的详细步骤,而LLM擅长的是语义规划、定目标、决策要“做什么”,并不擅长繁琐的机制性操作。这种差异导致LLM在现有的GUI上容易出错,表现不佳。
针对大语言模型(LLM)在GUI操控的痛点,研究团队首创了声明式操作系统接口DMI(Declarative Model Interface)。该接口基于“策略-机制”分离的设计思想,将繁琐、细粒度的GUI操作封装为三个核心声明式原语:Access(访问),确定性地导航并访问目标控件;State(状态),直接设置控件的目标状态而非迭代式交互;Observation(观察),以结构化数据返回信息,而非依赖像素级视觉识别,可以大幅简化交互步骤。此外,DMI运行时还无需修改应用源码或依赖专用API。

DMI流程图
研究团队在微软Office套件上对DMI进行了广泛评估,并采用了OSWorld-W基准测试。结果显示,相比基线方法Microsoft UFO2,DMI将任务成功率(Success Rate)提升了67%(绝对提升29.6%),并将交互步骤减少了43.5%。其中,61%的成功任务仅通过1次LLM调用即可完成核心操作,彻底改变了传统智能体“多步试错”的工作模式。故障分析表明,DMI通过消除因低级导航和交互机制导致的错误(Mechanism-level failures),让LLM能够专注于其擅长的高层语义规划(Policy-level)。

实验结果
论文链接:https://arxiv.org/abs/2510.04607
操作系统研究室主页:http://oslab.ios.ac.cn/