软件所提出大语言模型友好的新型操作系统接口----中国科学院软件研究所

软件所提出大语言模型友好的新型操作系统接口

文章来源： | 发布时间：2026-02-05 | 【打印】【关闭】

近日，中国科学院软件研究所基础软件与系统重点实验室为大语言模型（LLM）设计出一种声明式操作系统接口，可提升LLM在图形用户界面（GUI）的表现。相关成果论文From Imperative to Declarative: Towards LLM-friendly Interfaces for Boosted Computer-Use Agents被计算机系统领域国际会议EuroSys 2026接收，第一作者为博士生王远，通讯作者为李明煜副研究员和陈海波研究员。

为适配人类不断发展演化的能力特征，GUI通常会要求使用者给出具体“怎么做”的详细步骤，而LLM擅长的是语义规划、定目标、决策要“做什么”，并不擅长繁琐的机制性操作。这种差异导致LLM在现有的GUI上容易出错，表现不佳。

针对大语言模型（LLM）在GUI操控的痛点，研究团队首创了声明式操作系统接口DMI（Declarative Model Interface）。该接口基于“策略-机制”分离的设计思想，将繁琐、细粒度的GUI操作封装为三个核心声明式原语：Access（访问），确定性地导航并访问目标控件；State（状态），直接设置控件的目标状态而非迭代式交互；Observation（观察），以结构化数据返回信息，而非依赖像素级视觉识别，可以大幅简化交互步骤。此外，DMI运行时还无需修改应用源码或依赖专用API。

DMI流程图

研究团队在微软Office套件上对DMI进行了广泛评估，并采用了OSWorld-W基准测试。结果显示，相比基线方法Microsoft UFO2，DMI将任务成功率（Success Rate）提升了67%（绝对提升29.6%），并将交互步骤减少了43.5%。其中，61%的成功任务仅通过1次LLM调用即可完成核心操作，彻底改变了传统智能体“多步试错”的工作模式。故障分析表明，DMI通过消除因低级导航和交互机制导致的错误（Mechanism-level failures），让LLM能够专注于其擅长的高层语义规划（Policy-level）。

实验结果

论文链接：https://arxiv.org/abs/2510.04607

操作系统研究室主页：http://oslab.ios.ac.cn/