CLI-Anything：让所有软件都成为AI Agent的“原生应用” 🤖🚀

从“命令行工具”到“Agent原生”：一个被忽视的巨大鸿沟

想象一下，你是一个AI Agent，你的任务是帮用户完成一个复杂的任务：比如“帮我分析这个项目代码，并自动创建一个Github Release”。你拥有强大的大语言模型（LLM），但你面对的是一个由数千个互不兼容的软件组成的世界。你需要调用 git 来创建tag，调用 gh 来发布Release，调用 jq 来解析JSON，甚至还需要调用 docker 来构建镜像。

问题来了：这些软件的设计初衷是给人用的，而不是给AI Agent用的。它们的输出是花哨的ASCII表格，错误信息是晦涩的英文段落，参数解析规则千奇百怪。Agent需要像人类一样去阅读、理解、猜测，这就像让一个数学家去做小学阅读理解——不是做不了，而是效率极低且容易出错。

今天要介绍的 CLI-Anything（项目地址：https://github.com/HKUDS/CLI-Anything），正是为了解决这个痛点而生。它试图构建一个桥梁，让任何命令行工具都能瞬间变身为AI Agent的“原生应用”——即输出结构化、交互标准化、调用可预测。

同类方案的“治标不治本” 🩹

在CLI-Anything出现之前，业界已经有几种尝试让Agent与软件交互的方案，但它们都有明显的短板：

方案一：基于字符串解析的“暴力”方案（如早期的 shell_gpt）。Agent直接把命令扔给shell，然后从文本输出中正则匹配关键信息。这种方法极其脆弱，只要软件更新了输出格式（比如加了个颜色标记），Agent就会瞬间“失明”。
方案二：为每个工具手写API封装（如LangChain的Tool库）。这需要开发者逐一为每个CLI工具编写Python封装，定义输入输出Schema。这种方法虽然准确，但不可扩展。目前有上万个常用CLI工具，不可能全部人工适配。
方案三：让软件主动提供机器可读接口（如 --json 或 --format=json 参数）。这是最理想的，但现实是，大部分老旧软件根本不支持，而且即使支持，不同软件的JSON输出结构也千差万别，Agent依然需要针对每个软件写不同的解析逻辑。

CLI-Anything的野心在于：它不要求软件改变，而是通过一个“中间层”来自动适配所有软件。它像是一个“万能适配器”，把任何CLI工具的输入输出都标准化为Agent能直接理解的格式。

核心创新：三大支柱让“万能适配”成为可能 🔧

CLI-Anything的核心思想可以用一句话概括：让Agent像调用API一样调用任何CLI命令。它通过以下三个技术支柱来实现这一目标：

1. 自动化的“命令理解”引擎 🧠

当Agent遇到一个陌生的CLI工具时，CLI-Anything会先自动执行 --help 和 man 命令，但这不是简单的文本抓取。它会对帮助文档进行语义解析，将其转化为标准化的参数Schema（JSON Schema格式）。

例如，对于 curl 这个工具，它会自动提取出：


{
  "tool": "curl",
  "description": "Transfer a URL",
  "parameters": {
    "url": {"type": "string", "required": true},
    "method": {"type": "enum", "values": ["GET", "POST", "PUT", "DELETE"], "default": "GET"},
    "data": {"type": "string", "description": "POST data"},
    "header": {"type": "array", "items": {"type": "string"}}
  }
}

这个Schema可以直接被LLM理解，Agent不再需要猜测 -X 和 --data 是什么意思，只需要按字段填写即可。

2. 结构化的输出捕获与转换 📦

传统的CLI工具输出是流式文本，而CLI-Anything提供了一个输出拦截器。它不仅能捕获stdout和stderr，还能智能判断输出类型：

表格输出：自动解析为JSON数组
树形输出：自动解析为嵌套JSON
进度条输出：自动过滤，只保留最终结果
错误输出：自动提取错误码和关键信息

这意味着Agent拿到的永远是干净、结构化的数据，就像调用一个REST API一样清爽。

3. 交互式的“对话式”调试 🔄

CLI-Anything最酷的功能是：当命令执行失败时，它不会直接返回一个冷冰冰的错误码，而是启动一个Agent与Shell的对话循环。Agent可以根据错误信息自动修正参数，甚至尝试不同的命令组合，直到成功为止。

比如，当用户说“帮我把图片压缩到100KB以下”，Agent可能会先尝试 ffmpeg -i input.png -compression_level 9 output.jpg，如果输出文件还是太大，它会自动调整 -compression_level 参数并重试，直到满足条件。

技术实现亮点：轻量级与高性能的平衡 ⚡

CLI-Anything的实现并不依赖重型框架，而是基于几个精巧的设计：

基于PTY（伪终端）的交互：传统的子进程调用（subprocess.Popen）无法处理需要交互的CLI工具（如 pass 或 ssh）。CLI-Anything使用PTY模拟终端，可以处理密码输入、确认提示等交互场景。
Schema缓存机制：对于同一个工具，CLI-Anything只会解析一次帮助文档，之后会缓存生成的Schema。这避免了每次调用都去执行 --help 的开销。
流式处理架构：对于长时间运行的命令（如 tail -f 或 docker logs --follow），CLI-Anything支持流式输出，Agent可以边执行边分析结果，而不是等整个命令执行完毕。

它的核心代码非常简洁，核心逻辑只有几百行Python：


# 简化的核心逻辑示意
class CLIAdapter:
    def __init__(self, command: str):
        self.schema = self._parse_help(command)
        self.pty = PTYWrapper(command)
    
    async def execute(self, params: dict) -> StructuredOutput:
        # 1. 根据Schema验证参数
        validated = self.schema.validate(params)
        # 2. 构建命令字符串
        cmd = self._build_command(validated)
        # 3. 通过PTY执行并捕获结构化输出
        raw_output = await self.pty.run(cmd)
        # 4. 智能解析输出
        return OutputParser.parse(raw_output)

这种设计使得CLI-Anything可以轻松嵌入到任何Agent框架中（如LangChain、AutoGPT等），作为一个通用的“工具调用层”。

适用场景与局限性 🎯

最适合的场景：

自动化运维：让Agent通过 kubectl、docker、systemctl 等工具管理服务器，而无需为每个工具写专门的API封装。
CI/CD 流水线：Agent可以动态调用 git、npm、mvn 等工具，根据代码变更自动调整构建参数。
数据管道：组合使用 jq、awk、sed 等数据处理工具，形成动态的数据处理流程。
老旧系统的Agent化改造：对于那些没有REST API、只有CLI接口的老旧系统，CLI-Anything是唯一的桥梁。

当前的局限性：

帮助文档质量依赖：如果某个CLI工具的 --help 写得极其糟糕（比如全是缩写、没有描述），CLI-Anything的自动解析效果会下降。
图形化界面无能为力：它只能处理基于文本的CLI工具，对于需要GUI交互的软件（如Photoshop、Figma）无效。
性能开销：每次调用都需要经过解析、执行、解析输出三步，比直接执行命令慢一些（约增加50-100ms延迟）。
安全风险：让Agent直接执行Shell命令本身就是一把双刃剑，需要配合沙箱或权限控制机制使用。

总结：什么时候选择CLI-Anything？🤔

如果你正在构建一个AI Agent，并且面临以下情况：

你的Agent需要调用大量不同的CLI工具，且数量还在持续增加
你不想为每个工具手写适配器，希望有一个通用的解决方案
你希望Agent不仅能调用工具，还能在出错时自动调试和重试
你希望Agent与软件的交互是可观测、可回溯的（CLI-Anything会记录每次调用的完整日志）

那么CLI-Anything是一个非常值得尝试的选择。它不像LangChain那样大而全，但它在“让CLI工具Agent化”这个细分赛道上，做到了极致。

最后，用项目官网（https://clianything.cc/）上的一句话作为结尾：“We don't need new APIs, we need a new way to talk to existing software.” 这句话完美概括了CLI-Anything的愿景——不是创造新的工具，而是让旧工具听懂新语言。

🚀 如果你也对Agent与软件的交互方式感兴趣，不妨去GitHub上给这个项目点个Star，或者贡献一个你常用CLI工具的Schema解析器。