大模型使用方式索引

2025 年 03 月 19 日

本文只是一个不完整的索引，用于穿起一些基础概念的理解。

写在前面的部分

对于大模型，我个人的理解是：本质上，大模型就是一个大型的数据库。

任何程序都是处理输入，给出输出。大模型的输入是文字，输出的是文字（多模态会处理音视频，但思路是类似的）。所以大模型的行为，只是根据输入的文字，通过一定的方式，在其数据库中查询并得到输出而已。

注：数据库只是一个简单的比喻。处理文字的大模型总是根据已有输入，通过各种矩阵运算，计算下一个输出的文字，直到获取到结束标记。

上面一段略微有点离题，现在回到主题。

因为大模型本质只是一个类似数据库的数据集，因此使用起来，无非不过就是以下几种方式：

下面对于几种方式稍稍展开。

由于大模型本质只是数据库，因此核心问题是推理引擎的选择。能调用的接口完全受推理引擎的限制，同时模型跟推理引擎也有一定程度的绑定关系，可以参考这个列表：🤗 Transformers。从列表中可以看出，大部分模型都支持 Pytorch。

具体的使用方式，可以参考范例，以下只列出常用的使用方式：

除了使用 python 的几种选择，推理引擎还可以使用其他语言，简单举例来说：

需要注意的是，推理引擎支持的大模型往往有所限制。例如：

所以，想要使用特定的大模型时，要考虑如何选择对应的推理引擎，才能明确使用方式。

本质上，服务方式只是简单的调用 RESTful API。Open-AI 的 OpenAPI 已经是事实标准。基于其 spec，已经有大量 SDK 实现，根据语言选择即可。

以最常用的 chat completions 接口举例，所有的输入输出都已经在文档中说明，但还是需要实际写点代码才能真正理解其细节。

近期我尝试使用了 tool use 方式，这里说明一下 tool use 的最小流程：

这里就是 rust 的 async-openai 使用 tool 的参考范例。遵循上面的最小流程。实际上，2-4 这个过程可能是一个 loop，llm 可以在接收到请求后，通过多次响应调用 tool。作为请求方，需要在请求中保留整个过程中的 message。

关于使用 MCP 的方式，看起来是在上面的 tool use 方式上做进一步的扩展。

注：我看到有一些说法声称可以允许不支持 tool 的 LLM 调用 MCP 功能，但我没见到实际的例子。

从概念上来讲，所谓 host-client-server 模式，可以理解为以下几点：

明显可以看出这是基于 tool use 的扩展。这个过程基本上如下所示：

明显，上面的过程跟 tool use 并无不同。