TL;DR

OpenAI API四代演变

第一代completion是最原始LLM的文本补全，你给个开头它给个结果，suffix是个经典
第二代Chat completions API引入了角色概念，代表着GPT模型SFT和RLHF的成果，催生了prompt工程这个概念，直到self prompting的出现
第三代Assistant API开始侵入业务，替开发者管理对话记忆，抽象的很有美感，但只能孤芳自赏beta到死
第四代Response API集成了第三代的野望和第二代的易用，相对于新工具来说，结构化输出、事件驱动设计可能让LLM应用开发更受益

整个演变过程，除了确实加速LLM原生应用开发，我看到的是基础模型厂商从单纯工具到业务“伙伴”的野心，本质上是在代表AGI和生态（开发者即普通人）博弈的过程，已经不是过去云厂商和客户之间烙铁合作的关系，更像是汲取和超越。

整个演变过程反映了基础模型厂商从单纯工具到业务伙伴的野心，本质上是在代表AGI和生态（开发者即普通人）博弈的过程。

第一代，completion接口

LLM本质上都是在做一个补全的任务，所以最开始提供的接口是completion，它的数据结构是： Request:

from openai import OpenAI
client = OpenAI()

client.completions.create(
  model="gpt-3.5-turbo-instruct",
  prompt="Say this is a test",
  max_tokens=7,
  temperature=0
)

Response:

{
  "id": "cmpl-uqkvlQyYK7bGYrRHQ0eXlWi7",
  "object": "text_completion",
  "created": 1589478378,
  "model": "gpt-3.5-turbo-instruct",
  "system_fingerprint": "fp_44709d6fcb",
  "choices": [
    {
      "text": "\\n\\nThis is indeed a test",
      "index": 0,
      "logprobs": null,
      "finish_reason": "length"
    }
  ],
  "usage": {
    "prompt_tokens": 5,
    "completion_tokens": 7,
    "total_tokens": 12
  }
}

模型会从你发送的文本向后补全token，这些token则是它的预测结果，从案例的请求和结果来看，是：

Say this is a test

This is indeed a test

这里面有个关键参数是max_tokens，这个控制了模型最终生成多少个token来完成这次生成任务。