Skip to content

数据收集、评测与展示

1. 延迟

文本生成模型

定义与评测:向 maas 发送请求到收到响应的第一个 token 之间的时间(以秒为单位)。对于返回 reason token 的推理模型,这将是第一个 reason token 。

=token

Embedding、Reranker 模型

定义与评测:向 maas 发送请求到收到响应之间的时间(以秒为单位)。

=

数据展示:模型详情页中供应商数据的“延迟”一列采用最近 6 小时测试数据的第 90 百分位数(P90)。首页排行与模型详情页面延迟折线图的“P90”一列采用近 7 日测试数据的第 90 百分位数(P90)。

2. 吞吐

定义与评测:收到第一个 token 后,每秒收到的 token 平均数。

=token1tokentoken

数据展示:模型详情页中供应商数据的“吞吐”一列采用最近 6 小时测试数据的算数平均值。首页排行与模型详情页面吞吐折线图的“平均”一列采用近 7 日测试数据的算术平均值。

3. 可靠性

定义与评测:成功请求在所有请求中的占比。

=

数据展示:模型详情页中供应商数据的“可靠性”一列采用最近 6 小时可靠性测试数据。

4. 输入价格

定义:发送到 API 的请求中包含的每个 token 的价格。

数据展示:来源于各家供应商所提供数据。

5. 输出价格

文本生成模型

定义:发送到 API 的回答中包含的每个 token 的价格。

数据展示:来源于各家供应商所提供数据。

图像生成模型

定义:API生成单张图片的价格。

数据展示:来源于各家供应商所提供数据。

6. 上下文长度

定义:允许输入和输出的 token 的之和的最大值。

数据展示:来源于各家供应商所提供数据。

7. 最大输入长度

定义:允许输入的最大 token 数量。

数据展示:来源于各家供应商所提供数据。对于部分厂商未提供的最入输入长度,AI Ping 通过评测采用输入长度超限时,API 返回的报错信息;若无报错信息,采用上下文长度作为最大输入长度。当供应商标称数据与 AI Ping 评测数据不一致时,暂时展示供应商标称数据。

8. 最大输出长度

定义:允许输出的最大 token 数量。

数据展示:来源于各家供应商所提供数据。对于部分厂商未提供的最大输出长度,AI Ping 通过评测采用输出长度超限时,API 返回的报错信息;若无报错信息,采用上下文长度作为最大输出长度。当供应商标称数据与 AI Ping 评测数据不一致时,暂时展示供应商标称数据。

9. 单图生成时间

定义与评测:向图像生成模型发送请求到收到单张图片之间的时间(以秒为单位)。

=

数据展示:模型详情页中供应商数据的“单图生成时间”一列采用最近 6 小时测试数据的第 90 百分位数(P90)。模型详情页面单图生成时间折线图的“P90”一列采用近 7 日测试数据的第 90 百分位数(P90)。

10. 更多测试细节

对于视觉理解模型,使用 base64 格式的图片+文字做为输入。对于不支持该图片格式的供应商,使用 url 格式的图片。

在一轮测试中,同一模型的不同供应商之间,使用相同输入 Prompt 和参数,在同一时间段内测试。

所有测试均不使用缓存( Prompt Caching )。为避免缓存带来的性能影响,不同轮次测试间,输入 Prompt 前缀不同。

所有测试请求均使用北京地区服务器发出。AI Ping 团队正在增加更多测试服务器地点,将为不同地区用户提供更低延迟的 API 调用服务。