数据收集、评测与展示

1. 延迟

文本生成模型

定义与评测：向 maas 发送请求到收到响应的第一个 token 之间的时间（以秒为单位）。对于返回 reason token 的推理模型，这将是第一个 reason token 。

延 迟 = 收 到 第 一 个 t o k e n 的 时 间 - 请 求 发 送 时 间

Embedding、Reranker 模型

定义与评测：向 maas 发送请求到收到响应之间的时间（以秒为单位）。

延 迟 = 收 到 响 应 的 时 间 - 请 求 发 送 时 间

数据展示：模型详情页中服务商数据的“延迟”一列采用最近 6 小时测试数据的第 90 百分位数（P90）。首页排行与模型详情页面延迟折线图的“P90”一列采用近 7 日测试数据的第 90 百分位数（P90）。

2. 吞吐

定义与评测：收到第一个 token 后，每秒收到的 token 平均数。

吞 吐 = \frac{输 出 t o k e n 数 - 1}{收 到 最 终 t o k e n 的 时 间 - 收 到 第 一 个 t o k e n 的 时 间}

数据展示：模型详情页中服务商数据的“吞吐”一列采用最近 6 小时测试数据的算数平均值。首页排行与模型详情页面吞吐折线图的“平均”一列采用近 7 日测试数据的算术平均值。

3. 可靠性

定义与评测：基于真实请求采样与Benchmark 测试加权融合计算，真实流量为主（80%），Benchmark 兜底校准（20%）。真实样本不足时退化为纯 Benchmark。

可 靠 性 = 真 实 请 求 采 样 成 功 率 \times 0.8 + B e n c h m a r k 测 试 成 功 率 \times 0.2

数据展示：模型详情页中服务商数据的“可靠性”一列采用最近 6 小时可靠性测试数据。

4. 输入价格

定义：发送到 API 的请求中包含的每个 token 的价格。

数据展示：来源于各家服务商所提供数据。

5. 输出价格

文本生成模型

定义：发送到 API 的回答中包含的每个 token 的价格。

数据展示：来源于各家服务商所提供数据。

图像生成模型

定义：API生成单张图片的价格。

数据展示：来源于各家服务商所提供数据。

6. 上下文长度

定义：允许输入和输出的 token 的之和的最大值。

数据展示：来源于各家服务商所提供数据。

7. 最大输入长度

定义：允许输入的最大 token 数量。

数据展示：来源于各家服务商所提供数据。对于部分厂商未提供的最入输入长度，AI Ping 通过评测采用输入长度超限时，API 返回的报错信息；若无报错信息，采用上下文长度作为最大输入长度。当服务商标称数据与 AI Ping 评测数据不一致时，暂时展示服务商标称数据。

8. 最大输出长度

定义：允许输出的最大 token 数量。

数据展示：来源于各家服务商所提供数据。对于部分厂商未提供的最大输出长度，AI Ping 通过评测采用输出长度超限时，API 返回的报错信息；若无报错信息，采用上下文长度作为最大输出长度。当服务商标称数据与 AI Ping 评测数据不一致时，暂时展示服务商标称数据。

9. 单图生成时间

定义与评测：向图像生成模型发送请求到收到单张图片之间的时间（以秒为单位）。

单 图 生 成 时 间 = 收 到 单 张 图 片 的 时 间 - 请 求 发 送 时 间

数据展示：模型详情页中服务商数据的“单图生成时间”一列采用最近 6 小时测试数据的第 90 百分位数（P90）。模型详情页面单图生成时间折线图的“P90”一列采用近 7 日测试数据的第 90 百分位数（P90）。

10. 更多测试细节

性能数据融合了真实业务流量与自定义Benchmark测试结果，既反映真实请求性能，也通过定期压测校准基线。当检测到模型的服务商可用性或性能明显异常时，系统会立即触发额外测试，及时更新数据。同一模型下所有服务商在同一批次内并发执行，确保测试条件一致

所有测试均不使用缓存（ Prompt Caching ）。为避免缓存带来的性能影响，不同轮次测试间，输入 Prompt 前缀不同。

测试请求使用北京、上海、深圳、成都地区服务器发出。

图像生成模型

视频生成模型

Vidu

创建视频任务

任务管理

其他任务

可灵 AI

语音生成模型

MiniMax

数据收集、评测与展示

1. 延迟

文本生成模型

Embedding、Reranker 模型

2. 吞吐

3. 可靠性

4. 输入价格

5. 输出价格

文本生成模型

图像生成模型

6. 上下文长度

7. 最大输入长度

8. 最大输出长度

9. 单图生成时间

10. 更多测试细节

Vidu

创建视频任务

任务管理

其他任务

可灵 AI

MiniMax

数据收集、评测与展示 ​

1. 延迟 ​

文本生成模型 ​

Embedding、Reranker 模型 ​

2. 吞吐 ​

3. 可靠性 ​

4. 输入价格 ​

5. 输出价格 ​

文本生成模型 ​

图像生成模型 ​

6. 上下文长度 ​

7. 最大输入长度 ​

8. 最大输出长度 ​

9. 单图生成时间 ​

10. 更多测试细节 ​

数据收集、评测与展示

1. 延迟

文本生成模型

Embedding、Reranker 模型

2. 吞吐

3. 可靠性

4. 输入价格

5. 输出价格

文本生成模型

图像生成模型

6. 上下文长度

7. 最大输入长度

8. 最大输出长度

9. 单图生成时间

10. 更多测试细节