主题模式
数据收集、评测与展示
1. 延迟
文本生成模型
定义与评测:向 maas 发送请求到收到响应的第一个 token 之间的时间(以秒为单位)。对于返回 reason token 的推理模型,这将是第一个 reason token 。
Embedding、Reranker 模型
定义与评测:向 maas 发送请求到收到响应之间的时间(以秒为单位)。
数据展示:模型详情页中供应商数据的“延迟”一列采用最近 6 小时测试数据的第 90 百分位数(P90)。首页排行与模型详情页面延迟折线图的“P90”一列采用近 7 日测试数据的第 90 百分位数(P90)。
2. 吞吐
定义与评测:收到第一个 token 后,每秒收到的 token 平均数。
数据展示:模型详情页中供应商数据的“吞吐”一列采用最近 6 小时测试数据的算数平均值。首页排行与模型详情页面吞吐折线图的“平均”一列采用近 7 日测试数据的算术平均值。
3. 可靠性
定义与评测:成功请求在所有请求中的占比。
数据展示:模型详情页中供应商数据的“可靠性”一列采用最近 6 小时可靠性测试数据。
4. 输入价格
定义:发送到 API 的请求中包含的每个 token 的价格。
数据展示:来源于各家供应商所提供数据。
5. 输出价格
文本生成模型
定义:发送到 API 的回答中包含的每个 token 的价格。
数据展示:来源于各家供应商所提供数据。
图像生成模型
定义:API生成单张图片的价格。
数据展示:来源于各家供应商所提供数据。
6. 上下文长度
定义:允许输入和输出的 token 的之和的最大值。
数据展示:来源于各家供应商所提供数据。
7. 最大输入长度
定义:允许输入的最大 token 数量。
数据展示:来源于各家供应商所提供数据。对于部分厂商未提供的最入输入长度,AI Ping 通过评测采用输入长度超限时,API 返回的报错信息;若无报错信息,采用上下文长度作为最大输入长度。当供应商标称数据与 AI Ping 评测数据不一致时,暂时展示供应商标称数据。
8. 最大输出长度
定义:允许输出的最大 token 数量。
数据展示:来源于各家供应商所提供数据。对于部分厂商未提供的最大输出长度,AI Ping 通过评测采用输出长度超限时,API 返回的报错信息;若无报错信息,采用上下文长度作为最大输出长度。当供应商标称数据与 AI Ping 评测数据不一致时,暂时展示供应商标称数据。
9. 单图生成时间
定义与评测:向图像生成模型发送请求到收到单张图片之间的时间(以秒为单位)。
数据展示:模型详情页中供应商数据的“单图生成时间”一列采用最近 6 小时测试数据的第 90 百分位数(P90)。模型详情页面单图生成时间折线图的“P90”一列采用近 7 日测试数据的第 90 百分位数(P90)。
10. 更多测试细节
对于视觉理解模型,使用 base64 格式的图片+文字做为输入。对于不支持该图片格式的供应商,使用 url 格式的图片。
在一轮测试中,同一模型的不同供应商之间,使用相同输入 Prompt 和参数,在同一时间段内测试。
所有测试均不使用缓存( Prompt Caching )。为避免缓存带来的性能影响,不同轮次测试间,输入 Prompt 前缀不同。
所有测试请求均使用北京地区服务器发出。AI Ping 团队正在增加更多测试服务器地点,将为不同地区用户提供更低延迟的 API 调用服务。