0 个模型 · 0 在线 · 0 量化
0
近 7 天在我们 endpoint 服务过真实流量的模型数
我们不偷换模型、不悄悄量化、不缓存输出。每天跑公开评测、每条问答留存日志,欢迎用任意终端复现。
每日更新原始日志公开终端可复现
| 模型 | 精度 | 质量分 | 首字节延迟 | 吞吐 | 价格 | 查看 |
|---|
评测方法论
三栏对照如何得出,原始数据存在哪里,你如何亲手复现。
01
三角验证
每个模型的质量分同时展示三个来源:模型作者论文公布、Artificial Analysis 等第三方权威、以及我们用 lm-evaluation-harness 自测。三者同时一致才能说明我们没有偷换。
02
原始日志公开
每次评测的每道题、模型完整输出、logprobs、判分都存到公开 GitHub 仓库,按日期 commit,永久存档。任何人可以审查、对比、申诉。
03
终端可复现
我们用业界标准的 lm-evaluation-harness。同一个工具、同一个题集、同一个温度,你在自己电脑上对着我们 endpoint 跑出来的分数应当与我们公布的一致。