Inference Space

0 个模型 · 0 在线 · 0 量化

0

近 7 天在我们 endpoint 服务过真实流量的模型数

我们不偷换模型、不悄悄量化、不缓存输出。每天跑公开评测、每条问答留存日志,欢迎用任意终端复现。

每日更新原始日志公开终端可复现
模型精度质量分首字节延迟吞吐价格查看

评测方法论

三栏对照如何得出,原始数据存在哪里,你如何亲手复现。

01

三角验证

每个模型的质量分同时展示三个来源:模型作者论文公布、Artificial Analysis 等第三方权威、以及我们用 lm-evaluation-harness 自测。三者同时一致才能说明我们没有偷换。

02

原始日志公开

每次评测的每道题、模型完整输出、logprobs、判分都存到公开 GitHub 仓库,按日期 commit,永久存档。任何人可以审查、对比、申诉。

03

终端可复现

我们用业界标准的 lm-evaluation-harness。同一个工具、同一个题集、同一个温度,你在自己电脑上对着我们 endpoint 跑出来的分数应当与我们公布的一致。