实测数据 — 无界计算

0 个模型 · 0 在线 · 0 量化

近 7 天在我们 endpoint 服务过真实流量的模型数

我们不偷换模型、不悄悄量化、不缓存输出。每天跑公开评测、每条问答留存日志，欢迎用任意终端复现。

每日更新原始日志公开终端可复现

模型	精度	质量分	首字节延迟	吞吐	价格	查看

评测方法论

三栏对照如何得出，原始数据存在哪里，你如何亲手复现。

每个模型的质量分同时展示三个来源：模型作者论文公布、Artificial Analysis 等第三方权威、以及我们用 lm-evaluation-harness 自测。三者同时一致才能说明我们没有偷换。

每次评测的每道题、模型完整输出、logprobs、判分都存到公开 GitHub 仓库，按日期 commit，永久存档。任何人可以审查、对比、申诉。

我们用业界标准的 lm-evaluation-harness。同一个工具、同一个题集、同一个温度，你在自己电脑上对着我们 endpoint 跑出来的分数应当与我们公布的一致。