NeuroClaw logo NeuroClaw
EN 联系我方

NeuroBench

NeuroClaw 的 benchmark 评测页

NeuroBench 用于评估端到端神经影像工作流、复现准备度以及技能驱动执行能力。

Benchmark Overview

Benchmark overview

NeuroBench 覆盖什么

覆盖范围

结构像、功能像、扩散像、EEG 以及多模态整合任务。

评测维度

规划质量、工具/技能使用合理性、命令与代码正确性、复现准备度。

任务设计

每个任务目录都包含一个 task.md 指令文件,明确输入、输出和检查项。

Benchmark 运行

如何执行任务

NeuroBench 支持基线运行和技能增强运行,可以在 Web UI 或命令行批量执行。

  • with-skills:使用 skills/ 中加载的技能。
  • no-skills:不使用技能的基线运行。
  • --benchmark-compare-skills:对同一任务同时运行两种版本。
  • 输出会写入 output/
# Web benchmark 模式
python core/agent/main.py --web --benchmark

# CLI benchmark 批量运行
python core/agent/main.py --benchmark

# CLI 下的技能对照
python core/agent/main.py --benchmark --benchmark-compare-skills

评分

使用 --score-benchmark 可以对 output/ 中已有报告进行打分,评分规则基于 GPT-5.4 的加权 rubric。

python core/agent/main.py --score-benchmark
python core/agent/main.py --score-benchmark --score-workers 8

benchmark 工作流

先跑任务,再对生成的报告打分,用于分析质量与效率。