Benchmark 指南
运行矩阵
平台默认支持以下维度:
frameworklanggraphcrewaiautogen
scenariocodegen_execvuln_scanmulti_step_agentlong_chain_dag
modelivereplay
chaosnone- 以及
chaos/profiles/*.json
统一指标
plan_validitysubmit_accept_ratescenario_successrecovery_successwall_time_msstage_counttask_countretry_counttimeout_countruntime_failure_countinvalid_action_countdeterminism_driftartifact_hash_match
输出
每次 benchmark 会生成:
var/runs/<run_id>/...var/runs/benchmark-summary.jsonvar/runs/benchmark-summary.md
示例
python3 -m execgo_playground benchmark \
--framework langgraph \
--framework crewai \
--framework autogen \
--scenario codegen_exec \
--scenario long_chain_dag \
--chaos none \
--chaos runtime_restart \
--mode replay \
--repetitions 2