opencompass

C+17/40评估 / 观测洞察置信度：中

OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.

★ 6,828PythonCreated 2023-06-15GitHub →

benchmarkchatgptevaluationlarge-language-modelllama2llama3llmopenai

Executive Insight

opencompass 属于「评估 / 观测」方向，综合分 17/40（C+）。当前最强项是评估与验证、LLM 集成、Agent 自主性，短板集中在记忆系统、工具使用。

核心优势

- 评估与验证达到 5/5（Level 5），说明该项目在这一能力上较成熟。
- LLM 集成达到 2/5（Level 2），说明该项目在这一能力上较成熟。
- Agent 自主性达到 2/5（Level 2），说明该项目在这一能力上较成熟。

能力短板

- 记忆系统仅 1/5，当前更像“可用基础版”，需要补齐工程化能力。
- 工具使用仅 1/5，当前更像“可用基础版”，需要补齐工程化能力。

适用场景

- 上线前质量评估
- 线上行为监控和追踪

落地风险与建议

- 该条目为启发式分析，建议在核心决策前做一次仓库级人工复核。
- 人机协作机制偏弱，生产环境需增加人工审批或灰度发布闸门。
- 补会话摘要与长期记忆存储，减少上下文丢失。
- 梳理工具调用协议，先统一输入输出，再做动态路由。

Intelligence Profile