OpenCompass 大模型评测
1.关于评测的三个问题
- 为什么需要评测:模型选型、能力提升、应用场景效果测评。
- 测什么:知识、推理、语言;长文本、智能体、多轮对话、情感、认知、价值观。
- 怎样测:自动化客观测评、人机交互测评、基于大模型的大模型测评。
大模型评测分为主观评测和客观评测
客观评测评测不了时使用主观评测
模型是否对提示词敏感
OpenCompass测评平台
平台架构
评测流水线设计
前沿探索(多模态)
前沿探索(法律领域)
前沿探索(医疗领域)
大模型测评领域的挑战