【书生·浦语大模型实战营】第6节：OpenCompass 大模型评测（笔记版）

【书生·浦语大模型实战营】第6节：OpenCompass 大模型评测（笔记版）

news/发布时间2024/5/19 11:06:54

OpenCompass 大模型评测

1.关于评测的三个问题

为什么需要评测：模型选型、能力提升、应用场景效果测评。
测什么：知识、推理、语言；长文本、智能体、多轮对话、情感、认知、价值观。
怎样测：自动化客观测评、人机交互测评、基于大模型的大模型测评。

大模型评测分为主观评测和客观评测

客观评测评测不了时使用主观评测

模型是否对提示词敏感

OpenCompass测评平台

平台架构

评测流水线设计

前沿探索（多模态）

前沿探索（法律领域）

前沿探索（医疗领域）

大模型测评领域的挑战

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.bcls.cn/iYSS/2045.shtml

如若内容造成侵权/违法违规/事实不符，请联系编程老四网进行投诉反馈email:xxxxxxxx@qq.com，一经查实，立即删除！

相关文章

Day31文件IO

Day31文件IO

文章目录 1.什么是文件IO1.1 概念1.2 特点1.3 操作 2.函数接口2.1 打开文件 open()2.2 关闭文件2.3 读写文件2.3.1 读文件2.3.2 写文件 2.4 文件的定位操作标准IO和文件IO总结 1.什么是文件IO 1.1 概念又称系统IO，是系统调用，是操作系统提供的接口函…

阅读更多...

【漏洞复现】大华智慧园区综合管理平台信息泄露漏洞

【漏洞复现】大华智慧园区综合管理平台信息泄露漏洞

Nx01 产品简介大华智慧园区综合管理平台是一款综合管理平台，具备园区运营、资源调配和智能服务等功能。该平台旨在协助优化园区资源分配，满足多元化的管理需求，同时通过提供智能服务，增强使用体验。 Nx02 漏洞描述大华智慧园区…

阅读更多...

typescript 索引签名类型

typescript 索引签名类型

ts索引类型简介在TypeScript中，索引签名类型（Index Signature Type）是一种特殊的类型，它定义了对象中键的类型以及相应的值的类型。通过使用索引签名类型，我们可以表示一个对象，该对象的键可以是任意类型…

阅读更多...

数据结构--红黑树详解

数据结构--红黑树详解

什么是红黑树红黑树（Red Black Tree）是一种自平衡二叉查找树。它是在 1972 年由 Rudolf Bayer 发明的，当时被称为平衡二叉 B 树（symmetric binary B-trees）。后来，在 1978 年被 Leo J. Guibas 和 Robert Sedgewick 修改为如今的“红黑树”。由于其自平衡的特性，保证…

阅读更多...

记一次 .NET某列控连锁系统崩溃分析

记一次 .NET某列控连锁系统崩溃分析

一：背景 1. 讲故事过年喝了不少酒，脑子不灵光了，停了将近一个月没写博客，今天就当新年开工写一篇吧。去年年初有位朋友找到我，说他们的系统会偶发性崩溃，在网上也发了不少帖子求助，没找到自…

阅读更多...

【regex】正则表达式

【regex】正则表达式

集合 [0-9.] [0-9.\-] 例子正则表达式，按照规则写，写的时候应该不算困难，但是可读性差不同语言中regex会有微小的差异 vim 需要转义， perl/python中不需要转义锚位 \b am\b i am 命名 / 命名捕获组 ( 捕获组（…

阅读更多...

Commonjs 和 Es Module详解

Commonjs 和 Es Module详解

一前言今天我们来深度分析一下 Commonjs 和 Es Module，希望通过本文的学习，能够让大家彻底明白 Commonjs 和 Es Module 原理，能够一次性搞定面试中遇到的大部分有关 Commonjs 和 Es Module 的问题。带上疑问开始今天的分析： …

阅读更多...

PyTorch深度学习实战（37）——CycleGAN详解与实现

PyTorch深度学习实战（37）——CycleGAN详解与实现

PyTorch深度学习实战（37）——CycleGAN详解与实现 0. 前言1. CycleGAN 基本原理2. CycleGAN 模型分析3. 实现 CycleGAN小结系列链接 0. 前言 CycleGAN 是一种用于图像转换的生成对抗网络(Generative Adversarial Network, GAN)，可以在不需要配…

阅读更多...

《深入浅出 Spring Boot 3.x》预计3月份发版

《深入浅出 Spring Boot 3.x》预计3月份发版

各位，目前本来新书《深入浅出 Spring Boot 3.x》已经到了最后编辑排版阶段，即将在3月份发布。目录： 现在把目录截取给大家： 主要内容： 本书内容安排如下。 ● 第 1 章和第 2 章讲解 Spring Boot 和传统 Spri…

阅读更多...

stm32——hal库学习笔记(定时器)

stm32——hal库学习笔记(定时器)

这里写目录标题一、定时器概述（了解）1.1，软件定时原理1.2，定时器定时原理1.3，STM32定时器分类1.4，STM32定时器特性表1.5，STM32基本、通用、高级定时器的功能整体区别二、基本定时器&#xff0…

阅读更多...

找不到android.support.v4.app.Fragment的类文件

找不到android.support.v4.app.Fragment的类文件

问题 android.support.v4.app.Fragment的类文件详细问题笔者Android项目开发集成QQ登录控制台报错 D:\AndroidProjects\assistingAgriculture\app\src\main\java\com\example\assistingagriculture\activity\normal_mode\QQLoginActivity.java:43: 错误: 无法访问Fragme…

阅读更多...

k-邻近算法（kNN）

k-邻近算法（kNN）

目录 k-近邻算法概述 k-近邻算法的一般流程 kNN算法伪代码 k-近邻算法概述优点：精度高、对异常值不敏感、无数据输入假定缺点：计算复杂度高、空间复杂度高适用数据范围：数值型和标称型 k-近邻算法的一般流程 （1&#x…

阅读更多...

【小呆的力学笔记】弹塑性力学的初步认知五：初始屈服条件（1）

【小呆的力学笔记】弹塑性力学的初步认知五：初始屈服条件（1）

文章目录 3. 初始屈服条件3.1 两个假设以及屈服条件基本形式3.2 π \pi π平面、Lode参数3.3 屈服曲线的一般特征 3. 初始屈服条件 3.1 两个假设以及屈服条件基本形式在简单拉伸时，材料的屈服很明确，即 σ > σ s (1) \sigma\gt\sigma_s\tag{1} …

阅读更多...

[Docker实战] 旭日X3派上Docker Openwrt +Samba 实现局域网NAS 开启AP模式

[Docker实战] 旭日X3派上Docker Openwrt +Samba 实现局域网NAS 开启AP模式

🌈 博客个人主页：Chris在Coding 🎥 本文所属专栏：[旭日X3派] [Docker实战] ❤️ 前置学习专栏：[Linux学习] ⏰ 我们仍在旅途 …

阅读更多...

Sora：新一代实时音视频通信框架

Sora：新一代实时音视频通信框架

一、Sora简介 Sora是一个开源的实时音视频通信框架，旨在提供高效、稳定、可扩展的音视频通信解决方案。它基于WebRTC技术，支持跨平台、跨浏览器的实时音视频通信，并且具备低延迟、高并发、易集成等特点。 --点击进入Sora(一定要科学哦&#x…

阅读更多...

【PX4学习笔记】08.PX4中显示在QGC的参数讲解

【PX4学习笔记】08.PX4中显示在QGC的参数讲解

目录文章目录目录PX4参数的获取方式PX4参数的分类PX4常用参数的意义和调整注意事项PX4的姿态控制和位置控制参数常规的调整参数流程 [!NOTE] 姿态控制的P-PID：roll、pitch、yaw三个角速度的内环PID，外环P的控制位置控制的P-PID：xy水…

阅读更多...

小迪安全27WEB 攻防-通用漏洞SQL 注入Tamper 脚本Base64Jsonmd5 等

小迪安全27WEB 攻防-通用漏洞SQL 注入Tamper 脚本Base64Jsonmd5 等

#知识点： 1、数据表现格式类型注入 2、字符转义绕过-宽字节注入 3、数字&字符&搜索&编码&加密等 #参考资料： https://www.cnblogs.com/bmjoker/p/9326258.html 扫描，利用工具等都不会自动判断数据类型&#xff0c…

阅读更多...

Chrome插件精选 — 缓存清理

Chrome插件精选 — 缓存清理

Chrome实现同一功能的插件往往有多款产品，逐一去安装试用耗时又费力，在此为某一类型插件挑选出比较好用的一款或几款，尽量满足界面精致、功能齐全、设置选项丰富的使用要求，便于节省一个个去尝试的时间和精力。 1. Chrome清理大师…

阅读更多...

深度学习基础——SSD目标检测

深度学习基础——SSD目标检测

SSD网络介绍使用多个特征图作为特征预测层。 SSD (Single Shot MultiBox Detector)于2016年提出。当网络输入为300300大小时，在VOC2007测试集上达到74.3%的mAP;当输入是512512大小时，达到了76.9%的mAP SSD_Backbone部分介绍不变的部分特征提取网…

阅读更多...

QT day2

QT day2

#include "widget.h"Widget::Widget(QWidget *parent): QWidget(parent) {//设置窗口标题setWindowTitle("有课云登录");//设置窗口图标setWindowIcon(QIcon("C:\\Users\\Administrator\\Desktop\\pictrue\\login.png"));//设置固定窗口大小resi…

阅读更多...

推荐文章

最新文章