Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

news/2024/10/5 18:04:22 标签: 人工智能, 语言模型, 自然语言处理

自然语言处理领域,大型语言模型(LLMs)的发展迅速,已经在多个领域取得了显著的进展。不过,随着模型的复杂性增加,如何准确评估它们的输出就变得至关重要。传统上,我们依赖人类来进行评估,但这种方式既耗时又难以规模化,无法跟上模型快速发展的步伐。

在这里插入图片描述
为了改变这种现状,Salesforce AI 研究团队推出了 SFR-Judge,这是一个由三个大型语言模型组成的评估家族。这些模型分别拥有80亿、120亿和700亿个参数,基于 Meta Llama3和 Mistral NeMO 构建。SFR-Judge 能够执行多种评估任务,包括成对比较、单一评分和二分类评估,旨在帮助研究团队快速高效地评估新模型的表现。

在这里插入图片描述
传统的 LLM 评估模型往往存在一些偏差问题,比如位置偏差和长度偏差,这会影响它们的判断。为了克服这些问题,SFR-Judge 采用了直接偏好优化(DPO)训练方法,让模型从正负例中学习,从而提升其评估任务的理解能力,减少偏差,确保判断的一致性。

在测试中,SFR-Judge 在13个基准测试上表现优异,超过了许多现有的评估模型,包括一些私有模型。特别是在 RewardBench 排行榜上,SFR-Judge 的准确率达到了92.7%,这是生成型评估模型首次和第二次超越90% 的门槛,展现出其在评估模型中的卓越表现。

SFR-Judge 的训练方法涵盖三种不同的数据格式。首先是 “思维链批评”,帮助模型生成对评估响应的结构化分析。其次是 “标准评判”,简化评估过程,直接反馈响应是否符合标准。最后,“响应推导” 则帮助模型理解高质量回应的特征,强化其判断能力。这三种数据格式的结合,使得 SFR-Judge 的评估能力得到了极大提升。

经过大量实验,SFR-Judge 模型在减少偏差方面表现显著优于其他模型。在 EvalBiasBench 基准测试中,它们展现了高度的成对顺序一致性,这表明即便响应顺序发生变化,模型的判断依然保持稳定。这使得 SFR-Judge 成为一种可靠的自动化评估解决方案,减少了对人工标注的依赖,为模型评估提供了更可扩展的选择。

论文入口:https://arxiv.org/abs/2409.14664


http://www.niftyadmin.cn/n/5691130.html

相关文章

isinstance()学习

aa {} if isinstance(aa,dict):print("是")aa 2 if isinstance(aa,dict):print("是")aa 2 if isinstance(aa,int):print("是")aa [] if isinstance(aa,list):print("list")aa [1,2,3] if isinstance(aa,list):print("list"…

MongoDB-aggregate流式计算:带条件的关联查询使用案例分析

在数据库的查询中,是一定会遇到表关联查询的。当两张大表关联时,时常会遇到性能和资源问题。这篇文章就是用一个例子来分享MongoDB带条件的关联查询发挥的作用。 假设工作环境中有两张MongoDB集合:SC_DATA(学生基本信息集合&…

java基础进阶知识点汇总(1)

本文章是在学习《java核心技术》时记录的笔记 一、对象与类 面向对象程序设计(object-oriented programming,OOP)是当今主流的程序设计范型,它取代了20世纪70年代的“结构化”或过程式编程技术。由于java是面向对象的,所以必须熟…

【C++打怪之路Lv7】-- 模板初阶

🌈 个人主页:白子寰 🔥 分类专栏:C打怪之路,python从入门到精通,数据结构,C语言,C语言题集👈 希望得到您的订阅和支持~ 💡 坚持创作博文(平均质量分82)&#…

调试分析:[跳数度量]更改为[距离度量]后的 routing_bellmanford 算法

回顾复习2023年8月的《★修改Exata6.2源码:〔修改Bellmanford最短路径路由的衡量标准从【路由跳数】改为【“路由器节点间的物理距离”】,并动画演示〕》,VS2015调试Exata,跟踪调试修改后的[ routing_bellmanford.cpp ]源码&#…

mysql学习教程,从入门到精通,SQL 修改表(ALTER TABLE 语句)(29)

1、SQL 修改表(ALTER TABLE 语句) 在编写一个SQL的ALTER TABLE语句时,你需要明确你的目标是什么。ALTER TABLE语句用于在已存在的表上添加、删除或修改列和约束等。以下是一些常见的ALTER TABLE语句示例,这些示例展示了如何修改表…

Android 电源管理各个版本的变动和限制

由于Android设备的电池容量有限,而用户在使用过程中会进行各种高耗电操作,如网络连接、屏幕亮度调节、后台程序运行等,因此需要通过各种省电措施来优化电池使用‌,延长电池续航时间,提高用户体验,并减少因电…

Design Compiler常用命令大总结~

Design Compiler常用命令大总结~ 1.读取RTL级代码 方式①——read_verilog read_verilog {A.v B.v Top.v} #读取RTL文件 current_design Top.v #设置当前设计 link check_design #检查RTL代码是否正确 方式②——analyze&elaborate analyze -format varilog {A.v …