预部署AI模型可靠性评估

admin • 2025年06月19日 21:13 • 生活经验 • 阅读 10

基础模型是大量的深度学习模型，这些模型已经在大量通用的、未标记的数据上进行了预训练。它们可以应用于各种任务，比如生成图像或回答客户问题。但是，作...

基础模型是大量的深度学习模型，这些模型已经在大量通用的、未标记的数据上进行了预训练。它们可以应用于各种任务，比如生成图像或回答客户问题。

但是，作为ChatGPT和DALL-E等强大人工智能工具的支柱，这些模型可能会提供不正确或误导性的信息。在安全关键的情况下，比如行人接近自动驾驶汽车，这些错误可能会造成严重后果。

为了防止此类错误，麻省理工学院和麻省理工学院- ibm沃森人工智能实验室的研究人员开发了一种技术，可以在将基础模型部署到特定任务之前评估其可靠性。

他们通过训练一组彼此略有不同的基础模型来做到这一点。然后，他们使用他们的算法来评估每个模型对相同测试数据点学习的表示的一致性。如果表示是一致的，就意味着模型是可靠的。

当他们将他们的技术与最先进的基线方法进行比较时，它在捕获各种分类任务的基础模型的可靠性方面表现得更好。

有人可以使用这种技术来决定一个模型是否应该应用于特定的环境，而不需要在现实世界的数据集上进行测试。当数据集可能由于隐私问题而无法访问时，例如在医疗保健环境中，这可能特别有用。此外，该技术可用于基于可靠性分数对模型进行排序，使用户能够为其任务选择最佳模型。

“所有模型都可能出错，但知道自己什么时候出错的模型更有用。对于这些基础模型来说，量化不确定性或可靠性的问题变得更加困难，因为它们的抽象表示难以比较。我们的方法可以让你量化表示模型对于任何给定输入数据的可靠性，”资深作者Navid Azizan说，他是麻省理工学院机械工程系和数据、系统和社会研究所(IDSS)的Esther和Harold E. Edgerton助理教授，也是信息和决策系统实验室(LIDS)的成员。

他与第一作者Young-Jin Park (LIDS研究生)一起撰写了一篇关于这项工作的论文;麻省理工学院- ibm沃森人工智能实验室的研究科学家王浩;以及Netflix的高级研究科学家谢尔文·阿德希尔。该论文将在人工智能不确定性会议上发表。

统计共识

传统的机器学习模型被训练来执行特定的任务。这些模型通常根据输入做出具体的预测。例如，模型可能会告诉你某张图片中是猫还是狗。在这种情况下，评估可靠性可能只是查看最终预测，看看模型是否正确。

但基金会的模式是不同的。该模型使用一般数据进行预训练，其创建者并不知道该模型将应用于的所有下游任务。用户在训练完成后就可以让它适应自己的特定任务。

与传统的机器学习模型不同，基础模型不会给出像“猫”或“狗”标签这样的具体输出。相反，它们基于输入数据点生成抽象表示。

为了评估基础模型的可靠性，研究人员使用了一种集成方法，通过训练几个模型，这些模型具有许多相同的特性，但彼此之间略有不同。

“我们的想法就像计算共识。如果所有这些基础模型对我们数据集中的任何数据都给出了一致的表示，那么我们可以说这个模型是可靠的，”Park说。

但他们遇到了一个问题:他们如何比较抽象的表示?

他补充说:“这些模型只是输出一个矢量，由一些数字组成，所以我们不能轻易地比较它们。”

他们用一种叫做邻域一致性的想法解决了这个问题。

对于他们的方法，研究人员准备了一组可靠的参考点来测试模型的集合。然后，对于每个模型，他们调查位于该模型表示的测试点附近的参考点。

通过观察相邻点的一致性，他们可以估计模型的可靠性。

对齐表示

基础模型在所谓的表示空间中映射数据点。我们可以把这个空间看成一个球体。每个模型都将相似的数据点映射到其球体的同一部分，因此猫的图像放在一个地方，狗的图像放在另一个地方。

但是每个模型会在自己的领域内绘制不同的动物地图，所以当猫可能被分组在一个球体的南极附近时，另一个模型可以在北半球的某个地方绘制猫的地图。

研究人员使用像锚一样的邻近点来对齐这些球体，这样它们就可以使表征具有可比性。如果一个数据点的邻居在多个表示中是一致的，那么应该对该点的模型输出的可靠性有信心。

当他们在大范围的分类任务中测试这种方法时，他们发现它比基线更加一致。另外，它不会因为挑战测试点而导致其他方法失败。

此外，他们的方法可用于评估任何输入数据的可靠性，因此人们可以评估模型对特定类型的个体(例如具有某些特征的患者)的效果如何。

王说:“即使所有型号的整体性能都是平均水平，从个人的角度来看，你也会更喜欢最适合自己的型号。”

然而，一个限制来自于它们必须训练一个大型基础模型的集合，这在计算上是昂贵的。在未来，他们计划找到更有效的方法来建立多个模型，也许是通过使用单个模型的小扰动。

这项工作部分由麻省理工学院- ibm沃森人工智能实验室、MathWorks和亚马逊资助。

本文来自作者[admin]投稿，不代表xfqse号立场，如若转载，请注明出处：https://xfqse.cn/life/202506-575.html

10 4

本文作者

admin签约作者

3730 文章

0 评论

1 粉丝

我是xfqse号的签约作者[admin],本篇文章《预部署AI模型可靠性评估》主要讲述了:基础模型是大量的深度学习模型，这些模型已经在大量通用的、未标记的数据上进行了预训练。它们可以应用于各种任务，比如生成图像或回答客户问题。但是，作...

常识科普

美国和英国袭击也门，以报复胡塞武装袭击船只

　　美国和英国战机、舰船和潜艇连夜在也门各地发动了数十次空袭，以报复胡塞武装数月来对红海船只的袭击。伊朗支持的胡塞武装将袭击视为对加沙战争的回应。目击者证实，爆炸发生在首都萨那和也门第三大城市塔伊兹机场附近的军事基地、也门主要红海港口荷台达的一个海军基地，以及沿

admin
2025年06月09日
8
作者专栏

随着搜救工作的继续，天坑遇难者家属将得到支持

吉隆坡:48岁失踪的Vijayalaksmi的家人将得到帮助，包括签证延期，因为对天坑受害者的搜索仍在继续。吉隆坡市长拿督斯里麦慕娜·莫哈德·谢里夫说，仍在马来西亚的印度国民的亲属得到了住宿、食物和咨询服务。“马来西亚皇家警察局(PDRM)也在与印

admin
2025年07月02日
9
知识分享

RSH发布2024-25年第一季度季度调查

社会住房监管机构(RSH)今天(2024年9月5日)公布了其最新的私人注册供应商财务健康状况季度调查结果。本报告涵盖2024年4月1日至6月30日期间。供应商继续在维修和维护方面投入大量资金，本季度支出21亿英镑。他们预计在接下来的12个月里将再花费93亿英镑(高于去

admin
2025年07月20日
10
科技世界

苏格兰首席营销官告诉同事“在每天结束时”删除信息

苏格兰首席医疗官告诉同事在疫情期间“每天结束时”删除WhatsApp消息。关于高级决策者及其顾问在处理Covid-19期间保留非正式信息的政治风暴愈演愈烈，格雷戈尔·史密斯教授的言论加剧了这一风暴。前首席大臣尼古拉·斯特金(NicolaSturg

admin
2025年07月22日
12
生活经验

玩家实测“麻将机透明挂卡怎么办啊”原来确实有挂

麻将机透明挂卡怎么办啊是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单，打开这个应用便可以自定义手机打牌系统规律，只需要输入自己想要的开挂功能，一键便可以生成

admin
2025年07月27日
11
常识科普

揭秘科普“微信麻将开挂教程”分享装挂详细步骤

微信麻将开挂教程是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单，打开这个应用便可以自定义手机打牌系统规律，只需要输入自己想要的开挂功能，一键便可以生成出手机

admin
2025年07月28日
16
知识分享

重大来袭“雀神广东麻将有挂是真的吗”教你开挂详细

雀神广东麻将有挂是真的吗是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单，打开这个应用便可以自定义手机打牌系统规律，只需要输入自己想要的开挂功能，一键便可以生

admin
2025年08月01日
3
科技世界

教程解析“跑胡子能开挂吗知乎”其实真的确实有挂

跑胡子能开挂吗知乎是一款可以让一直输的玩家，快速成为一个“必胜”的ai辅助神器，有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单，打开这个应用便可以自定义手机打牌系统规律，只需要输入自己想要的开挂功能，一键便可以生成出手

admin
2025年08月01日
4
知识分享

因“保姆国家”政策，酒吧将提前关门以应对饮酒危害

在“保姆国家”措施下，酒吧将被迫提前关门，以解决有害饮酒问题。公共卫生部长安德鲁·格温表示，政府正在考虑“缩短酒吧的营业时间”。此举旨在解决反社会行为，促进健康。在利物浦举行的工党会议上，格温先生说，政府首席医疗官克里斯·惠蒂教授告诉部

admin
2025年08月02日
6
百科栏目

90年代体育传奇的儿子在新闻发布会上发表惊人言论，面临法律诉讼

在一场戏剧性的新闻发布会上，拳击推广人弗兰克·沃伦多次称他为“人渣”，他发誓要采取法律行动。周三，在伦敦的新闻发布会上，小尤班克与他的下一个对手卡米尔·斯泽莱梅塔面对面。这位35岁的球员谈到了他在与塞雷梅塔的比赛中大获全胜的机会，同时也对拳击推广人

admin
2025年08月03日
2

发表回复

本站作者后才能评论

评论列表（4条）

admin 2025年06月19日

我是xfqse号的签约作者“admin”！

回复
admin 2025年06月19日

希望本篇文章《预部署AI模型可靠性评估》能对你有所帮助！

回复
admin 2025年06月19日

本站[xfqse号]内容主要涵盖：国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

回复
admin 2025年06月19日

本文概览：基础模型是大量的深度学习模型，这些模型已经在大量通用的、未标记的数据上进行了预训练。它们可以应用于各种任务，比如生成图像或回答客户问题。但是，作...

回复

预部署AI模型可靠性评估

本文作者

文章推荐

发表回复

评论列表（4条）

联系我们