破解打开黑盒自动机器学习印刷版材
闽机机械网 2022-09-09 16:04:09
破解打开黑盒自动机器学习
麻省理工学院和其他地方的研究人员开发了一种交互式工具,这是第一次让用户查看和控制自动化机器学习系统的工作方式。目的是建立对这些系统的信心,并找到改进它们的方法。
为特定任务设计机器学习模型 - 例如图像分类,疾病诊断和股市预测 - 是一个艰巨而耗时的过程中国机械网okmao.com。专家们首先从许多不同的算法中进行选择,以构建模型。然后,他们在模型开始训练之前手动调整“超参数” - 确定模型的整体结构。
最近开发的自动机器学习(AutoML)系统迭代地测试和修改算法和那些超参数,并选择最适合的模型。但系统作为“ 黑匣子 ” 运行,这意味着他们的选择技术对用户是隐藏的。因此,用户可能不信任结果,并且发现很难根据他们的搜索需求定制系统。
在ACM CHI计算系统人为因素会议上发表的论文中,麻省理工学院,香港科技大学(HKUST)和浙江大学的研究人员描述了一种工具,将AutoML方法的分析和控制纳入用户手中。该工具称为ATMSeer,它将AutoML系统,数据集和有关用户任务的一些信息作为输入。然后,它在用户友好的界面中可视化搜索过程,该界面提供有关模型性能的深入信息。
“我们让用户选择并观察AutoML系统是如何工作的,”共同作者Kalyan Veeramachaneni说道,他是麻省理工学院信息与决策系统实验室(LIDS)的首席研究科学家,负责将数据引入AI小组。“您可能只是选择性能最佳的模型,或者您可能有其他考虑因素或使用领域专业知识来指导系统搜索某些模型而不是其他模型。”
在 与科学研究生(AutoML新手)的案例研究中,研究人员发现大约85%使用ATMSeer的参与者对系统选择的模型充满信心。几乎所有参与者都说使用该工具使他们在将来使用AutoML系统足够舒适。
“我们发现人们更有可能使用AutoML作为打开黑匣子以及查看和控制系统运行方式的结果,”电子工程和计算机科学系(EECS)研究生Micah Smith说道。 LIDS的研究员。
该工具ATMSeer生成一个用户友好的界面,可以显示有关所选模型性能的深入信息,以及可以调整的算法和参数的选择。图片来源:麻省理工学院
“数据可视化是实现人与机器之间更好协作的有效方法.ATMSeer体现了这一理念,”香港科技大学的主要作者王倩雯说。“ATMSeer将主要使机器学习从业者受益,无论他们的领域,[谁]具有一定的专业水平。它可以减轻手动选择机器学习算法和调整超参数的痛苦。”
加入史密斯,Veeramachaneni和王的论文是:姚明,沉乔木,刘东宇和华民曲,全部是科大的; 与浙江大学的志华。
调整模型
新工具的核心是定制的AutoML系统,称为“自动调整模型”(ATM),由Veeramachaneni和其他研究人员在2017年开发。与传统的AutoML系统不同,ATM在尝试拟合模型时对所有搜索结果进行完整编目数据。
ATM将任何数据集和编码预测任务作为输入。系统随机选择算法类 - 例如神经网络,决策树,随机森林和逻辑回归 - 以及模型的超参数,例如决策树的大小或神经网络层的数量。
然后,系统针对数据集运行模型,迭代地调整超参数,并测量性能。它使用了解该模型的性能来选择另一个模型,等等。最后,系统为任务输出几个表现最佳的模型。
诀窍在于每个模型基本上可以被视为具有一些变量的一个数据点:算法,超参数和性能。在这项工作的基础上,研究人员设计了一个系统,在指定的图形和图表上绘制数据点和变量。从那时起,他们开发了一种独立的技术,可以让他们实时重新配置数据。“诀窍在于,使用这些工具,你可以想象的任何东西,你也可以修改,”史密斯说。
类似的可视化工具专门用于分析一种特定的 机器学习模型,并允许有限的搜索空间定制。“因此,他们为AutoML流程提供有限的支持,其中需要分析许多搜索模型的配置,”Wang说。“相比之下,ATMSeer支持分析使用各种算法生成的机器学习模型。”
用户控制和信心
ATMSeer的界面由三部分组成。控制面板允许用户上传数据集和AutoML系统,并启动或暂停搜索过程。下面是一个概览面板,显示基本统计数据 - 例如搜索的算法和超参数的数量 - 以及按降序排列的最佳表现模型的“排行榜”。Veeramachaneni说:“如果你不是潜入细节的专家,这可能是你最感兴趣的观点。”
ATMSeer包含一个“AutoML Profiler”,其中的面板包含有关算法和超参数的深入信息,这些信息都可以进行调整。一个面板将所有算法类别表示为直方图 - 一个条形图,显示算法性能分数的分布,范围为0到10,具体取决于它们的超参数。一个单独的面板显示散点图,可以显示不同超参数和算法类的性能折衷。
对没有AutoML经验的机器学习专家进行的案例研究表明,用户控制确实有助于提高AutoML选择的性能和效率。与13位研究生在生物学和金融等不同科学领域的用户研究也显示出来。结果表明三个主要因素 - 搜索的算法数量, 系统 运行时间以及查找表现最佳的 模型 - 确定用户如何自定义其AutoML搜索。研究人员说,这些信息可以用来为用户量身定制系统。
“我们刚刚开始看到人们使用这些系统并做出选择的不同方式的开始,”Veeramachaneni说。“那是因为现在这些信息都集中在一个地方,人们可以看到幕后发生的事情,并有能力控制它。”
- 满足不同配混需求的双螺杆挤出机汽车前桥电感器钎料继电器配电柜Rra
- 耐高温和高压的塑料花鸟鱼虫常熟烤禽炉无水洗车汽车头枕Rra
- 泉州968812供水客服热线可同时满足6网页制作金华男士手包连裤袜电话插头Rra
- 近年全球塑料包装行业合并收购动作频频烘烤炉录音电话室内光缆阻燃电缆婚宴酒店Rra
- 2017中国客户体验创新大会廖黛丽致辞监控系统女士睡衣广告牌共享器汽油罐Rra
- 防火安全管理规定奎屯拷贝纸复合印刷收缩膜绝缘片Rra
- 自愈橡胶为汽车轮胎防爆带来福音装载机械纯水设备平板玻璃塑料喷嘴焊炬Rra
- 海南浓缩胶乳包装呼吁标准化除草剂杭州雪糕机准系统鞋乳Rra
- 薄膜取代纸品包装冰淇淋封面机株洲铸造设备纯银首饰逻辑ICRra
- 百台新型智能环保渣土车批量发往西双版纳0出入口机电子辞典进口果干压力计溜溜球Rra
- 厦工股份业绩强劲激增5倍股价节节攀升呼伦贝尔吸水机黄油机超百粉保温瓶Rra
- 沃尔沃帕特奥尼中国成沃尔沃建筑设备销售最销轴英制螺丝杂质泵被褥舞台服装Rra