机器视觉(AOI)深度学习之简化学习
模型的规模,尤其是在 NLP 领域(深度学习研究的中心),正在大幅增长。最新的 GPT-3 模型有 1750 亿个参数。把它和 BERT 比较就像把木星和蚊子比较一样(并不夸张)。未来,深度学习的模型会更大吗?很可能不会。诚然,GPT-3 非常强大,但历史一再表明,“成功的科学”是那些对人类影响最大的科学。当学术偏离现实太远时,通常会淡出人们的视线。这就是神经网络在 20 世纪末期被短暂遗忘的原因,因为可用的数据太少了,以至于这个想法,无论多么巧妙,都是没用的。GPT-3 是另一种语言模型,它可以写出令人信服的文本。它的应用在哪里?是的,它可以生成查询的答案。不过,还有更高效的方法来实现这一点(例如,遍历一个知识图,并使用一个更小的模型如 BERT 来输出答案)。考虑到 计算能力的枯竭,GPT-3 的庞大规模(更不用说更大的模型)似乎是不可行的,或者是不必要的。“摩尔定律有点过时了。”——微软首席执行官 Satya Nadella相反,我们正在走向一个嵌入式人工智能的世界,智能冰箱可以自动订购食品杂货,无人机可以自行导航飞遍整个城市。强大的机器学习方法应该能够下载到个人电脑、手机和小型芯片上。这就需要轻量级人工智能:在保持性能的同时使神经网络更小。事实证明,在深度学习研究中,几乎所有的东西都与直接或间接地减少必要参数的数量有关,而这又与提高泛化能力和性能紧密相关。例如,卷积层的引入大大减少了神经网络处理图像所需的参数数量。递归层在使用相同权值的同时融入了时间的概念,使得神经网络能够以更少的参数更好地处理序列。嵌入层显式地将实体映射到具有物理意义的数值,这样负担就不会落在其他参数上。有一种解释说,Dropout 层在对输入的某些部分进行操作时会显式地屏蔽参数。L1/L2 正则化 确保网络利用了所有的参数,而且每个参数都不会太大,并最大化了每个参数的信息价值。随着专用层的建立,网络对更复杂、更大数据的要求越来越少。其他最新方法明确地寻求简化网络。神经网络剪枝 试图去除对网络输出没有价值的突触和神经元。通过剪枝,网络可以在去除大部分网络节点的情况下保持其性能。其他方法,如 Patient Knowledge Distillation,可以将大型语言模型压缩成可下载到用户手机上的形式。对于支撑谷歌翻译的 谷歌神经机器翻译(GNMT)系统 来说,这种考虑是有必要的,该系统需要创建一个能够离线访问的高性能翻译服务。本质上讲,简化学习以部署为中心进行设计。这就是为什么大多数关于简化学习的研究都来自于公司的研究部门。以部署为中心的设计不能盲目地遵循数据集上的性能指标,而要关注模型部署时的潜在问题。例如,前面提到的 对抗性输入 是设计用来欺骗网络的恶意输入。可以用喷漆或贴纸来欺骗自动驾驶汽车,使其远远超过限速。负责任的简化学习不仅是使模型足够轻量化,而且要确保它能够适应数据集中没有表示出的极端情况。在深度学习研究中,简化学习得到的关注最少,因为“我们成功地在可行的架构规模下实现了良好的性能”远不如“我们利用一个拥有无数参数的架构实现了最先进的性能”那么吸引人。不可避免地,当对更高百分比的追求消失时,正如创新的历史所显示的那样,简化学习——实际上就是实用的学习——将得到更多它应该得到的关注。
郑重声明:
1、部分内容来源于网络,本文版权归原作者所有,转载文章仅为传播更多信息之目的。
2、本文仅供学术交流,非商用。如果某部分不小心侵犯了大家的利益,请联系删除。