阅读笔记|Random sketch learning for deep neural networks in edge computing
warning: 这篇文章距离上次修改已过469天,其中的内容可能已经有所变动。
info: B. Li et al., “Random sketch learning for deep neural networks in edge computing,” Nat Comput Sci, vol. 1, no. 3, pp. 221–228, Mar. 2021, doi: 10.1038/s43588-021-00039-6.
1.1 背景
深度神经网络对计算和存储资源需求巨大,这给它们在边缘设备上的部署带来困难。最近,轻量级深度学习受到了极大关注,其目的是通过网络剪枝、低秩近似(LRA)、权重量化和网络架构转换(NAT)等压缩大型DNN模型。有工作基于矩阵逼近理论近似相对更低秩和稀疏的DNN模型的权重矩阵,从而得到一个轻量的紧凑模型。
1.2 待解决问题
- 如何打破当前模型压缩的极限,最大程度减少存储和计算需求?
- 如何在无需预训练的情况下直接学习紧凑模型,使其适用于边缘设备的联合学习?
1.3 现有方法的缺点
- 大多数轻量级深度学习方法遵循高维预训练后压缩框架,压缩比受限于预训练模型。
- 最新的剪枝方法如LTH和SNIP训练复杂度较高。
- 对权重矩阵的低秩分解仍然需要预训练,然而预训练和微调计算成本高,不适合边缘设备。
1.4 文章的主要贡献
- 提出随机草图学习(Rosler)框架,直接学习紧凑模型,无需预训练和后压缩。
- 设计近似秩约束反向传播(aRes-BP)算法,实现对MLP和CNN等基础模型的通用的,无需预训练的在线训练。
- 通过蝶形网络结构(BUFF)展开,使用多个草图层表示每个大层,显著降低模型复杂度。
- 与全连接DNN相比,Rosler大幅减小模型大小(减小50-90倍),加速计算(180倍),降低能耗(10倍),适用于边缘设备。
- 在多个数据集上验证了Rosler的有效性。
1.5 个人思考
- 本文的方案与之前阅读的有很大不同,aRes-BP算法允许直接在训练阶段花费更少的资源学习一个更轻量的草图模型,使得初步阶段的训练可以直接在边缘进行,原始数据直接在边缘进行训练而无需上传云端,解决隐私问题的同时减少了数据通信量。
- 不同压缩方法的结合:本文除了在模型权重矩阵进行了压缩,还提到了对于神经网络架构的变换(NAT),即展开原来的L层肥胖DNN为3L层细长DNN(BUFF展开)。这样的趋势提示,在模型压缩任务中,不仅可以在单种模型压缩方法上进行研究改进和探索,还可以多种方法结合来实现更优的压缩效