这篇文章距离上次修改已过743天，其中的内容可能已经有所变动。

E. Li, L. Zeng, Z. Zhou, and X. Chen, “Edge AI: On-Demand Accelerating Deep Neural Network Inference via Edge Computing,” IEEE Trans. Wireless Commun., vol. 19, no. 1, pp. 447–457, Jan. 2020, doi: 10.1109/TWC.2019.2946140.

1.1 背景

深度神经网络(DNN)是支持移动智能应用的关键技术，但在移动设备上运行DNN存在计算资源有限的挑战。传统的云计算辅助的DNN推理存在明显的延迟问题。边缘计算作为一种新兴的计算模式，可以用于支持实时的DNN推理。

1.2 要解决的问题

网络环境多变，如何针对不同的网络带宽条件优化DNN的推理性能和时延？如何在满足预定义的时延要求下，最大化DNN的推理精度?

1.3 现有方法的缺点

仅使用设备端或边缘服务器端计算DNN都存在明显的性能缺陷。仅使用模型分割或模型压缩也无法同时兼顾精度和时延。

1.4 文章的主要贡献

提出Edgent框架，通过设备端和边缘端协同进行DNN推理，并创新性地联合优化模型分割和模型压缩以在满足预定义时延要求的前提下最大化精度。
针对静态和动态网络环境进行了专门设计，分别使用回归模型预测和带宽状态检测进行在线优化，生成适当的分区点和退出点。
实现了原型系统，实验结果验证了Edgent的有效性。

1.5 个人思考

本文有机结合模型分割和提前退出机制，起到了一加一大于二的效果。
可以考虑引入知识蒸馏和量化等模型压缩方法，进一步减小模型大小。
最近看的文章中，共计两篇都是优化边缘推理的，涉及模型拆分和基于模型压缩等优化方法。针对边缘推理优化的文章似乎比较热门。

阅读笔记 | Edge AI: On-Demand Accelerating Deep Neural Network Inference via Edge Computing