从LLM中完全消除矩阵乘法,效果出奇得好,10亿参数跑在FPGA上接近大脑功耗實驗表明,該研究提出的 MatMul-free 模型達到了與最先進的 Transformer 相當的效能,後者在推理期間需要更多的記憶體,規模至少為 2.7B 引數。

此外,論文還研究了擴充套件定律,發現隨著模型規模的增加,MatMul-free 模型與全精度 Transformer 之間的效能差距逐漸縮小。

研究者還提供了一種高效的 GPU 模型實現方式,在訓練期間相比未優化的基線模型減少了多達 61% 的記憶體使用。通過在推理時利用優化的核心,模型記憶體消耗可以比未優化的模型減少超過 10 倍。

---用FPGA 來跑 GPU