DaveC - 从LLM中完全消除矩阵乘法，效果出奇得好，10亿参数跑在FPGA上接近大脑功耗實驗表明，該研究提出的 MatMul-free 模型達到了與最先進的 Transformer 相當的效能，後者在推理期間需要更多的記憶體，規模至少為 2.7B 引數。此外，論文還研究了擴充套件定律，發現隨著模型規模的增加，MatMul-free 模型與全精度 Transformer 之間的效能差距逐漸縮小。研究者還提供了一種高效的 GPU 模型實現方式，在訓練期間相比未優化的基線模型減少了多達 61% 的記憶體使用。通過在推理時利用優化的核心，模型記憶體消耗可以比未優化的模型減少超過 10 倍。---用FPGA 來跑 GPU

Jun 13, 2024 10:14PM

从LLM中完全消除矩阵乘法，效果出奇得好，10亿参数跑在FPGA上接近大脑功耗實驗表明，該研究提出的 MatMul-free 模型達到了與最先進的 Transformer 相當的效能，後者在推理期間需要更多的記憶體，規模至少為 2.7B 引數。

此外，論文還研究了擴充套件定律，發現隨著模型規模的增加，MatMul-free 模型與全精度 Transformer 之間的效能差距逐漸縮小。

研究者還提供了一種高效的 GPU 模型實現方式，在訓練期間相比未優化的基線模型減少了多達 61% 的記憶體使用。通過在推理時利用優化的核心，模型記憶體消耗可以比未優化的模型減少超過 10 倍。

---用FPGA 來跑 GPU