JokerCatz GitHub - microsoft/BitNet: Official inference framew...等類似的東西好久了，說明很有趣，基本上純 CPU 每秒跑 5~7 個 token 然後 d - #3ggj2mq3i9

1 months ago @Edit 1 months ago

GitHub - microsoft/BitNet: Official inference framew...等類似的東西好久了，說明很有趣，基本上純 CPU 每秒跑 5~7 個 token 然後 demo 用 Apple M2 跑（主因是 x86 和 ARM 都支援），然後 M$ 的 repo 發表在 Hugging Face 上，真心充滿了各式衝突的元素（掩面）

JokerCatz

1 months ago @Edit 1 months ago

我一直認為 AI 訓練用 GPU 或專用設備就算了，但實際跑模型應該要更平民化些，這份應該算是個起點才是，等等來玩看看了

JokerCatz

1 months ago

token 很重要的，主因是每次 request 的記憶體有限，多次的 token 可以做出更豐富的應用，類似問了一個問題，給出了解答，在讓它自省解答是否正確，這是之前看過有人用的方式了

導出正解後，能把正解再度利用，類似給出每行該有的語氣語速還有表情之類的，還能修正得更口語化些，甚至同時出多國語言，輸出後就能配 Live2D 動作等等，一切都合理才是

JokerCatz

1 months ago

當然這是這時代硬體瓶頸的作法就是了 ... 嘛，之前看 GTP-4o 每次來回要用 4 個 token 的樣子，表示感覺合理

立即下載