JokerCatz
1 months ago @Edit 1 months ago
GitHub - microsoft/BitNet: Official inference framew...等類似的東西好久了,說明很有趣,基本上純 CPU 每秒跑 5~7 個 token 然後 demo 用 Apple M2 跑(主因是 x86 和 ARM 都支援),然後 M$ 的 repo 發表在 Hugging Face 上,真心充滿了各式衝突的元素(掩面)
JokerCatz
1 months ago @Edit 1 months ago
我一直認為 AI 訓練用 GPU 或專用設備就算了,但實際跑模型應該要更平民化些,這份應該算是個起點才是,等等來玩看看了
JokerCatz
1 months ago
token 很重要的,主因是每次 request 的記憶體有限,多次的 token 可以做出更豐富的應用,類似問了一個問題,給出了解答,在讓它自省解答是否正確,這是之前看過有人用的方式了

導出正解後,能把正解再度利用,類似給出每行該有的語氣語速還有表情之類的,還能修正得更口語化些,甚至同時出多國語言,輸出後就能配 Live2D 動作等等,一切都合理才是
JokerCatz
1 months ago
當然這是這時代硬體瓶頸的作法就是了 ... 嘛,之前看 GTP-4o 每次來回要用 4 個 token 的樣子,表示感覺合理
立即下載