用 Ollama 執行 GGUF#
有 GGUF 檔以後,用 Ollama 執行它很簡單
在 GGUF 檔同個目錄,加一個檔案 Modelfile,裡面寫
FROM ./模型檔名.gguf
$ ollama create <你想要的模型名字> -f Modelfile
就這樣
Ollama 會把你的 gguf 檔案以他自己的架構放在 ~/.ollama/models/,也就是上一篇說過 Ollama 放模型的地方
如果你真的確定不需要原本的 gguf 檔的話,刪掉也是可以的
如果因為一些理由,你要把同個 gguf 檔包裝成多種不同模型的話,那些 tensor 權重內容在 ~/.ollama/models/blobs/ 只會有一份:ollama 的模型有一點 docker cache 的味道
之後就可以用 ollama run <你想要的模型名字> 或 ollama serve, 總之等同於 Ollama 看得懂的模型了
https://huggingface.co/docs/huggingface_hub/en/guides/cli#huggingface-cli-login