用 Ollama 在本地跑 AI:Llama 3 安裝與使用完整教學

手把手教你用 Ollama 在自己的電腦上運行 Llama 3 等大型語言模型,包含安裝步驟、硬體需求、以及 API 整合方法。

電腦硬體與 AI 運算概念

為什麼要在本地跑 LLM?

使用 ChatGPT 或 Claude 很方便,但有些情況下本地運行更適合:

優勢說明
隱私資料完全不出門,適合處理敏感資訊
離線使用沒網路也能用
零延遲不用等 API 回應
無使用限制不用擔心 token 額度
可客製化能微調模型、調整參數

Ollama 是目前最簡單的本地 LLM 解決方案,幾個指令就能跑起來。


硬體需求

本地 LLM 很吃資源,先確認你的電腦夠不夠力:

最低配置(跑小模型)

組件需求
CPU現代四核心處理器
RAM16GB
GPU可選,但有會快很多
儲存20GB 可用空間

建議配置(跑中大型模型)

組件需求
CPUIntel i7 / AMD Ryzen 7 以上
RAM32GB
GPUNVIDIA RTX 3060 12GB 以上
儲存100GB+ SSD

模型大小參考

模型參數量RAM 需求適合硬體
Llama 3.2 1B1B4GB一般電腦
Llama 3.2 3B3B8GB一般電腦
Llama 3.1 8B8B16GB有獨顯的電腦
Llama 3.1 70B70B64GB+工作站等級

安裝步驟

Step 1:下載 Ollama

前往 ollama.com 下載對應系統的安裝檔:

  • Windows:下載 OllamaSetup.exe,雙擊安裝
  • macOS:下載後拖到 Applications
  • Linux:執行安裝腳本
# Linux 安裝指令
curl -fsSL https://ollama.com/install.sh | sh

Step 2:驗證安裝

打開終端機,輸入:

ollama --version

看到版本號就代表安裝成功。

Step 3:下載並運行模型

一個指令搞定:

ollama run llama3.2

第一次執行會自動下載模型(約 2-4GB),之後就會進入對話模式。

Step 4:開始對話

>>> 你好,請用繁體中文回答
你好!我是 Llama,有什麼我可以幫助你的嗎?

>>> 解釋什麼是遞迴
遞迴是一種程式設計技術,指的是函式在執行過程中呼叫自己...

輸入 /bye 退出對話。


常用指令

# 列出已安裝的模型
ollama list

# 下載模型(不進入對話)
ollama pull llama3.2

# 刪除模型
ollama rm llama3.2

# 查看模型資訊
ollama show llama3.2

# 啟動 API 伺服器
ollama serve

推薦模型

模型特色適合用途
llama3.2Meta 最新、平衡型一般對話、程式輔助
codellama程式碼專用寫 code、debug
mistral輕量高效資源有限的電腦
deepseek-r1推理能力強複雜問題分析
gemma2Google 開源多語言支援好

下載其他模型:

ollama run codellama
ollama run mistral
ollama run deepseek-r1

API 整合

Ollama 預設在 http://localhost:11434 提供 REST API,方便整合到其他應用。

使用 curl 測試

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "什麼是機器學習?",
  "stream": false
}'

Python 整合

import ollama

response = ollama.chat(
    model='llama3.2',
    messages=[{'role': 'user', 'content': '用一句話解釋 API'}]
)
print(response['message']['content'])

搭配其他工具

Ollama 的 API 相容 OpenAI 格式,可以直接替換:

  • LangChain
  • Continue(VS Code 外掛)
  • Open WebUI(網頁介面)

自訂模型(Modelfile)

你可以用 Modelfile 調整模型的行為,類似 Dockerfile 的概念:

# 建立一個繁中助手
FROM llama3.2

# 設定系統提示詞
SYSTEM 你是一個繁體中文助手,請用台灣用語回答所有問題。

# 調整參數
PARAMETER temperature 0.7
PARAMETER num_ctx 4096

建立並使用:

ollama create my-assistant -f Modelfile
ollama run my-assistant

常見問題 FAQ

Q1: 沒有顯卡可以跑嗎?

可以,但會慢很多。小模型(1B、3B)用 CPU 跑還算可以,8B 以上建議要有 GPU。

Q2: Mac 可以用嗎?

可以,Apple Silicon(M1/M2/M3)表現很好,Ollama 會自動利用 Metal 加速。

Q3: 跟 ChatGPT 比起來如何?

本地模型的能力通常比 GPT-4 弱,但比 GPT-3.5 好。優勢是隱私和無限使用。

Q4: 會很耗電嗎?

運行時確實比較耗資源,但只有在對話時才會高負載,閒置時影響很小。

Q5: 可以跑中文模型嗎?

可以,推薦 qwen2(阿里通義千問)或 yi(零一萬物),中文表現比 Llama 好。


參考資料


重點整理

  • Ollama 是最簡單的本地 LLM 方案,一個指令就能跑
  • 硬體門檻看模型大小:小模型一般電腦就能跑,大模型需要好顯卡
  • 主要優勢是隱私和無限使用,適合處理敏感資料
  • API 相容 OpenAI 格式,容易整合到現有工具
  • 推薦從 llama3.2 開始,之後可以試試 codellama 或 qwen2
Design Drifter
AI