大型語言模型如何運作?用白話解釋GPT與Claude的原理
你每天都在跟大型語言模型(LLM)對話——不管是ChatGPT、Claude還是Gemini。但你有想過,它們到底是怎麼「想」出那些回答的嗎?
一切從「預測下一個字」開始
LLM的核心任務其實簡單得令人意外:給定前面的文字,預測下一個最可能出現的字。就這樣。
當你問「台灣最高的山是__」,模型不是去「查資料」,而是根據訓練時看過的無數文本,計算出「玉山」出現在這個位置的概率最高。
Transformer架構:革命性的「注意力」機制
2017年Google發表了一篇論文《Attention Is All You Need》,提出了Transformer架構,徹底改變了NLP領域。它的核心概念是注意力機制(Attention)——讓模型在處理每個字時,能「關注」句子中所有其他字的關聯。
舉例來說,在「他把蘋果放在桌上,然後吃了它」這句話中,「它」指的是蘋果還是桌子?注意力機制讓模型計算「它」和句中每個詞的關聯強度,從而正確判斷「它」指的是「蘋果」。
訓練過程:三個階段
1. 預訓練(Pre-training):用網路上的海量文本(數兆個token)訓練模型預測下一個字。這個階段讓模型學會語法、知識、邏輯推理等基礎能力。
2. 微調(Fine-tuning):用人工標注的對話數據,教模型以「助手」的身份回答問題,而不是只會接龍。
3. RLHF(人類回饋強化學習):人類評估模型的多個回答,標記哪個更好。模型學習這些偏好,逐漸產出更有幫助、更安全的回覆。
我的見解
很多人以為LLM有一個「資料庫」在查詢,其實沒有。所有的「知識」都編碼在神經網路的數十億個參數中。這就是為什麼AI會「幻覺」——它不是在查錯資料,而是在做機率推斷時走偏了方向。
理解這一點很重要:LLM不是搜尋引擎,不是資料庫,它是一個語言的機率模型。它的強項是理解和生成語言,而不是儲存和檢索事實。