大型語言模型如何運作？用白話解釋GPT與Claude的原理

你每天都在跟大型語言模型（LLM）對話——不管是ChatGPT、Claude還是Gemini。但你有想過，它們到底是怎麼「想」出那些回答的嗎？

一切從「預測下一個字」開始

LLM的核心任務其實簡單得令人意外：給定前面的文字，預測下一個最可能出現的字。就這樣。

當你問「台灣最高的山是＿＿」，模型不是去「查資料」，而是根據訓練時看過的無數文本，計算出「玉山」出現在這個位置的概率最高。

2017年Google發表了一篇論文《Attention Is All You Need》，提出了Transformer架構，徹底改變了NLP領域。它的核心概念是注意力機制（Attention）——讓模型在處理每個字時，能「關注」句子中所有其他字的關聯。

舉例來說，在「他把蘋果放在桌上，然後吃了它」這句話中，「它」指的是蘋果還是桌子？注意力機制讓模型計算「它」和句中每個詞的關聯強度，從而正確判斷「它」指的是「蘋果」。

1. 預訓練（Pre-training）：用網路上的海量文本（數兆個token）訓練模型預測下一個字。這個階段讓模型學會語法、知識、邏輯推理等基礎能力。

2. 微調（Fine-tuning）：用人工標注的對話數據，教模型以「助手」的身份回答問題，而不是只會接龍。

3. RLHF（人類回饋強化學習）：人類評估模型的多個回答，標記哪個更好。模型學習這些偏好，逐漸產出更有幫助、更安全的回覆。

很多人以為LLM有一個「資料庫」在查詢，其實沒有。所有的「知識」都編碼在神經網路的數十億個參數中。這就是為什麼AI會「幻覺」——它不是在查錯資料，而是在做機率推斷時走偏了方向。

理解這一點很重要：LLM不是搜尋引擎，不是資料庫，它是一個語言的機率模型。它的強項是理解和生成語言，而不是儲存和檢索事實。