前言:從「人工智障」到「人工智慧」的奇點
回想幾年前,當你打電話給銀行語音客服或者試圖跟早期 Siri 聊天時,那種雞同鴨講的挫折感,時不時會聽到 Siri 說:「對不起,我聽不懂您的意思」。這句話,曾經是我們對 AI 的既定印象。到了 2022 年底,ChatGPT 橫空出世,世界彷彿在一夜之間變了。ChatGPT 不僅聽得懂你說的冷笑話,能幫你寫通識課的期末報告大綱,甚至還會寫寫程式或翻譯古希臘文。許多人都驚呼:「這東西,比我還像個人了吧!」陰謀論者則懷疑,ChatGPT 背後是不是雇用某中亞國家的大量勞動人力,AI 背後其實只是躲著一群過勞的工讀生在打字而已。
這個被稱為「大語言模型(Large Language Model,簡稱 LLM)」的技術,並不是魔法,而是數學、統計學與龐大算力堆疊出來的工程奇蹟。今天,我們不談複雜的微積分公式,而是用你生活中的日常情境,拆解這個數位大腦到底是如何運作的。
第一章:它其實只是一個「超級接龍高手」
要理解 LLM,我們得先打破一個迷思:它並沒有像人類一樣的「意識」或「靈魂」,它也不懂自己在說什麼。
1. 文字接龍的極致
想像你在玩「文字接龍」,如果我說:「床前明月」,你腦中會自動跳出什麼字? 99% 的人都會說:「光」。為什麼?因為在你的閱讀經驗裡,「光」接在「床前明月」後面的機率最高。大語言模型本質上就是在做這件事:預測下一個字。
2. 機率分佈:AI 的選字邏輯
當你拋出一個問題給 LLM 時,它並不是在「思考」,而是在計算機率。假設你輸入:「今天天氣真…」 模型會計算接下來出現各種字的機率:
- 「好」:40%
- 「熱」:30%
- 「糟」:20%
- 「棒」:10%
它會根據這些機率選擇一個最合理的字填上去,然後再把這個字加入前面的句子,繼續預測下一個字。就這樣一個字接一個字,最後串成一篇流暢的文章。所以,當你覺得 AI 很有「創意」時,其實是因為它在選擇下一個字時,偶爾不會選機率最高的那個(這在 AI 參數中稱為「溫度」),而是選了一個機率次高但更有趣的字,這就產生了意想不到的文采。
第二章:為什麼叫「大」?參數與資料的暴力美學
如果只是文字接龍,為什麼以前的 AI 做不到這麼好?關鍵在於 LLM 中的 “Large”(大)。
1. 參數量:模型的腦細胞
你可能聽過 GPT-4、Llama 3 有多少「參數」,例如 70B(代表有 700 億個參數)、175B(1,750 億),這些參數代表什麼意思呢?想像一位剛入學的大一新生,對於專門學科技術名詞的認識是一片空白。為了讓他能通過考試,你需要調整他的腦神經連結強度。
- 參數就像是神經元之間的連接點,或者是機器上可以調節的「旋鈕」
- 訓練就是不斷調整這幾千億個旋鈕的刻度,直到這個機器能針對任何輸入,都輸出正確的答案
早期的 AI 只有幾萬個旋鈕,能處理的任務相對簡單。現在的 LLM 擁有數千億個旋鈕,這讓它能捕捉到人類語言中極其細微的邏輯、情感和隱喻。
2. 訓練資料:吃掉整座圖書館
為了調整這些旋鈕,我們需要餵給它海量的資料。LLM 的閱讀量是驚人的,它已經讀過網路上幾乎所有的公開文本:維基百科、Reddit 論壇、幾百萬本書籍、論文、程式碼庫。情境比喻:想像你要把一個從沒看過書的外星人,訓練成地球通。你把他關在圖書館裡,強迫他讀完人類歷史上所有的書。雖然他可能不懂「愛」的生理反應,但他讀了幾萬本愛情小說後,他能比任何人都更精準地寫出肉麻的情書。這就是 LLM 的狀態:博學,但沒有體驗。
第三章:靈魂核心 Transformer 與注意力機制
在 2017 年之前,AI 閱讀長文章的能力很差。它讀到文章這頭,很容易就忘了開頭說什麼。直到 Google 發表一篇名為《Attention Is All You Need》的論文,提出了 Transformer 架構,才改變了一切。這是 LLM 最難懂但也最重要的技術概念,我試著用「雞尾酒會效應」來解釋。
1. 什麼是注意力機制
在一個吵雜的雞尾酒會中,雖然周圍充滿了噪音,但你可以專注地聽到你朋友說的話,並忽略背景雜音。當你朋友提到「那部電影」時,你會瞬間聯想到你們五分鐘前聊到的《奧本海默》,這就是注意力機制。
在 Transformer 出現之前,AI 讀句子是線性的:「小明把香蕉皮丟在地上,… (中間參雜 5,000 個文字) …,結果小華踩到它滑倒了。」舊的 AI 讀到最後的「它」時,可能已經忘記前面的「香蕉皮」。 但 Transformer 具有「注意力」,當它處理「它」這個字時,它會回頭去掃描整句話,並算出「它」與「香蕉皮」的關聯性最高,而不是「小明」或「地上」。
2. 平行處理的能力
以前的 AI 像是一個字一個字讀書的學生,速度慢且容易忘。Transformer 架構下的 LLM,像是一個速讀天才,它可以同時看到整篇文章的所有字,並瞬間建立字與字之間複雜的關聯網。這讓 AI 能夠理解長篇大論,並且在寫作時保持邏輯連貫。
第四章:AI 的求學三部曲,它是如何被訓練出來的
一個 LLM 從出生到能跟你聊天,需要經歷三個階段。
第一階段:預訓練 (Pre-training) 通識教育
這是最花錢、最花時間的階段。
- 目標: 讓 AI 學會「說人話」和「具備世界知識」。
- 方法: 讓 AI 做大量的「克漏字測驗」,把一句話挖空幾個字,讓 AI 猜,猜錯了就調整參數。
- 結果: AI 讀完整個網際網路,變成「懂很多的瘋子」。這時候的 AI 雖然知識淵博,但你問它:「如何製作炸彈?」它會興高采烈地給你詳細教學,完全沒有道德觀念;或者你問它「你好」,它可能會接著說「你好嗎?我很好,今天天氣…」開始自言自語,而不是回答你。
它學會了機率,但還不懂人類的對話模式。
第二階段:監督式微調 (Supervised Fine-Tuning) 專業必修
為了讓這個「懂很多的瘋子」變成「有用的助理」,我們需要教它規矩。
- 目標: 讓 AI 學會「一問一答」的指令跟隨模式。
- 方法: 人類寫好成千上萬個高品質的「問題 + 正確答案」範例,餵給 AI 看。
- 問:「請幫我寫一封求職信。」
- 答:「好的,這是範本…」
- 結果: AI 學會當你提出請求時,它應該要提供協助,而不是接著寫小說,它順利地從「瘋子」變成一名夠格的「實習生」。
第三階段:人類回饋強化學習
這是讓 ChatGPT 如此好用的關鍵祕技。
- 目標: 讓 AI 的回答符合人類的價值觀(有用、誠實、無害)。
- 方法:
- AI 針對同一個問題生成三個不同的回答。
- 人類標註員來評分:「回答 A 有禮貌,回答 B 有種族歧視,回答 C 是廢話。」
- 訓練一個「獎勵模型」來模仿人類老師的評分標準。
- 用這個獎勵模型去處罰或獎勵 AI。
- 結果: AI 學會了看臉色,它知道不能教人做壞事,說話要客氣,遇到不懂的要婉轉拒絕,它終於變成了「彬彬有禮的高級助理」。
第五章:一本正經地胡說八道,關於「幻覺」
你有沒有遇過一種同學,考試時遇到不會的申論題,因為不想留白,就開始瞎掰,而且寫得頭頭是道、字跡工整,連老師看了都差點信了?這在 AI 領域稱為「幻覺(Hallucination)」。
為什麼會產生幻覺
還記得第一章說的嗎?LLM 的本質是「文字接龍」和「機率預測」,它並不是在「查資料庫」,而是在「生成文字」。當你問它一個它沒看過的冷門知識,例如:請介紹台灣 2026 年的大學入學制度,它的神經網路裡找不到確切的連結,但它為了完成「接龍」的任務,就會根據機率拼湊出看起來很像真的句子。
它不是在說謊,因為它沒有欺騙的意圖;它只是在做夢。
日常生活警示: 如果你用 ChatGPT 寫作業,可能曾經叫它「找文獻引用」。你千萬要檢查這些引用來源的真實性與正確性,因為,它可能會捏造出看起來超像真的論文標題、作者、甚至期刊名,但這些論文根本不存在。
第六章:Token 是 AI 的計價單位
在使用 API 或付費版 AI 時,你會常聽到「Token」這個詞。 Token 是 LLM 處理文字的最小單位,它不完全等於一個字(Word)或一個字元(Character)。
- 英文: 1 個 Token 大約是 0.75 個單字,例如 “Hamburger” 可能是一個 Token,但複雜的字可能被切成 “Ham-bur-ger”。
- 中文: 1 個中文字通常對應 1 到 2 個 Token(取決於模型的編碼表)。
情境比喻: 如果 LLM 是計程車司機,Token 就是它的跳表單位。它不是算字數,而是算它用了多少 Token 數。當你丟一篇長論文給它讀時,要小心 Context Window(上下文視窗)的限制,也就是它的「短期記憶」容量。一旦超過 Token 上限,它就會像金魚一樣忘記最前面的內容。
第七章:未來的挑戰與你們的機會
了解了 LLM 的原理後,你該如何面對這個技術?
1. 它不是搜尋引擎
Google 搜尋是幫你找「真實存在的既有網頁」;LLM 是幫你「生成全新的內容」。 如果你需要 100% 正確的資訊(如法規、歷史年分),請 Google 它。假如你需要創意、整理、摘要、翻譯、寫程式,請找 LLM。
2. 提示工程(Prompt Engineering)是新的必修課
既然 LLM 是透過「注意力機制」和「機率」運作的,你給的指令(Prompt)越精確,它就能越好地鎖定相關的知識。
- 壞指令: 「幫我寫報告。」
- 好指令: 「你是一位資深的行銷系教授(設定角色),請針對 Z 世代的消費習慣(限定主題),寫一篇 1000 字的分析報告(限定格式),語氣要專業且引用具體數據(設定風格)。」
這就像是對待一個很有才華但需要明確指令的工讀生。
3. 批判性思維比以往更重要
AI 可以幫你產出 90% 的內容,但剩下的 10% (驗證真偽、判斷價值、注入人性溫暖),是它做不到的。在 AI 時代,「問對問題」的能力,比「回答問題」的能力更有價值。
結語:站在巨人的肩膀上
大語言模型是人類科技史上的里程碑,它既不是毀滅人類的魔鬼,也不是全知全能的神。它是一面鏡子,反射出人類集體智慧的總和。建議你不要抗拒它,也不要盲目依賴它,但是努力地去理解它的原理 (那數千億個參數是如何流動?注意力機制是如何聚焦?)。
當你理解它是如何運作的,你就不會被它取代,而是能夠駕馭它,讓這位數位時代最強大的助手,成為你探索未來的噴射引擎。下次,當你打開 ChatGPT 時,試著對它說聲謝謝,雖然它沒有感情,但這背後代表無數科學家與工程師對「智慧」的極致追求。
Leave a Reply