Category: Generative AI

  • AI 的原子論:解密大語言模型背後的最小單位 Token

    前言:電腦看不懂「中文」,它只看得懂「數字」

    當你打開 ChatGPT 輸入「請幫我寫一份期末報告大綱」,然後看著螢幕上游標閃爍,一行行流暢的中文像流水一樣湧出來時,你是否曾經好奇過:這個 AI 到底是用什麼單位在閱讀和思考的?

    是「字」嗎?像是「期」、「末」、「報」、「告」?

    還是「詞」?像是「期末」、「報告」?

    或者是整句「句子」?

    如果你的答案是以上皆是,那只答對了一半。在我們的眼中,語言是由字、詞、句組成的;但大語言模型把語言粉碎成一種更小且更抽象的單位,稱之為 Token。將語言轉換成這些單位的過程,就叫做 Tokenization

    把文字 Token 化的技術決定一款 AI 聰不聰明、反應快不快,甚至決定你使用 AI 時要付多少錢。今天,我們就把這個 AI 領域的「原子論」拆解開來,用你熟悉的日常情境,搞懂這個支撐起生成式 AI 浪潮的基石。

    第一章:Token 是 AI 世界的樂高積木

    在大語言模型眼中,Token 是處理文字的最小單位。它不一定是一個完整的單字,也不一定是一個字母。它更像是一個「有意義的碎片」。AI 就是靠著堆疊這些 Token 積木,蓋出「期末報告」這座城堡的。

    Token 的切分方式在不同語言下差異巨大,這也是大家最容易搞混的地方。

    英文世界

    • 通常一個英文單字(Word)會對應到 1 個 Token,例如:”apple” ≈ 1 Token
    • 複雜的長單字會被切開,例如:”Tokenization” 可能會被切成 “Token” + “ization”(2 個 Tokens)

    中文世界

    • 早期模型(如 GPT-3)中,一個中文字通常對應 2 到 3 個 Tokens(因為編碼比較複雜)
    • 近期模型(如 GPT-4),一個常用中文字(如「你」、「我」、「愛」)通常就是 1 個 Token。如果是生僻字或成語,可能還是會佔用多個 Tokens

    簡單的換算公式(粗略估計):

    • 英文: 1,000 Tokens $\approx$ 750 個單字
    • 中文: 1,000 Tokens $\approx$ 400 ~ 700 個中文字(視模型而定)

    第二章:Tokenization

    了解 Token 是積木,那 Tokenization 是什麼?簡單說,就是「把人類寫的文字,切碎並轉換成電腦看得懂的數字 ID」的過程。電腦是看不懂 Hello 這個字的,它只認識 0 和 1。所以,我們需要一個翻譯官。

    1. 運作流程三部曲

    Token 化過程可以簡化為三個步驟

    步驟一、切分 (Splitting)

    輸入句子:「I love AI」

    Tokenization 切分後變成:[“I”, ” love”, ” AI”](注意:空格通常也會被包含在 Token 裡)。

    步驟二、查表 (Mapping / Lookup)

    模型有一本巨大的字典,列出所有它認識的 Token 以及對應 ID,舉例

    • “I” 代表 ID: 40
    • ” love” 代表 ID: 3021
    • ” AI” 代表 ID: 15890

    步驟三、輸入模型

    最後,送進 AI 大腦的不是文字,而是這串數字:[40, 3021, 15890]。

    第三章:切分技術的演進,為什麼不是切字母就好

    你可能會問:「為什麼不乾脆把每個字母(a, b, c…)都當成一個 Token?這樣字典只要 26 個字,豈不是超省空間?」這牽涉到 Tokenization 技術的三種流派演進,讓我們看看為什麼現在的 LLM 選擇了「折衷方案」。

    流派一:Character-level

    把 “Apple” 切成 [‘A’, ‘p’, ‘p’, ‘l’, ‘e’]。

    • 優點:字典超小,絕對不會有不認識的字
    • 缺點:沒有意義,’p’ 本身沒有意義,要拼在一起才有,但是拼湊起來的序列會變得超級長。讓 AI 讀一本書,如果每個字母都是一個 Token,它的記憶體瞬間就會爆掉
    • 比喻: 就像讀書時,必須把每個單字拼出來唸:A-P-P-L-E,效率極低

    流派二:Word-level

    把 “Apple” 切成 [‘Apple’]。

    • 優點:每個 Token 都有完整語意,AI 很好理解
    • 缺點:字典會大到爆炸,英文有幾十萬個單字,還有各種變形(walk, walking, walked, walks)。如果遇到字典裡沒有的字,AI 就會顯示 [UNK](Unknown),直接當機或變笨
    • 比喻:就像你背了一本厚厚的英漢字典,但只要考試出了一個字典沒收錄的潮語(例如「普信男」),你就完全看不懂了

    流派三:Subword-level

    這是目前 LLM的主流技術,它的核心精神是:「常見的字不切,少見的字切開」,這是一種叫做 BPE (Byte Pair Encoding) 的演算法。它保留常見單字的完整性(效率高),又保留把生字拆解成字根字首的能力(靈活性高,不會有不認識的字)。如果遇到超級生僻的字(例如亂碼),它大不了就退化成 Character-level,一個字母一個字母切,保證讀得懂。

    第四章:Token 與成本,中文使用者比較吃虧

    這是一個身為台灣使用者必須知道的殘酷現實:Token 是 AI 的計價貨幣。當你使用 OpenAI 的 API,或是某些付費 AI 服務時,計費標準通常是「每消耗 1,000 Tokens 多少錢」。

    1. 編碼效率的不平等

    目前 BPE 演算法大多是根據大量英文內容訓練而成的,所以 Tokenizer 對英文特別「友善」。

    • The quick brown fox > 4 個單字 > 4 Tokens
    • 這隻敏捷的棕色狐狸 > 9 個字 > 可能高達 6~8 Tokens

    這意味著,表達同樣的意思,中文往往需要消耗更多 Tokens。這導致

    1. 使用中文的成本比較高:處理同樣的任務,中文使用者的 API 帳單可能會比英文使用者貴一倍
    2. 比較慢:生成 1000 個 Tokens 比生成 500 個 Tokens 花更多時間,所以你會覺得 AI 講中文稍微慢一點
    3. 比較佔記憶體:同樣長度的上下文視窗,英文可以塞比較多內容,中文能塞的內容較少

    好消息是新一代的模型正在優化這一點,讓中文字的 Token 壓縮率越來越好。

    第五章:AI 的短期記憶體 Context Window

    了解 Token 後,我們就能解釋另一個關鍵參數:Context Window(上下文視窗)。你會看到模型規格寫著:Context Window = 8k, 32k, 128k Tokens。

    1. 什麼是 Context Window

    這是 AI 在「這一次對話中」能記住的 Token 總量上限,它包含(你現在輸入的 Prompt)+(AI 剛剛生成的回答)+(前面幾輪的對話歷史)

    2. 生活情境:考前衝刺的腦容量

    想像你是一個要考期末考的學生,你的大腦容量有限,只能同時記住 4,000 個字。

    • 如果課本只有 1,000 字: 沒問題,你可以全部記住,考試對答如流
    • 如果課本有 10,000 字: 慘了,你記了後面,前面的就忘記了。這就是為什麼當你跟 ChatGPT 聊太久,它會忘記你一開始設定的規則,因為那個設定已經被擠出 Context Window 之外了

    現在最新的模型支援 128k 甚至 1M Tokens,就像是從金魚腦進化成過目不忘的天才,可以直接把整本《哈利波特》丟進去讓它讀,它都不會忘記

    第六章:AI 如何思考

    最後,我們要回到 LLM 的運作核心。了解 Token 之後,你就會明白為什麼 AI 有時候會一本正經地胡說八道(幻覺)。

    1. 也是一種接龍遊戲

    大語言模型的本質,就是一個預測下一個 Token 機率的機器。當你輸入 [“今”, “天”, “天”, “氣”] 這些 Tokens 給模型,模型內部會進行龐大的矩陣運算,最後輸出一組機率表,預測下一個 Token 是什麼:

    • Token ID 56 (真):機率 70%
    • Token ID 88 (很):機率 20%
    • Token ID 99 (不):機率 10%

    如果 AI 選擇了「真」(ID 56),它會把這個 Token 加回句子裡,變成 [“今”, “天”, “天”, “氣”, “真”],然後再預測下一個字(可能是「好」),這就是所謂的 Autoregressive(自回歸) 生成。

    2. 為什麼會有幻覺

    因為 AI 並不是在「查資料庫」,它是在「玩拼圖」。它是根據看過的海量內容計算哪個 Token 接在後面最合理。如果你問它一個沒看過的冷門知識,它的機率計算可能會出錯,拼出一個「看起來很通順,但內容完全錯誤」的句子。因為對 Token 來說,文法通順的機率很高,但事實正確的機率它無法驗證。

    結語:掌握 Token,就是掌握 AI 的語言

    總結來說,Token 是 AI 時代的基礎貨幣與原子單位。

    1. 它是積木:透過 Tokenization,人類語言被拆解成機器可讀的結構
    2. 它是成本:決定了 API 的費用和運算速度
    3. 它是記憶:決定了模型能讀多長的文章
    4. 它是思考:AI 的生成本質就是不斷預測下一個 Token

    對於大學生來說,理解 Token 不只是為了考試或技術,而是為了更好地使用這個工具。當你知道中文 Token 比較貴、比較佔記憶體時,你就會知道在寫 Prompt(提示詞)時要精簡;當你知道 Context Window 的限制時,你就會知道為什麼要定期開新的對話視窗;當你知道它是透過 Token 預測來生成時,你就會對它的胡說八道保持警惕。

    在這個 AI 普及的時代,看懂 Token,你就不再只是被動的使用者,而是懂原本理的駕駛員。現在,去試試看算算你的 Prompt 到底花了多少 Tokens 吧!

  • AI 時代的創世神話:讀懂《Attention Is All You Need》與 Transformer 的魔法

    前言:那篇改變世界的論文

    當你在用 ChatGPT 寫通識課報告或是用 Midjourney 生成一張科幻圖片時,這一切的「智慧」起源,都可以追溯到 2017 年 Google 團隊發表的一篇論文 Attention Is All You Need。這篇論文公開發表之前,AI 領域還沈浸在另一種架構(Recurrent Neural Network 與 Long Short-Term Memory)。這篇論文的發表就像是一顆核彈徹底炸毀舊有的觀念,並建立一個名為 Transformer 的全新架構。它是現代所有大語言模型的祖師爺,簡單來說,如果沒有這篇論文,就沒有今天的生成式 AI 浪潮。

    這篇論文裡面滿滿的矩陣運算、向量空間,對於非資工系的大學生來說簡直是天書。別擔心,今天我們不談微積分,我們嘗試運用日常情境拆解這個讓電腦學會「讀心術」的秘密。

    第一章:在 Transformer 出現之前

    凸顯為什麼 Transformer 這麼偉大的方式可以先回頭看看以前的 AI 有多笨。

    1. 序列處理的詛咒 (Recurrent Neural Network)

    在 2017 年之前,處理語言的主流技術叫做 RNN(循環神經網路),它的運作方式蠻貼近人類閱讀習慣:從左到右,一個字一個字讀

    情境:期末考前的抱佛腳

    想像你在背課文,必須讀完第一個字,把它記在腦子裡,帶著這個記憶去讀第二個字,然後再帶著前兩個字的記憶去讀第三個字……。這有兩個致命缺點:

    1. 慢: 你不能跳著讀,一定要讀完第 99 個字,才能讀第 100 個字。電腦雖然有強大的 CPU 或 GPU 算力,卻被迫一個字接著另一個字的閱讀方法,效率極低。
    2. 金魚腦: 當句子很長時,讀到最後一個字,往往已經忘了開頭是什麼。
      • 例子:「我出生在台灣……(中間講了三千字廢話)……所以我講一口流利的__」
      • 舊模型讀到最後,已經忘了開頭的「台灣」,可能填上「英語」或「火星語」

    這時候,《Attention Is All You Need》論文跳出來說:「為什麼要一個字一個字讀?我們為什麼不一次把整本書攤開來看?

    第二章:什麼是「注意力 (Attention)」

    這篇論文的核心哲學就是:注意力機制(Attention Mechanism)

    1. 雞尾酒會效應

    想像你在一個吵雜的雞尾酒會,背景音樂很大聲,酒保在搖酒。當心儀對象跟你說話時,你能夠神奇地「過濾」掉所有噪音,只關注他的聲音,這就是 Attention。這隱喻著處理語言時,不是每個字都一樣重要。

    2. 關鍵字之間的紅線

    當 AI 看到這句話:「小明香蕉皮丟在地上,結果滑倒了。」如果要理解最後那個「他」是指誰?

    • 笨 AI 會覺得「他」是指離最近的「地上」或「香蕉皮」
    • Transformer 透過注意力機制,會算出「他」這個字與「小明」的關聯性最高

    這就像是 AI 在讀句子時,手裡拿著一支螢光筆,在字與字之間畫上了無數條連線,並且標註線的粗細(代表著重要程度)。

    第三章:Transformer 的引擎 Self-Attention

    這是論文中最重要的觀念,也是讓 AI 產生「理解力」的關鍵。我們用圖書館找書的例子解釋其中的 Query (Q)、Key (K)、Value (V) 三個參數。在 Transformer 裡,每一個 Token 進入模型後,都會被分裂成三個分身:

    1. Query:查詢向量(我在找什麼?)
    2. Key:索引向量(我是什麼標籤?)
    3. Value:內容向量(我實際的內容是什麼?)

    情境:圖書館檢索系統

    想像你走進一座圖書館尋找一本關於「蘋果」的書。

    1. Query:你手裡拿著一張便條紙,上面寫著:「我想找跟『紅色水果』有關的書」。
    2. Key:架上每一本書的書背上都有標籤。
      • 書 A 的標籤寫著 [卡車、交通]
      • 書 B 的標籤寫著 [蘋果、水果、紅色]
      • 書 C 的標籤寫著 [香蕉、水果、黃色]
    3. 比對 (計算兩個向量的 Dot Product):系統會拿 Query 去跟每一本書的 Key 做比對(計算相似度)。
      • Q vs 書 A:完全不合(權重 0%)
      • Q vs 書 B:超級符合(權重 90%)
      • Q vs 書 C:有點像,但不完全是(權重 10%)
    4. Value:系統根據這些權重,把書的內容加總起來給你。你得到的資訊主要來自書 B,少部分來自書 C。

    回到語言模型

    當模型在處理「銀行」這個字時:

    • 如果上下文是「我把錢存進銀行」,它的 Query 會去尋找跟「金錢、機構」有關的 Key,確認這裡是 Bank (金融機構)。
    • 如果上下文是「我在河岸的銀行散步」,它的 Query 會去尋找跟「河流、邊緣」有關的 Key,確認這裡是 Bank (河岸)。

    透過 Q、K、V 的瘋狂運算,AI 不再是死記硬背,而是根據上下文動態地決定每個字當下的意義,這就是為什麼 ChatGPT 能聽懂雙關語的原因。

    第四章:多頭注意力 Multi-Head Attention

    論文中還提到另一個關鍵技術:Multi-Head Attention。如果只有一組 Q、K、V,可能視角太單一,就像你讀一本書,如果只關注「文法」,你可能會忽略「情感」。

    情境:電影影評團 想像你要分析一部電影,你找了 8 位專家看這部片:

    • 專家 A:專門看文法結構(主詞對應動詞)
    • 專家 B:專門看時間關係(先發生什麼,後發生什麼)
    • 專家 C:專門看代名詞指涉(「它」是指什麼)
    • 專家 D:專門看情感語氣(這句話是諷刺還是讚美)

    最後,Transformer 把這 8 位專家的筆記拼接 起來,經過整理就得到一個對這部電影全方位、多角度的理解。這就是為什麼論文標題說 “Attention Is All You Need”,因為只要有足夠多的 Attention Heads(上述情境的專家就代表一個 Head),你就能捕捉到語言中所有的細節。

    第五章:位置編碼 Positional Encoding

    還記得第一章說 Transformer 不像舊 AI 那樣從左讀到右,而是「一次看整頁」嗎?這帶來了一個新問題:它不知道順序。對於電腦來說,「我愛你」和「你愛我」,如果把這三個字同時丟進去,數學上看起來是一樣的組合。但在愛情裡,這可是天差地遠的悲劇。為了讓 AI 知道順序,論文提出一個天才般的設計:位置編碼(Positional Encoding)

    情境:散落的漫畫頁 你買了一本漫畫,但不小心把書背膠弄斷了,頁面散落一地。因為你是「同時」看著這一堆紙,你根本不知道劇情順序。解決方法是:在每一頁的角落,蓋上一個頁碼章

    • 「我」蓋上 [位置 1] 的章
    • 「愛」蓋上 [位置 2] 的章
    • 「你」蓋上 [位置 3] 的章

    這些「章」不是普通的數字,而是一組特殊的數學向量(正弦波與餘弦波,補充給好奇心爆棚的你)。當這些向量加到文字原本的數值上時,AI 就能在平行運算的同時,依然保留「誰在前、誰在後」的資訊。

    第六章:Encoder 與 Decoder 的分工

    《Attention Is All You Need》原本是為了做「機器翻譯」而設計的,所以它的完整架構包含了兩大部分:Encoder(編碼器)Decoder(解碼器)

    1. Encoder:負責「理解」

    • 任務: 讀取輸入的英文句子(例如 “Hello World”)
    • 動作: 透過 Self-Attention 和 Multi-Head,把這句話徹底消化,分析出它的語意、文法、情感,濃縮成一個高維度的「觀念向量」
    • 譬喻: 試吃員吃了這道菜,把味道、口感、食材全部記在腦海裡,形成一個抽象的「美味概念」

    2. Decoder:負責「生成」

    • 任務: 根據 Encoder 傳來的「觀念」,生成德文句子
    • 動作: 它一方面要看自己已經寫了什麼字,一方面要回頭看 Encoder 給的資訊,逐字產生翻譯
    • 譬喻: 廚師根據試吃員描述的「美味概念」,嘗試做出一道同樣美味,但擺盤風格完全不同的菜

    第七章:為什麼這篇論文很重要

    最後,我們要回答一個問題:為什麼是 Transformer 贏了?

    除了效果好,最關鍵的原因是:它快得驚人

    1. 拆牆與砌牆

    • 舊的 RNN: 就像一個水泥師傅砌牆,他必須砌好第一塊磚,才能疊第二塊。如果你給他 100 個助手,那 99 個人只能在旁邊看戲,因為工作是線性的
    • Transformer: 就像是拼圖,它把整個句子的運算矩陣化。只要你的 GPU 夠大,你可以讓 100 個助手同時處理句子的不同部分

    2. 資料的大爆發

    因為 Transformer 可以平行運算,這意味著我們可以把模型做得超級大,餵給它的資料可以超級多,這導致後來「大模型時代」的來臨。GPT-1、GPT-2、GPT-3 到現在的 GPT-5,本質上就是不斷疊加更厚的 Transformer 層數,餵更多資料,燒更多顯卡。而這一切的基石,就是這篇論文證明了「只要有 Attention,你就能並行處理所有資訊」。

    結語:站在巨人的肩膀上

    《Attention Is All You Need》這篇論文,就像是 AI 界的工業革命蒸汽機圖紙,它把自然語言處理從手工業時代帶入了重工業時代。現在你回頭看 ChatGPT,就會明白它不是魔法。它是由無數個 Head 在觀察你的意圖, 無數個 Q、K、V 在資料庫中檢索關聯,透過 Positional Encoding 記住你說話的順序,最後由 Decoder 一個字一個字地把最可能的回答「接龍」出來。下次當你覺得 AI 很聰明時,記得感謝 2017 年那群 Google 的科學家,是他們發現了:原來,你不需要複雜的記憶結構,你需要是更多的「注意力」。

  • 數位時代的「讀心」魔術師:解構大語言模型 (LLM) 的大腦與靈魂

    前言:從「人工智障」到「人工智慧」的奇點

    回想幾年前,當你打電話給銀行語音客服或者試圖跟早期 Siri 聊天時,那種雞同鴨講的挫折感,時不時會聽到 Siri 說:「對不起,我聽不懂您的意思」。這句話,曾經是我們對 AI 的既定印象。到了 2022 年底,ChatGPT 橫空出世,世界彷彿在一夜之間變了。ChatGPT 不僅聽得懂你說的冷笑話,能幫你寫通識課的期末報告大綱,甚至還會寫寫程式或翻譯古希臘文。許多人都驚呼:「這東西,比我還像個人了吧!」陰謀論者則懷疑,ChatGPT 背後是不是雇用某中亞國家的大量勞動人力,AI 背後其實只是躲著一群過勞的工讀生在打字而已。

    這個被稱為「大語言模型(Large Language Model,簡稱 LLM)」的技術,並不是魔法,而是數學、統計學與龐大算力堆疊出來的工程奇蹟。今天,我們不談複雜的微積分公式,而是用你生活中的日常情境,拆解這個數位大腦到底是如何運作的。

    第一章:它其實只是一個「超級接龍高手」

    要理解 LLM,我們得先打破一個迷思:它並沒有像人類一樣的「意識」或「靈魂」,它也不懂自己在說什麼。

    1. 文字接龍的極致

    想像你在玩「文字接龍」,如果我說:「床前明月」,你腦中會自動跳出什麼字? 99% 的人都會說:「光」。為什麼?因為在你的閱讀經驗裡,「光」接在「床前明月」後面的機率最高。大語言模型本質上就是在做這件事:預測下一個字

    2. 機率分佈:AI 的選字邏輯

    當你拋出一個問題給 LLM 時,它並不是在「思考」,而是在計算機率。假設你輸入:「今天天氣真…」 模型會計算接下來出現各種字的機率:

    • 「好」:40%
    • 「熱」:30%
    • 「糟」:20%
    • 「棒」:10%

    它會根據這些機率選擇一個最合理的字填上去,然後再把這個字加入前面的句子,繼續預測下一個字。就這樣一個字接一個字,最後串成一篇流暢的文章。所以,當你覺得 AI 很有「創意」時,其實是因為它在選擇下一個字時,偶爾不會選機率最高的那個(這在 AI 參數中稱為「溫度」),而是選了一個機率次高但更有趣的字,這就產生了意想不到的文采。

    第二章:為什麼叫「大」?參數與資料的暴力美學

    如果只是文字接龍,為什麼以前的 AI 做不到這麼好?關鍵在於 LLM 中的 “Large”(大)

    1. 參數量:模型的腦細胞

    你可能聽過 GPT-4、Llama 3 有多少「參數」,例如 70B(代表有 700 億個參數)、175B(1,750 億),這些參數代表什麼意思呢?想像一位剛入學的大一新生,對於專門學科技術名詞的認識是一片空白。為了讓他能通過考試,你需要調整他的腦神經連結強度。

    • 參數就像是神經元之間的連接點,或者是機器上可以調節的「旋鈕」
    • 訓練就是不斷調整這幾千億個旋鈕的刻度,直到這個機器能針對任何輸入,都輸出正確的答案

    早期的 AI 只有幾萬個旋鈕,能處理的任務相對簡單。現在的 LLM 擁有數千億個旋鈕,這讓它能捕捉到人類語言中極其細微的邏輯、情感和隱喻。

    2. 訓練資料:吃掉整座圖書館

    為了調整這些旋鈕,我們需要餵給它海量的資料。LLM 的閱讀量是驚人的,它已經讀過網路上幾乎所有的公開文本:維基百科、Reddit 論壇、幾百萬本書籍、論文、程式碼庫。情境比喻:想像你要把一個從沒看過書的外星人,訓練成地球通。你把他關在圖書館裡,強迫他讀完人類歷史上所有的書。雖然他可能不懂「愛」的生理反應,但他讀了幾萬本愛情小說後,他能比任何人都更精準地寫出肉麻的情書。這就是 LLM 的狀態:博學,但沒有體驗

    第三章:靈魂核心 Transformer 與注意力機制

    在 2017 年之前,AI 閱讀長文章的能力很差。它讀到文章這頭,很容易就忘了開頭說什麼。直到 Google 發表一篇名為《Attention Is All You Need》的論文,提出了 Transformer 架構,才改變了一切。這是 LLM 最難懂但也最重要的技術概念,我試著用「雞尾酒會效應」來解釋。

    1. 什麼是注意力機制

    在一個吵雜的雞尾酒會中,雖然周圍充滿了噪音,但你可以專注地聽到你朋友說的話,並忽略背景雜音。當你朋友提到「那部電影」時,你會瞬間聯想到你們五分鐘前聊到的《奧本海默》,這就是注意力機制

    在 Transformer 出現之前,AI 讀句子是線性的:「小明把香蕉皮丟在地上,… (中間參雜 5,000 個文字) …,結果小華踩到它滑倒了。」舊的 AI 讀到最後的「它」時,可能已經忘記前面的「香蕉皮」。 但 Transformer 具有「注意力」,當它處理「它」這個字時,它會回頭去掃描整句話,並算出「它」與「香蕉皮」的關聯性最高,而不是「小明」或「地上」。

    2. 平行處理的能力

    以前的 AI 像是一個字一個字讀書的學生,速度慢且容易忘。Transformer 架構下的 LLM,像是一個速讀天才,它可以同時看到整篇文章的所有字,並瞬間建立字與字之間複雜的關聯網。這讓 AI 能夠理解長篇大論,並且在寫作時保持邏輯連貫。

    第四章:AI 的求學三部曲,它是如何被訓練出來的

    一個 LLM 從出生到能跟你聊天,需要經歷三個階段。

    第一階段:預訓練 (Pre-training) 通識教育

    這是最花錢、最花時間的階段。

    • 目標: 讓 AI 學會「說人話」和「具備世界知識」。
    • 方法: 讓 AI 做大量的「克漏字測驗」,把一句話挖空幾個字,讓 AI 猜,猜錯了就調整參數。
    • 結果: AI 讀完整個網際網路,變成「懂很多的瘋子」。這時候的 AI 雖然知識淵博,但你問它:「如何製作炸彈?」它會興高采烈地給你詳細教學,完全沒有道德觀念;或者你問它「你好」,它可能會接著說「你好嗎?我很好,今天天氣…」開始自言自語,而不是回答你。

    它學會了機率,但還不懂人類的對話模式。

    第二階段:監督式微調 (Supervised Fine-Tuning) 專業必修

    為了讓這個「懂很多的瘋子」變成「有用的助理」,我們需要教它規矩。

    • 目標: 讓 AI 學會「一問一答」的指令跟隨模式。
    • 方法: 人類寫好成千上萬個高品質的「問題 + 正確答案」範例,餵給 AI 看。
      • 問:「請幫我寫一封求職信。」
      • 答:「好的,這是範本…」
    • 結果: AI 學會當你提出請求時,它應該要提供協助,而不是接著寫小說,它順利地從「瘋子」變成一名夠格的「實習生」。

    第三階段:人類回饋強化學習

    這是讓 ChatGPT 如此好用的關鍵祕技。

    • 目標: 讓 AI 的回答符合人類的價值觀(有用、誠實、無害)。
    • 方法:
      1. AI 針對同一個問題生成三個不同的回答。
      2. 人類標註員來評分:「回答 A 有禮貌,回答 B 有種族歧視,回答 C 是廢話。」
      3. 訓練一個「獎勵模型」來模仿人類老師的評分標準。
      4. 用這個獎勵模型去處罰或獎勵 AI。
    • 結果: AI 學會了看臉色,它知道不能教人做壞事,說話要客氣,遇到不懂的要婉轉拒絕,它終於變成了「彬彬有禮的高級助理」。

    第五章:一本正經地胡說八道,關於「幻覺」

    你有沒有遇過一種同學,考試時遇到不會的申論題,因為不想留白,就開始瞎掰,而且寫得頭頭是道、字跡工整,連老師看了都差點信了?這在 AI 領域稱為「幻覺(Hallucination)」。

    為什麼會產生幻覺

    還記得第一章說的嗎?LLM 的本質是「文字接龍」和「機率預測」,它並不是在「查資料庫」,而是在「生成文字」。當你問它一個它沒看過的冷門知識,例如:請介紹台灣 2026 年的大學入學制度,它的神經網路裡找不到確切的連結,但它為了完成「接龍」的任務,就會根據機率拼湊出看起來很像真的句子。

    它不是在說謊,因為它沒有欺騙的意圖;它只是在做夢

    日常生活警示: 如果你用 ChatGPT 寫作業,可能曾經叫它「找文獻引用」。你千萬要檢查這些引用來源的真實性與正確性,因為,它可能會捏造出看起來超像真的論文標題、作者、甚至期刊名,但這些論文根本不存在。

    第六章:Token 是 AI 的計價單位

    在使用 API 或付費版 AI 時,你會常聽到「Token」這個詞。 Token 是 LLM 處理文字的最小單位,它不完全等於一個字(Word)或一個字元(Character)。

    • 英文: 1 個 Token 大約是 0.75 個單字,例如 “Hamburger” 可能是一個 Token,但複雜的字可能被切成 “Ham-bur-ger”。
    • 中文: 1 個中文字通常對應 1 到 2 個 Token(取決於模型的編碼表)。

    情境比喻: 如果 LLM 是計程車司機,Token 就是它的跳表單位。它不是算字數,而是算它用了多少 Token 數。當你丟一篇長論文給它讀時,要小心 Context Window(上下文視窗)的限制,也就是它的「短期記憶」容量。一旦超過 Token 上限,它就會像金魚一樣忘記最前面的內容。

    第七章:未來的挑戰與你們的機會

    了解了 LLM 的原理後,你該如何面對這個技術?

    1. 它不是搜尋引擎

    Google 搜尋是幫你找「真實存在的既有網頁」;LLM 是幫你「生成全新的內容」。 如果你需要 100% 正確的資訊(如法規、歷史年分),請 Google 它。假如你需要創意、整理、摘要、翻譯、寫程式,請找 LLM。

    2. 提示工程(Prompt Engineering)是新的必修課

    既然 LLM 是透過「注意力機制」和「機率」運作的,你給的指令(Prompt)越精確,它就能越好地鎖定相關的知識。

    • 壞指令: 「幫我寫報告。」
    • 好指令: 「你是一位資深的行銷系教授(設定角色),請針對 Z 世代的消費習慣(限定主題),寫一篇 1000 字的分析報告(限定格式),語氣要專業且引用具體數據(設定風格)。」

    這就像是對待一個很有才華但需要明確指令的工讀生。

    3. 批判性思維比以往更重要

    AI 可以幫你產出 90% 的內容,但剩下的 10% (驗證真偽、判斷價值、注入人性溫暖),是它做不到的。在 AI 時代,「問對問題」的能力,比「回答問題」的能力更有價值。

    結語:站在巨人的肩膀上

    大語言模型是人類科技史上的里程碑,它既不是毀滅人類的魔鬼,也不是全知全能的神。它是一面鏡子,反射出人類集體智慧的總和。建議你不要抗拒它,也不要盲目依賴它,但是努力地去理解它的原理 (那數千億個參數是如何流動?注意力機制是如何聚焦?)。

    當你理解它是如何運作的,你就不會被它取代,而是能夠駕馭它,讓這位數位時代最強大的助手,成為你探索未來的噴射引擎。下次,當你打開 ChatGPT 時,試著對它說聲謝謝,雖然它沒有感情,但這背後代表無數科學家與工程師對「智慧」的極致追求。