Tag: AI Models

  • AI 時代的創世神話:讀懂《Attention Is All You Need》與 Transformer 的魔法

    前言:那篇改變世界的論文

    當你在用 ChatGPT 寫通識課報告或是用 Midjourney 生成一張科幻圖片時,這一切的「智慧」起源,都可以追溯到 2017 年 Google 團隊發表的一篇論文 Attention Is All You Need。這篇論文公開發表之前,AI 領域還沈浸在另一種架構(Recurrent Neural Network 與 Long Short-Term Memory)。這篇論文的發表就像是一顆核彈徹底炸毀舊有的觀念,並建立一個名為 Transformer 的全新架構。它是現代所有大語言模型的祖師爺,簡單來說,如果沒有這篇論文,就沒有今天的生成式 AI 浪潮。

    這篇論文裡面滿滿的矩陣運算、向量空間,對於非資工系的大學生來說簡直是天書。別擔心,今天我們不談微積分,我們嘗試運用日常情境拆解這個讓電腦學會「讀心術」的秘密。

    第一章:在 Transformer 出現之前

    凸顯為什麼 Transformer 這麼偉大的方式可以先回頭看看以前的 AI 有多笨。

    1. 序列處理的詛咒 (Recurrent Neural Network)

    在 2017 年之前,處理語言的主流技術叫做 RNN(循環神經網路),它的運作方式蠻貼近人類閱讀習慣:從左到右,一個字一個字讀

    情境:期末考前的抱佛腳

    想像你在背課文,必須讀完第一個字,把它記在腦子裡,帶著這個記憶去讀第二個字,然後再帶著前兩個字的記憶去讀第三個字……。這有兩個致命缺點:

    1. 慢: 你不能跳著讀,一定要讀完第 99 個字,才能讀第 100 個字。電腦雖然有強大的 CPU 或 GPU 算力,卻被迫一個字接著另一個字的閱讀方法,效率極低。
    2. 金魚腦: 當句子很長時,讀到最後一個字,往往已經忘了開頭是什麼。
      • 例子:「我出生在台灣……(中間講了三千字廢話)……所以我講一口流利的__」
      • 舊模型讀到最後,已經忘了開頭的「台灣」,可能填上「英語」或「火星語」

    這時候,《Attention Is All You Need》論文跳出來說:「為什麼要一個字一個字讀?我們為什麼不一次把整本書攤開來看?

    第二章:什麼是「注意力 (Attention)」

    這篇論文的核心哲學就是:注意力機制(Attention Mechanism)

    1. 雞尾酒會效應

    想像你在一個吵雜的雞尾酒會,背景音樂很大聲,酒保在搖酒。當心儀對象跟你說話時,你能夠神奇地「過濾」掉所有噪音,只關注他的聲音,這就是 Attention。這隱喻著處理語言時,不是每個字都一樣重要。

    2. 關鍵字之間的紅線

    當 AI 看到這句話:「小明香蕉皮丟在地上,結果滑倒了。」如果要理解最後那個「他」是指誰?

    • 笨 AI 會覺得「他」是指離最近的「地上」或「香蕉皮」
    • Transformer 透過注意力機制,會算出「他」這個字與「小明」的關聯性最高

    這就像是 AI 在讀句子時,手裡拿著一支螢光筆,在字與字之間畫上了無數條連線,並且標註線的粗細(代表著重要程度)。

    第三章:Transformer 的引擎 Self-Attention

    這是論文中最重要的觀念,也是讓 AI 產生「理解力」的關鍵。我們用圖書館找書的例子解釋其中的 Query (Q)、Key (K)、Value (V) 三個參數。在 Transformer 裡,每一個 Token 進入模型後,都會被分裂成三個分身:

    1. Query:查詢向量(我在找什麼?)
    2. Key:索引向量(我是什麼標籤?)
    3. Value:內容向量(我實際的內容是什麼?)

    情境:圖書館檢索系統

    想像你走進一座圖書館尋找一本關於「蘋果」的書。

    1. Query:你手裡拿著一張便條紙,上面寫著:「我想找跟『紅色水果』有關的書」。
    2. Key:架上每一本書的書背上都有標籤。
      • 書 A 的標籤寫著 [卡車、交通]
      • 書 B 的標籤寫著 [蘋果、水果、紅色]
      • 書 C 的標籤寫著 [香蕉、水果、黃色]
    3. 比對 (計算兩個向量的 Dot Product):系統會拿 Query 去跟每一本書的 Key 做比對(計算相似度)。
      • Q vs 書 A:完全不合(權重 0%)
      • Q vs 書 B:超級符合(權重 90%)
      • Q vs 書 C:有點像,但不完全是(權重 10%)
    4. Value:系統根據這些權重,把書的內容加總起來給你。你得到的資訊主要來自書 B,少部分來自書 C。

    回到語言模型

    當模型在處理「銀行」這個字時:

    • 如果上下文是「我把錢存進銀行」,它的 Query 會去尋找跟「金錢、機構」有關的 Key,確認這裡是 Bank (金融機構)。
    • 如果上下文是「我在河岸的銀行散步」,它的 Query 會去尋找跟「河流、邊緣」有關的 Key,確認這裡是 Bank (河岸)。

    透過 Q、K、V 的瘋狂運算,AI 不再是死記硬背,而是根據上下文動態地決定每個字當下的意義,這就是為什麼 ChatGPT 能聽懂雙關語的原因。

    第四章:多頭注意力 Multi-Head Attention

    論文中還提到另一個關鍵技術:Multi-Head Attention。如果只有一組 Q、K、V,可能視角太單一,就像你讀一本書,如果只關注「文法」,你可能會忽略「情感」。

    情境:電影影評團 想像你要分析一部電影,你找了 8 位專家看這部片:

    • 專家 A:專門看文法結構(主詞對應動詞)
    • 專家 B:專門看時間關係(先發生什麼,後發生什麼)
    • 專家 C:專門看代名詞指涉(「它」是指什麼)
    • 專家 D:專門看情感語氣(這句話是諷刺還是讚美)

    最後,Transformer 把這 8 位專家的筆記拼接 起來,經過整理就得到一個對這部電影全方位、多角度的理解。這就是為什麼論文標題說 “Attention Is All You Need”,因為只要有足夠多的 Attention Heads(上述情境的專家就代表一個 Head),你就能捕捉到語言中所有的細節。

    第五章:位置編碼 Positional Encoding

    還記得第一章說 Transformer 不像舊 AI 那樣從左讀到右,而是「一次看整頁」嗎?這帶來了一個新問題:它不知道順序。對於電腦來說,「我愛你」和「你愛我」,如果把這三個字同時丟進去,數學上看起來是一樣的組合。但在愛情裡,這可是天差地遠的悲劇。為了讓 AI 知道順序,論文提出一個天才般的設計:位置編碼(Positional Encoding)

    情境:散落的漫畫頁 你買了一本漫畫,但不小心把書背膠弄斷了,頁面散落一地。因為你是「同時」看著這一堆紙,你根本不知道劇情順序。解決方法是:在每一頁的角落,蓋上一個頁碼章

    • 「我」蓋上 [位置 1] 的章
    • 「愛」蓋上 [位置 2] 的章
    • 「你」蓋上 [位置 3] 的章

    這些「章」不是普通的數字,而是一組特殊的數學向量(正弦波與餘弦波,補充給好奇心爆棚的你)。當這些向量加到文字原本的數值上時,AI 就能在平行運算的同時,依然保留「誰在前、誰在後」的資訊。

    第六章:Encoder 與 Decoder 的分工

    《Attention Is All You Need》原本是為了做「機器翻譯」而設計的,所以它的完整架構包含了兩大部分:Encoder(編碼器)Decoder(解碼器)

    1. Encoder:負責「理解」

    • 任務: 讀取輸入的英文句子(例如 “Hello World”)
    • 動作: 透過 Self-Attention 和 Multi-Head,把這句話徹底消化,分析出它的語意、文法、情感,濃縮成一個高維度的「觀念向量」
    • 譬喻: 試吃員吃了這道菜,把味道、口感、食材全部記在腦海裡,形成一個抽象的「美味概念」

    2. Decoder:負責「生成」

    • 任務: 根據 Encoder 傳來的「觀念」,生成德文句子
    • 動作: 它一方面要看自己已經寫了什麼字,一方面要回頭看 Encoder 給的資訊,逐字產生翻譯
    • 譬喻: 廚師根據試吃員描述的「美味概念」,嘗試做出一道同樣美味,但擺盤風格完全不同的菜

    第七章:為什麼這篇論文很重要

    最後,我們要回答一個問題:為什麼是 Transformer 贏了?

    除了效果好,最關鍵的原因是:它快得驚人

    1. 拆牆與砌牆

    • 舊的 RNN: 就像一個水泥師傅砌牆,他必須砌好第一塊磚,才能疊第二塊。如果你給他 100 個助手,那 99 個人只能在旁邊看戲,因為工作是線性的
    • Transformer: 就像是拼圖,它把整個句子的運算矩陣化。只要你的 GPU 夠大,你可以讓 100 個助手同時處理句子的不同部分

    2. 資料的大爆發

    因為 Transformer 可以平行運算,這意味著我們可以把模型做得超級大,餵給它的資料可以超級多,這導致後來「大模型時代」的來臨。GPT-1、GPT-2、GPT-3 到現在的 GPT-5,本質上就是不斷疊加更厚的 Transformer 層數,餵更多資料,燒更多顯卡。而這一切的基石,就是這篇論文證明了「只要有 Attention,你就能並行處理所有資訊」。

    結語:站在巨人的肩膀上

    《Attention Is All You Need》這篇論文,就像是 AI 界的工業革命蒸汽機圖紙,它把自然語言處理從手工業時代帶入了重工業時代。現在你回頭看 ChatGPT,就會明白它不是魔法。它是由無數個 Head 在觀察你的意圖, 無數個 Q、K、V 在資料庫中檢索關聯,透過 Positional Encoding 記住你說話的順序,最後由 Decoder 一個字一個字地把最可能的回答「接龍」出來。下次當你覺得 AI 很聰明時,記得感謝 2017 年那群 Google 的科學家,是他們發現了:原來,你不需要複雜的記憶結構,你需要是更多的「注意力」。

  • Claude 模型總覽

    Claude 模型總覽

    內容重點

    這篇文章將介紹 Claude 的三種模型家族,幫助你在開發 AI Agent 時,了解各模型適用的情境。以下是各模型家族的特色與選擇建議:

    OpusSonnetHaiku
    說明最聰明的模型在回應品質、速度和成本三者間取得最佳平衡提供低成本與快速回應的輕量模型
    成本
    (相對的)反應速度普通快速非常快速
    具備「reasoning」能力
    適用情境1. 進階軟體開發
    2. 長時間運行任務
    3. 需要多步驟策略的複雜問題
    1. 一般軟體開發任務
    2. 文書處理
    3. 內容行銷
    4. 資料分析與視覺化
    5. 影像分析
    6. 流程自動化
    1. 內容過濾
    2. 資料分類
    3. 語言翻譯
    4. 知識庫問答

    你該如何挑選模型

    前面的表格清楚呈現 Claude 各模型的分類與特色,接下來我想和你聊聊:為什麼需要認真思考模型的選擇?

    在我培訓企業員工運用 ChatGPT(或其他生成式 AI 工具)提升工作效率的課程中,「如何挑選模型」是學員最常提出的問題之一。

    chatgpt-models-picker
    chatgpt-models-picker

    上圖擷取自 ChatGPT 的使用者介面。只要是付費用戶,就可以透過選單自行選擇模型;下圖則是 Claude 的模型選擇介面。

    claude-models-picker
    claude-models-picker

    根據我的使用經驗,大多數情況下我會保留系統預設的模型(例如:Claude 預設為 Sonnet 4.5;ChatGPT 預設為 GPT-5)。但當我需要處理複雜且多步驟的任務,特別是包含大量邏輯判斷或深度推理的流程時,我會選擇推理能力較強的模型(例如:Claude 的 Opus 模型;ChatGPT 的 o1 或 o3 模型)。

    至於日常生活或一般工作任務中,我幾乎不會主動選擇成本低、速度快的輕量模型(例如:Claude 的 Haiku 模型;ChatGPT 的 GPT-5-mini 模型)除非在特定的開發場景中。

    程式開發者該如何挑選模型

    AI Agent 開發者更需要重視模型選擇策略,根據每個專案的條件與需求,規劃最適當的模型配置。這裡指的是透過官方 API 大量整合 Claude 功能到應用程式的情境。

    舉例來說:假設你要為公司內部入口網增加 AI 聊天功能,讓員工可以透過對話查詢特休天數、申請請假或處理其他日常事務。

    情境一:高頻次、簡單互動

    公司內部入口網是每位員工的日常起點,使用頻率極高。員工通常帶著明確目的使用入口網:查看最新公告、查詢系統登入方式、報修電腦設備、查詢或申請休假等。

    由於每次使用目的不同,且公司員工人數眾多,這種情境就很適合選擇成本低、反應快的模型。如果你了解 API 的計費方式,就會知道這個入口網每月消耗的 Token 數量相當可觀。公司很難要求員工「節制」或「有效率」地使用,因此 Haiku 模型的快速回應與低成本特性,就非常適合這類高頻次的簡單互動。

    情境二:多步驟、需判斷邏輯的流程

    然而,當員工要「申請休假」時,流程就變得複雜了。系統需要:

    • 查詢剩餘休假天數
    • 判斷可使用的休假類別
    • 送出休假申請
    • 啟動審核流程

    經過合理拆解後,完整的請假流程約需 15~30 個步驟,其中包含多個需要審查、判斷、條件控制的環節。這時候就很適合使用 Sonnet 這種標準模型,而不適合繼續沿用 Haiku 模型。

    結論

    因此,一款應用程式可以針對不同情境,靈活選用不同的 LLM 模型,目的是在控制成本與提升服務品質之間取得平衡,同時優化用戶體驗。如果你想學習 AI Agent 應用程式開發,就必須仔細思考模型選用的策略!

    誠摯邀請你的分享:

    若有任何疑問或建議,也歡迎來信至 contact@mdas.com.tw,我們很樂意與你交流。

    如果你是經驗豐富的 AI Agent 開發者、或已熟悉 Claude API 的使用,歡迎在文章下方留言,與我們分享你的實戰經驗!