[新手入門] 中級科目一：費曼學習法，7 個故事讓你讀完就懂

AI導演林思翰Hans

[新手入門] 中級科目一：費曼學習法，7 個故事讓你讀完就懂

如果你讀完一篇備考文章，還是覺得「我好像知道這些名詞，但不確定到底懂不懂」，那篇文章就沒有幫到你。

這是白話入門版，用故事帶你讀懂中級科目一（人工智慧技術應用與規劃）。如果你想直接看考點與命題拆解，請看 iPAS AI 應用規劃師中級科目一：人工智慧技術應用與規劃 7 大核心命題。

這篇文章用不同的方法：我們不從名詞開始，我們從你已經知道的事情開始。每個概念都用日常比喻先建立直覺，技術名詞最後才出場。讀完之後，如果你能用自己的話向朋友解釋這些概念，你就真的懂了，考試只是順便的事。

以下內容根據 114 年第二次 AI 應用規劃師中級科目一（人工智慧技術應用與規劃）的 50 題公告試題整理而成。

想要直接聽可以點 NotebookLM Podcast 連結跳到文章最後面。

故事一：AI 怎麼聽懂人話

想像你是一家電商的客服主管，每天有幾千則顧客留言湧進來，你需要知道：顧客現在是開心還是生氣？

你不可能一則一則看，所以你想讓 AI 幫你，但 AI 不是人，它不懂中文，你得先教它「文字是什麼意思」。

這就是自然語言處理（NLP）的起點，科目一有將近十題都在考這個主題，但出題者每次換一個包裝，把底層邏輯搞懂，你就不怕它怎麼換。

NLP 語言處理進化史圖解：從 Word2Vec 認字到 N-gram 讀句子再到 Transformer 注意力機制三個層次，附 GloVe 統計派說明

第一層：教 AI 認字

在 AI 的世界裡，文字只是一串符號。「貓」和「狗」對 AI 來說跟「abc」和「xyz」沒有差別，除非你告訴它這些字之間有什麼關係。

怎麼告訴？把每個字變成一組數字（座標）。意思相近的字，座標就靠近；意思不同的字，座標就遠離。「國王」和「皇后」的座標很近，「國王」和「冰箱」的座標很遠。

這個「把字變座標」的技術叫做詞嵌入（Word Embedding），而做這件事有兩個經典方法：

Word2Vec 是預測派：給它一個字，讓它猜旁邊會出現什麼字。「我今天去___買東西」，如果填「超市」和「便利商店」都合理，那這兩個字的座標就會很近。Word2Vec 是一種用神經網路做預測的方法。它有兩種訓練模式：CBOW 用周圍的字猜中間那個字，Skip-gram 用中間的字猜周圍的字。當訓練資料很大、又想抓住罕見字的關係時，Skip-gram 通常更有效，因為它讓每個字都有更多訓練機會。

GloVe 是統計派：它不做預測，而是先數好整個語料庫裡每對字一起出現的次數，建成一張大表格，再用數學方法（矩陣分解）把這張表格壓縮成座標。

考試怎麼考？出題者會問你「Word2Vec 跟 GloVe 的主要差異是什麼」，答案的關鍵就是：Word2Vec 是基於預測的模型，GloVe 是基於共現統計的模型。不要被選項裡「神經網路」「矩陣」這些字嚇到，回到「預測派 vs 統計派」就能選對。

第二層：教 AI 讀句子

認得每個字之後，下一步是理解整句話的意思，這裡有個關鍵問題：句子裡的字會互相影響。

「他用蘋果打電話」跟「他吃了一顆蘋果」，同一個「蘋果」在不同句子裡意思完全不同，AI 要理解「蘋果」的意思，必須看它前後的其他字。

早期的方法叫 N-gram，它只看固定長度的前幾個字來猜下一個字。比如 3-gram 只看前面兩個字。問題是什麼？它是近視眼。如果重要的線索在十個字之前，N-gram 看不到。考試考的就是這個弱點：N-gram 僅根據固定長度的前序詞建立機率估計，難以捕捉長距離依賴關係。

解決近視眼的方法是 Transformer，想像你在讀一封很長的信，讀到最後一段時，你會回頭看開頭的某個關鍵字來確認意思。Transformer 的自注意力機制（Self-Attention）就是這個「回頭看」的能力：句子裡的每個字都可以直接關注其他任何位置的字，不管距離多遠。這就是為什麼 Transformer 能理解長文本：它不是一個字一個字往前讀，而是整句話同時看，自己決定該注意哪些字。

如果有人問你「為什麼 Transformer 架構能改善翻譯品質」，答案就是自注意力機制能捕捉長距離語境關係。不是卷積運算（那是處理圖片的）、不是強化學習（那是另一種訓練策略）、不是資料增強（那是擴充訓練資料的）。

Transformer 還有一個容易考的細節：當注意力分布變得太平均（每個字都分配差不多的注意力，像是老師上課看每個學生都一樣久，反而誰都沒認真看），模型就無法聚焦在關鍵資訊上。這叫注意力崩潰（Attention Collapse）。解法是對注意力權重施加稀疏化約束（Sparsity Constraint），強迫模型把注意力集中在少數重要的字上。

第三層：教 AI 「填空」跟「翻譯」

有了 Transformer，就可以訓練更強大的語言模型。

BERT 的訓練方式像克漏字：把句子裡隨機幾個字遮起來，讓模型根據前後文猜被遮住的字。關鍵是「隨機遮」而不是「從左到右遮」，因為這樣模型必須同時理解左邊和右邊的語境。這個訓練策略叫遮罩語言模型（Masked Language Model，MLM），它讓 BERT 成為雙向理解的模型。

考試問「MLM 的主要訓練策略為何」，答案就是「隨機遮罩部分詞語，讓模型根據雙向上下文預測被遮罩的詞」。

Seq2Seq 是翻譯機：輸入一段文字，輸出另一段文字。翻譯、摘要、問答都是這個模式。考試問「哪種情境最適合 Seq2Seq」，看到「將輸入文字轉換成語意等價的另一段文字」就選它。預測數值序列是時間序列模型的事、辨識人名地名是 NER 的事、統計關鍵字頻率是 TF-IDF 的事。

RAG 是開書考試：一般的語言模型只能用訓練時學到的知識回答問題，知識會過時，還可能亂編（幻覺）。RAG 讓模型在回答前先去「查資料」，把查到的內容塞進上下文再回答。考試問「建立高效 RAG 系統在檢索階段的最關鍵挑戰」，答案是避免檢索到「語意相似但跟查詢意圖無關」的內容。

不是把文件塞進上下文視窗（那是生成階段的事）、不是降低記憶體（那是工程優化）、不是近似最近鄰搜尋（那是一種解法，不是挑戰）。

NLP 實戰應用三欄對比：BERT 填空機、Seq2Seq 翻譯機與 RAG 開書考試，下方補充 TF-IDF 長文本稀釋陷阱

第四層：文件等級的理解

前面講的是字跟句子，但有時候你要處理整篇文件。

TF-IDF 是最基本的文件分析方法：一個字在這篇文章裡出現很多次（TF 高），但在其他文章裡很少出現（IDF 高），那這個字就是這篇文章的關鍵字。

但 TF-IDF 有個弱點：依本題情境，如果直接使用原始詞頻，長文本中的常見詞可能因 TF 偏高而被過度放大，導致模型難以正確反映關鍵詞重要性。實務上通常會再搭配停用詞處理、正規化或其他調整方式。

一篇一萬字的客訴裡，「的」「是」「了」出現幾百次，而真正重要的關鍵字相對頻率被稀釋掉了。考試考的就是這個：長文本中的詞頻偏高，導致常見詞權重被過度放大。

費曼檢查點：如果朋友問你「Word2Vec 跟 GloVe 差在哪」，你能不能不看筆記，用自己的話說出「一個是用猜字遊戲學的，一個是先數統計再壓縮的」？如果可以，這一整段 NLP 的概念你就真的懂了。

故事二：AI 怎麼看懂圖片

想像你在教一個從來沒見過地球的外星人看監視器畫面，你要教它三件事：

第一，畫面裡有什麼東西。第二，每個東西在哪裡。第三，每個東西的邊界到哪裡。這三件事對應的就是電腦視覺的三個層次。

電腦視覺三大層次圖解：物件偵測畫框框、語義分割貼標籤、全景分割類別加個體，附 CLIP 零樣本學習與 Softmax vs MaxPooling 比較

偵測：框出來，說名字

物件偵測（Object Detection）就是在圖片上畫框框，每個框框配一個標籤，「這是人」「那是車」。

怎麼知道 AI 框得準不準？用 IoU（Intersection over Union）：把 AI 畫的框框跟正確答案的框框重疊，算重疊面積佔兩者聯集面積的比例。重疊越多，IoU 越高。

mAP（Mean Average Precision）是整體評估分數。IoU 門檻設越高，代表要求框框越精準，mAP 通常越低。考試問「IoU 閾值設定較高代表什麼」，答案就是「預測邊界框與真實邊界框的重疊程度越高，模型偵測結果越精準」。不是誤差越大、不是 Precision 降但 Recall 升、不是不受真實框大小影響。

分割：幫每一個像素貼標籤

偵測是畫框框，但框框裡混了很多背景。分割更進一步：幫圖片裡的每個像素決定它屬於什麼。

三種分割方式，用教室比喻最清楚：

語義分割（Semantic Segmentation）：只區分類別。「這些像素是學生，那些像素是桌椅。」但分不出哪個是小明、哪個是小華。

實例分割（Instance Segmentation）：區分個體。「這個是小明，那個是小華，兩個都是學生，但它們是不同的人。」

全景分割（Panoptic Segmentation）：兩者合體。既區分類別，又區分個體，還包括背景。自駕車要同時知道「這是道路、那是建築」又要知道「這是行人 A、那是行人 B」，用的就是全景分割。

考試問「同時辨識每個像素的物件類別，又能區分同類物件的不同個體」，答案是全景分割。

Softmax vs MaxPooling：名字像但完全不同

這兩個名字長得像，但做的事完全不同，出題者最愛考你分不分得清。

Softmax 是把一組數字轉成機率分布。Softmax 不會只留下最大值，而是把所有分數轉成總和為 1 的比例。例如分數 3、1、0.5 經 Softmax 後約為 82%、11%、7%，所有的資訊都保留了，只是換成比例表示。

MaxPooling 是從一小區塊裡只留最大值，其他全丟掉。像是每四格只保留最亮的那格，圖片縮小了但重點還在。

考試問「Softmax 跟 MaxPooling 何者正確」，答案就是：Softmax 保留所有輸入資訊但以比例表示，MaxPooling 只保留區域最大值。

CLIP：讓 AI 同時懂文字和圖片

一般的圖片模型只認圖片，你要先幫它標註「這是貓」「這是狗」。CLIP 不一樣：它同時學習圖片和文字的關係，把兩者映射到同一個座標空間。輸入一段文字「海灘上的金毛犬」，CLIP 能直接找到最匹配的圖片，不需要事先標註。

這個能力叫做零樣本分類（Zero-shot Classification）：不需要幫每個新類別準備訓練資料，只要用文字描述就能分類。關鍵技術是對比式學習（Contrastive Learning），讓匹配的圖文對在座標空間裡靠近，不匹配的遠離。

但 CLIP 也有弱點：如果文字描述跟圖片內容的對齊不夠好，就會出現跨模態理解偏差。例如叫它生成「模特兒拿著品牌飲料，背景是海邊夕陽」，主題跟場景都對了，但品牌標誌顏色或手部姿勢有錯，就是因為文字編碼器跟影像編碼器在語意空間裡沒有充分對齊。

費曼檢查點：你能不能用「畫框框」「貼標籤到每個像素」「既貼標籤又分辨誰是誰」三句話，分別解釋偵測、語義分割、全景分割的差異？

故事三：AI 怎麼無中生有

AI 不只能分析現有資料，還能創造新的，生成式 AI 是科目一最密集的考區之一，但核心就是三個流派，用一個比喻就能記住。

生成式 AI 三大流派圖解：GAN 偽鈔犯與警察、VAE 壓縮機、Diffusion 雕刻家，各附陷阱與解法說明

三個流派：偽鈔犯、壓縮機、雕刻家

GAN（生成對抗網路）= 偽鈔犯 vs 警察

兩個網路互相對戰：生成器負責偽造，鑑別器負責抓假。偽鈔犯越來越厲害，警察也越來越精明，最後偽鈔犯生出的東西連警察都分不出真假。

但 GAN 有個經典問題：如果偽鈔犯發現只要印某一種鈔票就能騙過警察，它就會永遠只印那一種。這叫模式崩潰（Mode Collapse）：生成的東西缺乏多樣性。解法是把原本的「比較真假」換成 Wasserstein 距離（WGAN），讓評估標準更穩定，生成器不會只抄近路。

VAE（變分自編碼器）= 壓縮機

VAE 先把資料壓縮成一個很小的「摘要」（潛在空間），再從摘要還原出新資料。就像把一張照片壓成幾個數字，再從數字還原出一張新照片。壓縮越好，還原越像。VAE 擅長捕捉資料的整體語意結構，但生成品質沒有 GAN 那麼銳利。

擴散模型（Diffusion Model）= 雕刻家

想像一個完美的雕像被蒙上越來越多灰塵，直到完全看不見。擴散模型學的是「怎麼把灰塵一層一層去掉」。訓練時加噪聲，推論時一步步去噪，最後浮現出清晰的影像。它兼具穩定性跟多樣性，是目前最主流的影像生成技術。

Stable Diffusion 生成的圖如果有顆粒感或邊緣模糊，解法是增加取樣步數並選擇高品質取樣器，不是降低步數（會更模糊）、不是提高 CFG（那是控制創意度，跟清晰度無關）、不是改用低解析度（反而更差）。

三者的根本差異怎麼記？VAE 靠壓縮還原捕捉整體結構，GAN 靠對抗訓練追求逼真度，Diffusion 靠去噪雕刻兼顧穩定跟多樣。考試直接考你三者比較時，抓住這三句話就能選對。

資料不夠的時候：AI 自己造資料

訓練 AI 需要大量資料，但資料常常不夠。

資料增強與多模態缺失圖解：左側展示旋轉色偏放大等 Data Augmentation 手法，右側以拼圖缺塊比喻 Multimodal Missing Data 處理方式

資料增強（Data Augmentation）就是用同一筆資料變出更多版本：翻轉圖片、調色溫、加噪點。

但資料增強也會出問題。如果增強後的資料跟原始資料的特徵分佈不一致（比如增強的圖片色溫都偏藍，但原圖沒有），模型的泛化能力反而會下降。考試出的情境是：導入資料增強後效果反而下降，原因是「增強後資料的特徵分佈與原始資料不一致，影響模型泛化能力」，解法是「檢查並調整增強策略以維持語意一致性」。

文字領域的資料增強叫反向翻譯（Back-Translation）：把中文翻成英文，再翻回中文，就得到一句意思一樣但用詞不同的新句子。這在低資源語言（訓練資料很少的語言）特別有用。考試會問「少數民族語言只有一萬筆資料，如何在不新增真實語料的情況下提升泛化能力」，答案就是 Back-Translation。

多模態：同時處理圖片和文字

現實世界的資料不是只有一種格式。有時候你有影像但沒有文字描述，有時候文字很完整但缺圖片。多模態 AI 要能同時處理多種類型的資料。

但如果某個模態缺失了怎麼辦？比如只有影像沒有文字說明。最好的策略不是把缺失的部分用零填充、不是直接丟掉那筆資料、也不是用 GAN 去補。而是訓練具備模態缺失感知能力的模型，讓它學會在某個模態缺失時，從其他模態推測出足夠的資訊。

如果同時需要預測（分類）跟生成（造出新資料做 A/B 測試），VAE 或 GAN 比傳統分類模型（Random Forest、邏輯迴歸）更合適，因為它們天生有生成能力。強化學習代理是另一種東西，不適合這個場景。

費曼檢查點：你能不能用「偽鈔犯 vs 警察」「壓縮機」「雕刻家」三個比喻，分別解釋 GAN、VAE、Diffusion？如果可以，生成式 AI 這塊你就通了。

故事四：怎麼幫 AI 打分數

AI 模型訓練完了，你要知道它表現好不好，但「好不好」不是只有一種衡量方式，用錯指標會讓你做出錯誤的判斷。

模型評估指標圖解：漏斗篩人比喻 Precision 與 Recall，天秤說明 F1 Score，下方圖解交叉驗證資料洩漏陷阱

Precision、Recall、F1：用「抓壞人」來記

想像你是一個偵探，任務是從 100 個人裡抓出壞人。

Precision（精確率）：你抓的人裡面，有多少真的是壞人？如果你抓了 10 個，8 個是真壞人，Precision = 80%。

Recall（召回率）：所有壞人裡面，你抓到多少？如果一共有 20 個壞人，你抓到 8 個，Recall = 40%。

F1：Precision 跟 Recall 的折衷分數。公式是 2 × P × R /（P + R）。如果有一邊很低，F1 也會被拉低，它逼你兩邊都不能太差。

考試問「同時兼顧 Precision 跟 Recall 的指標」，答案就是 F1。不是 Accuracy（整體猜對率，不平衡時會騙人）、不是 RMSE（那是迴歸用的）、不是 MSE（也是迴歸用的）。

交叉驗證：用不同的考卷考同一個學生

只考一次就決定學生好不好，太不公平了，萬一那份考卷剛好出到他準備過的範圍呢？

交叉驗證（Cross-Validation）就是把資料分成好幾份，每次用不同的份當考卷，其他的當課本，反覆考好幾次，這樣得到的成績比考一次更可靠。

但有個陷阱：如果你一邊調模型的超參數（Hyperparameters，像學習率、樹的深度、正則化係數等），一邊在交叉驗證的資料上看成績，就等於學生邊考邊翻課本。結果會過度樂觀。

正確做法是把超參數搜尋跟模型評估分開：用一套巢狀的交叉驗證，外層評估、內層調參數，不讓資料互相偷看。

考試問「在 K-fold 的資料上同時調參數跟評估效能會導致什麼」，答案是「過度樂觀偏差（Over-optimistic Bias），因為測試摺資料間接參與了參數選擇，造成資料洩漏」。

超參數搜尋：怎麼找最佳組合

調超參數就像調收音機：你要找到最清楚的頻道。

Grid Search（網格搜尋）：把每個頻率都試一遍。最全面但最慢，頻道越多越慢。

Random Search（隨機搜尋）：隨機試幾個頻率。參數很多的時候比 Grid Search 更有效率，因為很多參數其實對結果影響不大，隨機反而更快找到好的組合。

Bayesian Optimization（貝葉斯優化）：根據已經試過的結果，動態決定下一個該試哪個。像是有經驗的調音師，每次試完會推測「下次該往哪邊調」。

考試問「系統化測試多組超參數設定」，答案是 Grid Search。「快速探索部分參數空間提升效率」是 Random Search。「根據歷次結果動態調整搜尋方向」是 Bayesian。

超參數搜尋與特徵工程圖解：旋鈕比喻 Grid Search、Random Search、Bayesian Optimization，下方說明 PCA 降維與 LASSO 正則化

PCA 跟 LASSO：欄位太多的時候怎麼辦

房價預測模型有「建坪」「房齡」「樓層」「總價」等一堆特徵。但「房間數」跟「坪數」高度相關（房間多的通常坪數大），這會讓線性迴歸的係數不穩定。

PCA（主成分分析）像是把十幾門考試成績合併成「理科」跟「文科」兩個總分。它不是挑出最重要的欄位，而是把多個相關的欄位融合成幾個獨立的新欄位。PCA 降維後可以降低訓練時間、減少過擬合風險，但不是說「PCA 保留的主成分一定能提升分類準確率」或「原始高維資料通常更能保留資訊」（PCA 就是在不怎麼丟資訊的前提下降維的）。

LASSO（L1 正則化）是另一種處理方式：在模型的損失函數加上懲罰項，把不重要特徵的係數直接壓到零，等於自動幫你做特徵選擇。考試問「多重共線性嚴重時該用什麼」，答案可以是 PCA 也可以是 LASSO，看選項怎麼出。

核心是：不是繼續保留所有特徵不處理、不是用不含正則化的普通線性迴歸、也不是換分類模型。

特徵工程：連續型 + 類別型怎麼一起用

資料裡同時有數字（年薪 50 萬、年齡 30 歲）和類別（性別、縣市）時，不能直接混在一起丟給模型。

最好的做法是：連續型特徵做標準化（Standardization），讓所有數字的範圍一致；類別型特徵用目標編碼（Target Encoding），並且生成交互特徵（兩個特徵相乘），讓模型能學到特徵之間的關聯。不是只用標籤編碼（Label Encoding）丟進去、不是把連續型也切成類別、不是只保留連續型忽略類別型。

費曼檢查點：你能向朋友解釋「為什麼 Precision 高不代表模型好」嗎？（因為它可能把門檻拉很高，只抓最有把握的，結果很多壞人漏掉了。）

故事五：餵錯資料比選錯模型更致命

廚師再厲害，食材壞了也煮不出好菜，AI 模型再先進，資料有問題就不可能準。

資料品質圖解：Data Drift 與 Concept Drift 分佈變化對比，下方介紹 DBSCAN 分群、ARIMA 時間序列、JSON 巢狀日誌處理

Data Drift：世界變了，模型沒更新

想像你訓練了一個預測「顧客會不會流失」的模型，訓練資料是去年的。今年市場上出現一個強力競品，顧客行為完全改變了，你的模型還在用去年的規則做判斷。

這就是資料漂移（Data Drift）：輸入資料的分佈跟訓練時不一樣了。系統沒有報錯，但預測準確率悄悄下滑。

怎麼偵測？計算輸入特徵分佈間的 KL 散度（KL Divergence），它能量化「現在的資料分佈跟訓練時差多少」。不是重新訓練（那是解法不是偵測法）、不是提升模型複雜度（跟漂移無關）、不是增加測試資料（也跟偵測無關）。

Data Drift 跟 Concept Drift（概念漂移）不一樣：Data Drift 是輸入變了，Concept Drift 是輸入跟輸出的關係變了（比如以前「月消費高」代表忠誠顧客，現在代表正在比較要不要換）。兩者都需要監控，但監控方法不同。

考試問「MLOps 流程中主動偵測並預警比類問題」，答案是建立即時的 Data Drift 與 Concept Drift 監控機制。

金融風控系統上線後分類錯誤率上升，經檢查發現輸入資料分佈已跟訓練集明顯不同，這也是 Data Drift 的典型情境。解法是用 VAE 監控潛在空間分佈，偵測輸入資料偏移。

DBSCAN 的兩個旋鈕

DBSCAN 是一種自動分群的演算法，不需要事先告訴它「要分幾群」。它靠兩個參數決定群集：鄰域半徑 Epsilon（多近算鄰居）跟最小點數 MinPts（多少個鄰居才算一群）。

考試問「DBSCAN 的兩個主要超參數」，答案就是 Epsilon 跟 MinPts。不是特徵數跟學習率、不是 K 值跟距離閾值、不是交叉熵跟權重初始化。

DBSCAN 的一個實務問題是：資料量很大時很慢。解法不是換成階層式群集（那更慢），也不是把 Epsilon 調很小（那只是改結果），而是用高效率的距離索引結構，例如 KD-Tree 或 Ball Tree，加速鄰域搜尋。

時間序列的殘差診斷

用 ARIMA 預測每週銷售量之後，你要檢查殘差（預測值跟真實值的差距）是不是隨機的。如果殘差呈現週期性波動、自相關函數在多個時滯上仍顯著不為零，代表模型沒抓到某些規律，配適不足（Underfitting）。解法是調整 p 或 q 參數來捕捉時間依賴性，不是忽略不計。

情緒模型的偏見

訓練一個情緒分析模型，上線後發現對某些語言或族群風格的評論判斷不一致。例如語氣強烈的正面評論被誤判為負面，或禮貌但含批評意圖的評論被判為中性。

考試問「哪一項描述不正確」，答案是「Transformer 架構能捕捉上下文語意，但若訓練資料偏差仍存在，模型仍可能學習到偏誤判斷」——這句話其實是正確的。不正確的是另一個選項，通常會暗示模型架構本身能完全解決資料偏見的問題。

處理 JSON 巢狀結構

企業的系統日誌通常是 JSON 格式，而且欄位會套欄位（巢狀結構）。要從裡面提取時序特徵供故障預測模型使用，不能只是簡單壓平成 CSV，也不能直接丟給 RNN 吃原始字串。正確做法是設計遞迴函式展開巢狀欄位，並基於時間視窗（Time Window）進行聚合與特徵萃取。

費曼檢查點：你能不能解釋「Data Drift 跟 Concept Drift 差在哪裡」？如果你能用「輸入變了」跟「輸入跟輸出的關係變了」這兩句話分清楚，你就理解了。

故事六：AI 上線不是結束，是另一個開始

模型訓練完只是起點，怎麼部署、怎麼監控、怎麼確保穩定運行，這些叫做 MLOps（Machine Learning Operations）機器學習營運，科目一有大約十題都在考這個領域。

MLOps 餐廳後場藍圖：Kubernetes 調度經理、Model Registry 食譜管理員、CI 自動品管、Phased Rollout 先讓少數人試吃

用開餐廳比喻整個 MLOps 流程

Kubernetes = 後場調度經理：它不負責做菜（不負責訓練模型），它負責管理哪個廚師在哪個工作台、人手不夠時自動加人。考試問「Kubernetes 在 AI 模型部署中的核心功能」，答案是「管理與協調模型服務的部署、擴展與運行環境」。不是訓練模型、不是存資料、不是做 GPU 加速。

Model Registry = 食譜管理員：記錄每道菜的食譜版本、什麼時候改過、誰改的、用什麼食材。考試問「Model Registry 最常用於哪個階段」，答案是「集中管理模型版本、訓練紀錄與部署狀態」。不是設定運算資源、不是建立可重複使用的資料版本、不是追蹤上線後的模型漂移。

CI（持續整合）= 每天自動品管：每次有人改了程式碼就自動跑測試，確保沒有壞掉。考試問「CI 的核心實踐」，答案是「每次程式碼提交後自動觸發建置、單元測試及靜態程式碼分析」。不是每天固定時間手動合併、不是模型訓練完才定期回顧、不是用自動化部署腳本排程釋出。

Phased Rollout（漸進式部署）= 先讓少數人試吃：大型醫院要導入 AI 輔助診斷，不會一次全院上線。最穩的做法是從單一專科（如放射科）或特定病房開始啟用，逐步擴展至全院。不是先部署在急診（風險太高）、不是只在離峰時段用（限制太大）、也不是全院同步用提示模式（規模太大不好控制風險）。

高可用架構：十萬人同時用不能掛

AI 服務每次推論要 1 秒，峰值要支撐 10,000 RPS（每秒請求數），怎麼確保不掛？

答案是容器化部署（Container）搭配水平擴展（Horizontal Scaling）加上自動彈性伸縮（Auto Scaling）。不是靠單台超強伺服器垂直擴展（單點故障風險）、不是限制最大連線數（治標不治本）、不是增加批次大小（那改的是處理方式不是架構）。

監控：模型會慢慢變壞

模型上線後的預測信心度（Confidence）分佈是最敏感的監控指標。如果分佈開始變化（例如以前大部分預測的信心都在 90% 以上，現在開始出現一堆 60% 的），代表模型可能遇到它不熟悉的資料，效能開始下滑。

考試問「哪個監控指標最能提早發現模型效能下滑風險」，官方本題答案是 PSI（Population Stability Index），也就是監控「輸入特徵與訓練資料分布差異」。PSI 可用來預警線上資料分布是否偏離訓練資料，進而造成模型表現衰退。Confidence 分佈也可以作為輔助監控訊號，但不是本題官方答案。不是 CPU 跟記憶體（那是系統健康）、也不是 API 延遲（那是效能，不是準確度）。

GPU 記憶體不夠怎麼辦

大型語音合成模型用多台 GPU 訓練，經常記憶體不足。模型架構已固定不能改。解法是採用較小的批次大小（Batch Size）並搭配資料分片（Data Sharding）分散訓練負載。不是減少訓練資料量（會影響品質）、不是增加學習率（跟記憶體無關）、不是改用測試集訓練（大忌）。

不可否認性：AI 做的決定要留紀錄

金融機構把 AI 詐欺偵測整合到核心交易系統，監管要求必須做到「不可否認性（Non-repudiation）」：事後能證明是誰、在什麼時候、做了什麼決定。

做法是：為每筆 AI 推論記錄其輸入與輸出結果的加密雜湊值（Hash），並簽署數位簽章以確保不可竄改。不是優化推論延遲（那是效能）、不是增加備援機（那是高可用）、不是用負載平衡器（那也是效能）。

多任務學習的 Loss 權重

同一個 Transformer 模型同時做 OCR 文檔分類跟命名實體辨識（NER）。初期發現 NER 準確率提升時，文檔分類反而下降。原因是損失函數（Loss Function）沒有做權重平衡，兩個任務在搶同一批參數的注意力。解法是調整 Loss 的權重，讓兩個任務的學習不會互相拉扯。

費曼檢查點：如果有人問你「Kubernetes 跟 Model Registry 差在哪裡」，你能不能用「調度員 vs 檔案管理員」一秒回答？

AI 維運與安全防線四層圖解：對抗攻擊防禦與數位浮水印、Hash 加密與數位簽章、Confidence 監控預警、容器化部署與水平擴展

故事七：AI 不是法外之地

AI 越來越強，但它不是可以為所欲為的，科目一有幾題專門考 AI 的安全跟倫理，這些題目的核心只有兩個概念。

對抗攻擊：在考卷上做暗記

對抗性攻擊（Adversarial Attack）是在輸入資料上加一點人眼看不出來的微小擾動，但 AI 就被騙了。例如在一張貓的圖片上加幾個像素的噪點，AI 就把它分類成狗。

防禦方式是在模型訓練階段就導入對抗樣本訓練（Adversarial Training），讓模型學會辨識這些惡意擾動。考試問「從根本上解決模型對對抗性攻擊脆弱性的技術手段」，答案不是過濾異常輸入（治標）、不是推論後加規則（太晚了）、不是網路防火牆（那是 IT 安全不是模型安全）。

著作權：浮水印追蹤

企業用生成式 AI 生成行銷內容，如果部分內容涉及著作權侵權怎麼辦？最有效的預防策略是在模型輸出端嵌入浮水印（Watermarking）或數位指紋（Digital Fingerprint），確保生成內容可追溯。不是在輸出端做語意比對（那是事後偵測不是預防）、不是建立訓練資料篩選機制（跟輸出端的追蹤是不同層面的）、不是在訓練時用差分隱私（那是保護訓練資料隱私，不是防止輸出侵權）。

費曼檢查點：你能不能解釋「對抗攻擊」跟「一般的系統入侵」差在哪裡？（對抗攻擊不是入侵系統，而是從正門輸入看起來正常但經過精心設計的資料來騙模型。）

總結：7 個故事覆蓋 50 題

科目一的 50 題，拆到底就是 7 個故事：

故事	核心問題	覆蓋題數
AI 怎麼聽懂人話	NLP 的層次：字 → 句 → 文件	約 10 題
AI 怎麼看懂圖片	偵測 → 分割 → 跨模態	約 4 題
AI 怎麼無中生有	GAN vs VAE vs Diffusion	約 8 題
怎麼幫 AI 打分數	指標、驗證、調參	約 9 題
餵錯資料比選錯模型更致命	Data Drift、偏見、資料品質	約 8 題
AI 上線不是結束	MLOps 全流程	約 9 題
AI 不是法外之地	安全與倫理	約 2 題

考前不要背名詞解釋，改成跑一遍 7 個故事的「費曼檢查點」：每個檢查點都用自己的話說一遍，說不出來的就回去重讀那一段。

能用自己的話說清楚，就代表你真的懂了，考試只是換個包裝再問你一次而已。

AI 系統全流程齒輪組總覽：從 Data Inflow 到 TF-IDF CLIP 工具、NLP CV GenAI 模型架構、評估區到 MLOps 部署的連動關係

NotebookLM Podcast

參考資料

iPAS 經濟部產業人才能力鑑定（2025）. AI 應用規劃師中級能力鑑定考試簡章

iPAS 經濟部產業人才能力鑑定（2025）. 114 年第二次 AI 應用規劃師中級能力鑑定公告試題｜第一科：人工智慧技術應用與規劃

FAQ

費曼學習法跟一般的備考方式有什麼不同？

一般備考是先背名詞定義再做題，遇到不會的再回去翻。費曼學習法反過來：先用日常比喻建立直覺，技術名詞最後才出場。如果你能用自己的話向完全不懂的朋友解釋一個概念（例如用「偽鈔犯 vs 警察」解釋 GAN），就代表你真正理解了，而不只是記住定義。這種理解方式讓你在考試遇到換包裝的新題目時，也能推理出答案。

這篇文章跟原本的科目一命題分析文章差在哪裡？

原本的命題分析文章以 7 大命題分類為主線，技術密度較高，每個命題搭配考題佐證，適合有一定基礎的讀者快速對照考點。這篇費曼版以 7 個故事為主線，每個概念都從日常比喻出發，從零建立直覺，適合第一次接觸這些概念的讀者。建議先讀費曼版建立理解，再用命題分析版對照考點細節。

科目一 50 題裡面哪些概念最容易搞混？

六組高混淆概念：Word2Vec vs GloVe（預測派 vs 統計派）、Softmax vs MaxPooling（轉機率分布 vs 取最大值縮小特徵圖）、語義分割 vs 實例分割 vs 全景分割（只分類別、分個體、兩者合體）、GAN vs VAE vs Diffusion（偽鈔犯 vs 壓縮機 vs 雕刻家）、Data Drift vs Concept Drift（輸入分佈變了 vs 輸入跟輸出的關係變了）、Kubernetes vs Model Registry（調度部署環境 vs 管理模型版本紀錄）。

考前最後一天應該怎麼用這篇文章複習？

跑一遍 7 個故事結尾的「費曼檢查點」，每個問題用自己的話回答。能回答的跳過，卡住的就回去重讀那一段。全部通過大約 30 到 40 分鐘。不要重新讀整篇文章，只針對說不出來的概念補強。

科目一的 NLP 題佔多少比重？最該注意什麼？

NLP 相關約 10 題，佔五分之一。最該注意的是 Transformer 的自注意力機制（Self-Attention）為什麼能解決 N-gram 的長距離依賴問題、BERT 的 MLM 訓練策略是「隨機遮罩」而非「從左到右遮」、RAG 的檢索階段挑戰是避免語意相似但意圖無關的結果、Word2Vec 跟 GloVe 的核心差異是預測 vs 統計。這四個考點幾乎每次都出。

GAN、VAE、Diffusion 三種生成模型怎麼快速區分？

用一句話記：GAN 是偽鈔犯跟警察互相對戰（生成對抗訓練追求逼真度）、VAE 是壓縮機（把資料壓縮成摘要再還原，捕捉整體結構）、Diffusion 是雕刻家（從雜訊一步步去噪雕刻出清晰影像，兼具穩定性跟多樣性）。考試問三者比較時，抓住這三句話就能選對。GAN 的經典問題是 Mode Collapse（只生成單一模式），解法是 WGAN。

MLOps 那一塊不是工程師也要會嗎？

科目一考的不是要你會操作 Kubernetes 或寫 CI pipeline，而是要你知道這些工具在 AI 專案生命週期裡扮演什麼角色。例如 Kubernetes 負責部署調度、Model Registry 負責版本管理、CI 負責自動品管、Phased Rollout 負責控制上線風險。用「開餐廳」的比喻記：Kubernetes 是後場調度經理、Model Registry 是食譜管理員。作為 AI 應用規劃師，你要能判斷什麼時候該用什麼工具。

Data Drift 跟 Concept Drift 差在哪裡？

Data Drift 是輸入資料的分佈變了（例如顧客行為模式因競品出現而改變），但輸入跟輸出的關係沒變。Concept Drift 是輸入跟輸出的關係本身變了（例如以前「月消費高」代表忠誠顧客，現在代表正在比較要不要換品牌）。兩者都會讓模型預測準確率下滑，但偵測方法不同：Data Drift 用 KL 散度比較輸入分佈，Concept Drift 要監控預測結果跟實際結果的對應關係。

科目一的考題會不會每年變很多？

根據 114 年公告試題分析，出題者的底層命題結構相當穩定：NLP 語言理解、電腦視覺、生成式 AI、模型評估、資料品質、MLOps、AI 治理這 7 個主題每次都會出。改變的是包裝方式（換產業情境、換模型名稱、換程式碼語法），但底層考的判斷力不變。所以費曼學習法特別有效：你理解了原理，不管怎麼換包裝都能推理。

這篇文章覆蓋了全部 50 題的概念嗎？

是的。7 個故事覆蓋了 114 年第二次公告試題全部 50 題的核心概念。每個故事不是逐題拆解，而是把相關概念歸納成一個連貫的理解線索。例如 NLP 故事從「教 AI 認字」到「讀句子」到「填空跟翻譯」，一路串起 Word2Vec、GloVe、Transformer、BERT、N-gram、TF-IDF、Seq2Seq、RAG 等概念。