在談人工智慧代理(AI Agent)之前,我們先來看一下我們究竟為何需要人工智慧?
AI的終極目標
OpenAI的目標是隨著時間的推移將LLM結合起來,打造出一個更強大、最終可以稱為AGI的模型。
圖靈獎得主蒙特婁大學知名人工智慧學者班吉歐(Yoshua Bengio)於2024年11月19日指出,「缺乏思考能力」一直以來被視為AI的主要弱點之一,但ChatGPT開發商OpenAI最近在這方面取得的進展規模讓他相信、目前可能處於縮小與人類推理水準差距的邊緣。
班吉歐表示,大型語言模型(LLM)已經可以針對複雜問題提出更好的答案,OpenAI的新「o」系列進一步推進這項想法。他說,推理和代理能力的開發被認為是通往通用人工智慧(AGI)道路的主要里程碑,o1在更複雜的長期規劃任務上舉步維艱,這也表示要實現AI企業所尋求的那種自主代理還有很多工作要做。
人工智慧代理(AI Agent)的市場有多大?
Gartner
Gartner預測到2028年,與生成式AI服務的互動中,有三分之一將調用行動模型和AI Agent來完成任務。
MarketsandMarkets
MarketsandMarkets的最新預測報告,人工智慧代理市場規模預計將從2024 年的僅51 億美元大幅擴張至2030 年的約471 億美元,期間複合年增長預期高達44.8%。
該機構表示,使用AI 代理,企業可以自動化各種非常複雜的流程並減少人工幹預以避免頻繁出現的人為錯誤,AI 代理與企業級內部自動化工具的整合將實現從制定產品銷售方案到售後服務的一站式AI處理,大幅提升企業經營效率。
Grand View Research
Grand View Research最新預測顯示,2024 年全球AI 代理市場規模預計僅為54 億美元,預計2024 年至2030 年的複合年增長率將高達45.1%,即2030年預計將擴張至503億美元,意味著如果未來需求更加爆炸,翻十倍非常有可能。
該機構指出,一站式自動化需求指數級增加、自然語言處理技術不斷進步以及個性化客戶體驗需求的不斷增長是推動這一市場增長的主要因素,疊加亞馬遜與微軟等巨頭們的雲端AI應用軟體開發平台有望被企業與個人廣泛採用,將使得企業部署AI 代理變得更加容易且經濟高效。
什麼是人工智慧代理(AI Agent)?
OpenAI 奧特曼的看法
定義
OpenAI 執行長奧特曼(Sam Altman)接受「The Twenty Minute VC」播客主持人Harry Stebbings的訪問中,解釋了他所認為的人工智慧代理(AI Agent)。
我覺得AI Agent是一種能夠執行長時間任務的程序,在執行任務過程中幾乎不需要人為監督;而且我認為人們還沒有完全理解AI Agent在未來世界中所扮演的角色。
奧特曼舉的例子
一個很好的例子是讓AI Agent幫忙訂餐廳,例如它能用OpenTable做到,或是直接打電話給餐廳。這確實可以節省一些時間,但我認為更令人興奮的是Agent能做一些人類做不到的事情,例如Agent可以同時聯繫300家餐廳,為我找到最適合的菜餚或能提供特殊服務的餐廳。這對人類來說幾乎是不可能的任務,但如果Agent之間都是AI,它們可以並行處理,這個問題就迎刃而解了。
雖然這個例子很簡單,但它展示了Agent超越人類能力的功能。更有有趣的是,Agent不僅能幫你訂餐廳,還能像一個非常聰明的資深同事,可以與你合作完成一個專案;或者它可以獨立完成一個需要兩天甚至兩週的任務,只有在遇到問題時才會聯絡你,最終呈現出一個優秀的成果。
Meta和富比士的看法
祖克柏表示「我認為我們生活在一個將有數億人工智慧代理的世界……也許還有更多。人工智慧代理比世界上的人還要多。」
富比士:「代理是新的應用程序,有一天,將會有數千個這樣的應用程式。」
更精確的定義
在medium.com上,purpleSlate提出了他對對於人工智慧代理(AI Agent)的看法,我還滿同意他的見解的,以下這段就分享他的看法。
和聊天程式的不同
我甚至會說,許多聊天機器人僅在介面方面表現出色。大多數依賴預先定義的對話模式和
決策樹,導致語言理解能力較弱和使用者體驗不佳。
三項組成元素
對於人工智慧代理,三個關鍵方面在幕後運作。請記住,AI 代理仍然是一個軟體:
- 理解:作為一個主要的對話式介面,一個關鍵功能是出色的語言理解(LU)能力。這使得代理人能夠清楚地理解所詢問的內容。
- 思考:這是人工智慧的核心組成部分,決定了行動的過程。
- 行動:這是「做」的部分。人工智慧代理可以執行各種操作,例如回答查詢、處理業務事務或將複雜問題回報給人工智慧代理。目的是提供無縫體驗,確保客戶收到及時且有用的回應。
借助人工智慧代理,在更好的語言理解能力方面,增值顯著提升,採取複雜的行動,並透過持續讓人工智慧代理在使用上變得更加聰明。
對科技產業趨勢掌握最精準的創投業者的看法
Y Combinator
在YC(Y Combinator)最新一期節目《Vertical AI Agents Could Be 10X Bigger Than SaaS》中, 從SaaS 行業的發展歷程出發,結合了大量實例和深刻洞察,深度分析了為何垂直領域AI代理將成為下一個創業風口。
SaaS(軟體即服務)模式的出現徹底改變了軟體產業,SaaS 模式將軟體託管在雲端,用戶只需支付訂閱費用即可使用,大大降低了軟體的使用門檻和成本。因為AI Agent 不僅可以像SaaS 一樣提供軟體服務,還可以透過AI 技術實現自動化操作,進一步提高效率並降低成本。
LLM 技術的進步為AI Agent 的發展奠定了基礎,越來越多的新創公司開始利用AI Agent 技術來解決各行各業的難題。若將AI與初期的Saas產業對比,YC資深投資人認為,LLM技術的突破猶如2004年瀏覽器引入XML HTTP請求,開啟了全新的計算模式,使得AI Agent能將軟體與人工操作深度結合,在效率和成本方面實現品質的大幅飛躍。
YC合夥人、資深投資人Jared更特指出,垂直領域AI Agent有望成為比SaaS大10倍的新興市場,憑藉替代人工操作、提升效率的顯著優勢,這一領域可能催生出市值超過3000億美元的科技巨頭。
Menlo Ventures
創投公司Menlo Ventures在2024年11月20日指出,代理自動化將驅動下一波人工智慧轉型、解決複雜的多步驟任務。
Menlo Ventures合夥人Tim Tully受訪時指出,AI代理功能是真實的、絕非炒作,AI代理不一定能治百病、但肯定會提高生產力並幫助企業增加營收。
這份報告顯示,Clay、Forge等平台預示,先進的AI代理功能將如何衝擊4,000億美元的軟體市場並蠶食10兆美元的美國服務經濟。這些轉變將需要代理認證、工具整合平台、AI瀏覽器框架等新基礎設施的支援。
受到衝擊的企業
已經不支倒地的企業
ChatGPT僅在2024年就對線上教育平台Chegg(美股代碼:CHGG)、Stack Overflow的衝擊為既有領導廠商敲響警鐘:
2024年11月,Chegg在向美國證券交易委員會提交的文件中宣布將再裁員441人,自2023年以來,這家公司已經裁員兩次,2023年年6月裁員約80人,2024年6月裁
員319人。自ChatGPT發布以來,Chegg失去了超過50萬的付費訂閱用戶,股價從2021年初的高點下跌了99%。
受到ChatGPT和類似的大模型聊天程式出現,能立即回答程式設計師的各種問題,甚至直接產生程式代碼,使用者不再仰賴傳統的程式討論論壇。這樣的轉變,使得美國軟體設計人員最常造訪的Stack Overflow的網路流量直接腰斬。
容易被取代的企業
高知特(Cognizant,美股代碼:CTSH)這類資訊科技外包企業和像UiPath(美股代碼:PATH)這樣的傳統自動化公司應該為可能面臨AI原生挑戰者做好準備;因為這類型企業是最容易被AI原生挑戰者給取代的企業。
正在強化自身產品AI功能的企業
隨著時間的推移,即使像奧多比(Adobe,美股代碼:ADBE),賽富時(Salesforce,美股代碼:CRM)、歐特克(Autodesk,美股代碼:ADSK)這樣的軟體巨擘也正在強化本身產品的人工智慧的功能,以正面迎戰新興的AI原生挑戰者,以免被AI潮流淹沒。
重要企業推出的人工智慧代理
企業名稱 | AI Agent名稱 | 首次公開時間 | 重要功能舉例 |
輝達 | Eureka | 2023年10月 | Eureka AI Agent用GPT-4生成獎勵函數,教導機器人完成了三十多個複雜任務。例如,快速轉筆,打開抽屜和櫃子、拋球和接球 |
輝達 | AI Blueprints | 2025年1月 | AI Agent應用程式,可以讓開發人員建立和啟動自己的自訂AI代理。 |
微軟 | Copilot Studio | 2024年11月 | 透過Copilot Studio能創造自動化AI代理,以Copilot作為AI助理,讓使用者與AI代理互動 |
蘋果 | Apple Intelligence | 2024年10月 | 寫作工具、影像工具、個性化表情符號、改良版的Siri、摘要、語音轉錄、優先郵件、減少干擾 集中精力、照片清理 |
字母 | Mariner | 2024年12月 | 可以控制您的 Chrome 瀏覽器,在螢幕上移動遊標,點擊按鈕並填寫表單,使其能夠像人類一樣使用和瀏覽網站。協助人們完成日常任務,如購物、訂機票 |
字母 | Vertex | 2021年5月 | Vertex AI代理生成器 |
亞馬遜 | Alexa+ | 2025年2月 | 整合了亞馬遜自研的Nova模式和Anthropic的Claude模式,提供自然對話與個人化互動,完成複雜任務,多設備無縫銜接,視覺與多模態能力 |
Meta | Meta AI | 2023年9月 | 能夠進行複雜的推理、遵循指示、形象化想法並解決微妙的問題 |
甲骨文 | Oracle Fusion Cloud Sales | 2025年1月 | 客戶參與、客戶記錄、客戶情報等。 |
思愛普 | Joule | 2023年9月 | 檢索資料、擷取見解、回答問題、透過結合來自不同領域(例如供應鏈、採購和財務)的代理商來打破資訊孤島的現象 |
賽富時 | Agentforce | 2024年9月 | 餐飲、醫療、零售、金融產業,能自行找到客戶訂單並進行修改,取代人類的工作 |
奧多比 | Agent Orchestrator | 2025年3月 | 協調 AI 代理直接與客戶互動並支援跨 Adobe 應用程式和第三方軟體的日常工作 |
ServiceNow | ServiceNow Agentic AI | 2024年9月 | 將Agentic AI 整合到ServiceNow平台中,並在多個用例中大規模釋放24/7生產力,包括IT、客戶服務、採購、人力資源、軟體開發等。 |
Workday | Workday Illuminate | 2024年9月 | 四款AI代理Recruiter, Expenses, Succession, and Workday Optimize Agents能簡化人力資源和財務部門日常的工作 |
OpenAI | Operator | 2025年1月 | 可以使用電腦代表某人採取行動,例如編寫程式碼或預訂旅行 |
OpenAI | Canvas | 2024年12月 | ChatGPT中內建的Canvas,可自動觸發寫作和程式設計,相當於為創作者和程式設計師提供的AI助理,讓使用者和ChatGPT互動式協作完成一個專案。 |
Anthropic | Claude | 2024年10月 | 像人類一樣使用電腦、以數百個步驟,完成複雜任務,未來可以要求AI代理預訂航班、填寫表格、進行線上研究和提交費用報告 |
主要企業的佈局和看法
輝達
代理型AI被輝達執行長黃仁勳視為下一個大趨勢,各大科技巨擘致力於打造「AI代理」(AI Agent),生成式AI基礎的大語言模型是下個主戰場。
AI代理指在有限的人類監督下,具備在特定環境中,擁有自主做出決策、執行任務能力的AI。人類下達複雜指令(prompt)後,AI代理理解人類語言、掌握環境變化,做出合適決策,因應變動還能自主學習、適應環境,改善下次執行任務成果。
與AI聊天機器人與人類對話而設計的目的不同,AI代理從開發人員端接收任務後獨立完成,可能根本不與其他機械或人類互動。
2024年11月25日,輝達創辦人和執行長黃仁勳出席2024屆香港科技大學榮譽博士學位授予儀式。黃仁勳被授予工程學榮譽博士學位並發表演講,談及人工智能的變革和展望,並提到了機器人和AI Agents兩大趨勢。
對於AI Agents,輝達執行長黃仁勳說:「世界各地的企業和公司都在競相採用人工智慧來加速創新和提高生產力,很快,AI Agents將融入公司的每個團隊,這些團隊包括行銷、銷售、供應鏈、晶片設計、軟體開發等各部門。
如表1,早在2023年10月,輝達就推出了Eureka AI Agent,採用GPT-4生成獎勵函數,教導機器人完成了三十多個複雜任務。例如,快速轉筆,打開抽屜和櫃子、拋球和接球。尤其是轉筆這個技能,要知道靠人類逐幀製作動畫,也是非常困難的。在超過80%的任務中都超越人類專家,讓機器人平均效能提升到50%以上。
微軟
除了2023年2月,公司持續推出各式的一系列Copilot家族產品,並把AI代理的功能整合進微軟的現有主要的產品中。支援撰寫郵件和報告、白板腦力激盪、規劃OneNote、產生Excel公式和圖表、預算或會計草案、視覺化展示等重要功能。
微軟2024年11月也秀出具備生成式AI推理能力的AI代理,透過Copilot Studio創造自動化AI代理的功能已經在11月公開預覽,以Copilot作為AI助理,讓使用者與AI代理互動。
字母
Alphabet旗下的谷歌2024年12月11日正式推出可用來掌控Chrome網頁瀏覽器,在螢幕上移動遊標,點擊按鈕並填寫表單,使其能夠像人類一樣使用和瀏覽網站的AI Agent。可完成研究和購物等任務,協助人們將透過網頁完成的日常例行任務自動化。協助人們完成日常如購物、訂機票等任務。
2023 年 12 月 6 日 Google 推出 Gemini 模型,並期望超越競爭對手 OpenAI 及當時主力產品 GPT-4。一年過後的2023 年 12 月11日 ,Google 宣布邁向「Gemini 2.0」,向能夠獨立完成複雜任務的 AI 代理(Agent)邁進。
OpenAI
OpenAI在2024年9月推出全球首個推理AI模型「o1」,專注於推論,會「思考過後再回答問題」,AI進行深入的網路研究後,獨立生成回答,超越現有的對話式AI的生成功能。
OpenAI透過對大規模數據進行預訓練,o1推理能力顯著增強,更適合處理現在商用AI模型無法解答的棘手科學和數學問題,在擬定商業計畫等策略上,成為「更智慧的AI助手」。
預定2025年1月推出,代號Operator的AI Agent則可以使用電腦代表某人採取行動,例如編寫程式碼或預訂旅行。
Anthropic
OpenAI的最大對手AI新創Anthropic在2024年6月就推出所謂「tool use」的新功能,可以串接使⽤者選擇的任何外部 API、資料與⼯具,進⽽發揮 AI 助理與代理⼈的⾓⾊。例如該⼯具既可以分析資料,根據⽤⼾的購買歷史建立個性化的產品推薦,也可以對客⼾查詢提供快速回應。讓任何⼈都能輕鬆打造電⼦郵件助理、購買鞋⼦的機器⼈或其他個性化解決⽅案。
在2024年10月也推出AI代理,像人類一樣使用電腦、以數十甚至數百個步驟,完成複雜任務,消費者未來可以要求AI代理預訂航班、填寫表格、進行線上研究和提交費用報告。
亞馬遜
Amazon Bedrock能透過自訂指令、編排和監控,讓廣告活動和處理保險索賠等複雜的工作任務能自動執行。
亞馬遜也正在打造代號為Metis的超強AI聊天機器人,能以智慧對話的方式,回答文本與圖像相關問題,並提供相應的資訊來源連結,推薦後續查詢、甚至生成圖像,並透過名為「檢索增強生成」(retrieval-augmented generation,RAG)的AI技術,獲取超出訓練資料之外的資訊,生成最新資訊。
亞馬遜目標將Metis打造為「AI代理人」,透過理解、學習及分析大量資料的能力,自動為使用者執行複雜任務,如提供最新的股票價格、規劃度假行程、控制智慧家居設備等,並傳出亞馬遜也在整合Metis及其數位語音助理Alexa。
Meta
馬克·祖克柏很早就提出了自主人工智慧代理的概念。 2024 年 4 月 26 日,他告訴投資者 Meta 認為「有機會以有用且有意義的方式向數十億人介紹人工智慧代理商」。
此概念逐漸發酵,並且成為通⽤型 AI(AGI)之外的另⼀個新突破點。
2023年9月所推出的Meta AI能夠進行複雜的推理、遵循指示、形象化想法並解決微妙的問題。
Meta正打造中的「AI代辦」,讓這些模型不僅能夠對話,還能推理、規劃,並擁有記憶,在沒有人類幫助的情況下,完成任務,例如能規劃並預訂旅程,還能作為工程師代理人,協助寫程式或軟體開發。

本人為原文作者,本文精華版原刊登在Smart智富月刋2025年1月號
相關文章
- 《人工智慧代理(AI Agent)會是軟體產業的下一波趨勢》
- 《深入探討人工智慧語音第一股SoundHound》
- 《雲端運算的始祖賽富時(Salesforce)如何賺錢?為何如此成功?》
- 《企業ERP的寡佔商思愛普(SAP)的AI和雲端轉型終獲成功,思愛普如何賺錢?》
- 《奧多比,一家長久以來主業都沒有強力競爭對手的上市企業》
- 《奧多比(Adobe)現在靠什麼在賺錢?》
- 《歐特克(Autodesk)如何賺錢?為什麼股價如此驚人?》
- 《C3.ai,定位成功的人工智慧公司》
- 《Palantir是一家什麼樣的企業?》
- 《目前獲利豐厚的五大人工智慧商》
- 《資本市場的人工智慧泡沫正在形成》
- 《人工智慧投資的陷井》
- 《美股主要的人工智慧上市公司》
- 《目前獲利豐厚的五大人工智慧商》
- 《生成式人工智慧新星OpenAI和爆紅的ChatGPT》
重要聲明
- 本站內容為作者個人意見,僅供參考,本人不對文章內容、資料之正確性、看法、與即時性負任何責任,讀者請務必自行判斷。
- 對於讀者直接或間接依賴並參考本站資訊後,採取任何投資行為所導致之直接或間接損失,或因此產生之一切責任,本人均不負任何損害賠償及其他法律上之責任。