- 註冊時間
- 2006-11-9
- 最後登錄
- 2024-6-5
- 主題
- 查看
- 積分
- 2173
- 閱讀權限
- 130
- 文章
- 3267
- 相冊
- 2
- 日誌
- 39
狀態︰
離線
|
ChatGPT是什麼?最新發展進度?應用與隱憂一文整理
由OpenAI開發出的ChatGPT席捲全球,為什麼ChatGPT那麼厲害?背後原理為何?從GPT-3到GPT-4又有什麼改變?使用ChatGPT有何隱憂?《遠見》一文完整更新。
ChatGPT已是2023年最夯話題,最近根據OpenAI團隊的T.E.D.演講展示,它下一波功能將更加自動化!如此進步速度飛猛的生成式AI工具,該怎麼掌握?其實現在才開始學,還來得及,更有大師免費線上課程,可讓你一次搞通指令。台灣企業與個人,則已經有首波使用者經驗談。到底它有多神?如何入門上手?以下請見全解析。
ChatGPT是什麼?
ChatGPT的開發者是一家專精於人工智慧的組織OpenAI,它的願景為讓通用人工智慧造福全人類,而ChatGPT正是實現願景途中,打造出的產品。
平常我們在網站上使用的ChatGPT,是一個網頁介面,它背後調用了GPT大語言模型。2020年,OpenAI推出震撼全球的GPT-3,今年更進一步,將GPT-4引介給大眾。GPT-4威力強大,能夠在美國律師考試拿下高分,回答起奧林匹亞與美國大學預修課程的試題,也絲毫不見遲滯之感。
根據OpenAI的介紹,ChatGPT和先前曾推出的「打電動機器人」OpenAI Five一樣,都是透過由人類提供回饋的增強學習(reinforcement learning)訓練而成。增強學習的原理類似小朋友在玩電動遊戲,即使沒有成年人陪同指導,幼童仍可以自己在不斷試錯中,藉著每次挑戰所獲得的正向與負向回饋,找到能夠通關的策略,並將其內化、銘記在心。
訓練ChatGPT時,便是仿照上述概念。OpenAI先請模型訓練者,同時扮演使用者和人工智慧助手(即現在的ChatGPT)角色,創造一定數量的數據,讓機器認識到對話的基本策略。接著,為了讓機器認知到什麼是「比較好的」對話內容與模式,訓練者會扮演使用者,向機器擔任的人工智慧助手發話,此時訓練者會提供建議幫助機器撰寫回答。
為了讓機器「學習」,訓練者會擷取機器撰寫的不同語句,接著「告訴」機器回答內容的品質高低。這些線索有如「小朋友齊打交」的正向與負向回饋,機器可以藉此改善產出,並回頭更新其產生回答的策略,就這樣一步一步的離成品邁進。
為什麼ChatGPT那麼厲害?
人們時常聽到人工智慧,雖然企業早已廣泛採用,無論金融、行銷、供應鏈等各類產業都有早應用,但因為生活中無法直接企及,對於AI還是有點距離。
不過,2016、2017年,新創企業DeepMind打造的圍棋人工智慧AlphaGo,接連擊敗圍棋名宿李世乭與柯潔,讓AI在世人心中留下難以磨滅的刻痕,原來複雜如圍棋,機器也能超越人類,下一個領域又會是什麼?
然而,下棋仍屬用途相對狹隘的弱人工智慧(weak AI),相較於在圍棋界獨孤求敗的AlphaGo,這次ChatGPT開放給眾人使用,它的應用場域顯得貼近生活,離泛用、接近人類的強人工智慧(strong AI)更進一步。
不過,ChatGPT仍屬於弱人工智慧的範疇,它的設計目標是模仿人類對話,背後運作原理實際上仍與人類邏輯推理不同。
如同「深度學習之父」楊立昆(Yann LeCun)在6月的一場演講所說,人類在演講前會先規劃大綱,以此為骨架,搭建出每個段落中要傳遞的論點,這個做法背後,有著邏輯與推理支撐。然而,ChatGPT背後的GPT模型,並不是走「先計畫再行動」的路數,而是從預先訓練好的資料中,找尋與前後文一起出現機率高的素材,多番拼湊後產生完整句子。
但是,對一般人來說,機器能夠如此流利和人們談天說地,就已經足夠驚人。
ChatGPT的優異表現,很大部分要歸功於它所站立於上的巨人肩膀,也就是GPT模型。2018年,OpenAI發表論文,主要在討論利用所謂「生成式預訓練(generative pre-training,簡稱為GPT)」,改善模型對於語言的理解,此方法成功克服當時機器學習研究者的痛點。
對投身人工智慧領域的產學界人士來說,即使技法再精妙、運算資源再豐沛,還是必須投注資源標注資料。以醫療領域為例,若想讓機器學會判讀醫療影像,藉此和醫生一樣能夠辨認疾病,在打造出分類(classification)模型之前,得讓機器知道,每張照片對應到是有患病/沒患病,或者陽姓/陰性,這個標籤沒辦法無中生有,需要透過既有資料庫,或者請人逐一標記資料。
然而,當既有資料數量不足,或是應用領域還很新的時候,一定要加入新資料以量取勝,才能讓模型表現變得更好。可是,若想拜託醫師花時間逐一標記影像,必然耗費巨大的人力成本。
不只是影像辨識,其他領域狀況亦然。AI助手生成信件的文字品質夠好嗎?人工智慧替人資做的履歷篩選建議會不會有遺珠?金融場景中盜刷和貸款違約預測的判定品質如何?這些都仰賴人類實際的回饋。
GPT厲害在它能夠基於無監督(unsupervised,指沒有標籤)的數據,先建立起通用的語言模型,這解決了上述每換一個領域、便要重新標注資料的問題,接著OpenAI針對有監督(supervised,指有標籤)的特定任務逐步微調,如此一來,還能進一步提升模型表現。
ChatGPT有何突破?
當然,使用無監督的數據生成模型說來容易,原理上聽起來也合情合理。但實務上的挑戰甚巨,因為訓練模型,仰賴運算能力,這意味著燃燒資本。
就第一代GPT模型來說,預訓練的數據量達到約5GB,使用到的參數接近1.2億。隔年(2019)OpenAI發表GPT-2,預訓練的數據量暴漲,直接衝高到40GB,使用到的參數更是來到15億。OpenAI並沒有停下腳步,在2020年又釋出了GPT-3,這次的數據量翻了千倍,達到45TB,而參數量也升級到1,750億。
隔了3年,OpenAI在今年(2023)3月發表GPT-4,但沒有公布模型架構、參數細節、訓練過程,因此遭到外界抨擊,因為OpenAI的成果受益於其他研究機構和企業的開源,包含谷歌、臉書、學術團體等。楊立昆便直言,OpenAI從專注於研究(research)的實驗室,轉變為開發產品(product)、替微軟服務的單位,其保密做法更無法讓世界上其他企業能夠一起進步。
針對不願開源的指控,OpenAI曾回應,它們擔心開放模型讓人使用,會有濫用風險,才會採取開放API的方式,讓潛在損害停留在可控範圍。當然,反對者無法接受此一說法,認為OpenAI連訓練過程、使用資料、參數大小都沒公佈,這無疑是避重就輕的回答。
另外,不看模型的參數數量,改看ChatGPT對話長度的token數,這個數字能夠反映出ChatGPT對話的上限,若超過此限制,它會忘記交談內容、失去脈絡。
GPT-4出現後,系統能夠接受的token數量從4000躍升到了3萬2000,足足有八倍之多,這將大幅提升應用上的可能性,無論是客服機器人,或是文字摘要,都將變得更為容易;不過,現在OpenAI僅開放8000多個token的版本供人使用。
OpenAI沒有公布訓練GPT模型所投入的資金。但就深度學習企業Lambda Labs的首席科學家推測,若是利用最便宜的雲端運算服務訓練GPT-3模型,需要花上至少460萬美元、耗時355年才能訓練完成,因此OpenAI才會選擇和微軟合作,取用微軟算力,微軟則得到OpenAI授權使用模型,並將之整合到自家旗下產品中,可謂雙贏。
GPT-4與GPT-3.5相比,有何升級?
ChatGPT上線以來,背後模型為GPT-3.5,已經驚豔使用者。後來公布、讓付費用戶使用由GPT-4驅動的ChatGPT,變得更快、更好、更精準、更道德、更能夠客製化。
因為訓練原理相同,所以GPT-4仍有先前功能上的侷限,例如它還是會憑空捏造、犯下推理錯誤、受使用者的虛假陳述所騙,但在OpenAI的調校下,GPT-4的安全性有所提升,針對敏感提問如製造武器、醫療諮詢、會對人造成傷害的建議,GPT-4都有正面改變,不像GPT-3.5時期的ChatGPT那麼頻繁出錯。
OpenAI指出,若只是隨意聊天,GPT-4和先前的模型沒有很大差異,當任務變得複雜時,就能見識到GPT-4的驚人之處。在回答奧林匹亞(Olympiad,國際解題競賽,各國會派出優秀學生參與)和美國大學預修課程(AP,Advanced Placement)的試題時,GPT-4模型的表現大幅勝過GPT3.5。
舉例來說,在統一律師資格考(Uniform Bar Exam)中,GPT-3.5的PR值大約為10,但GPT-4的PR值高達90;法學院入學考試(LSAT)的結果類似,GPT-3.5達到PR40,GPT-4則是驚人的PR88。即使是英文以外的語言,GPT-4的表現也贏過GPT3.5和DeepMind的龍貓大語言模型(Chinchilla)、谷歌的PaLM模型。另外,美國一位身兼醫生與電腦科學家身份的柯漢(Isaac Kohane),表示在實測過後,發現GPT-4驅動的新版ChatGPT,能夠答對美國醫學資格考90%以上的題目,甚至還能夠診斷出發生率僅有10萬分之一的的疾病。
除了成績進步以外,OpenAI提升了GPT-4的可控制性(steerability)。我們平常使用的ChatGPT,說起話來溫文儒雅、客氣萬分,如今只要使用者先描述想要使用的ChatGPT風格,便能夠和「換裝」後的ChatGPT對話,例如蘇格拉底式的ChatGPT,就注重引導、不會直接給學生答案。可以想像,這對於教育領域來說,將能帶來革新。
GPT-4能夠看圖說故事?
過往的GPT模型只能接受文字,然而,GTP-4這次最驚人之處,就是它不只能夠讀取文字指令,GPT-4還能可以「看懂」圖像。具體來說,它要怎麼讀取圖片?
根據OpenAI舉的例子,使用者可以上傳照片,ChatGPT具備解讀影像的能力,無論是學生常見的看圖寫作文、根據圖表解釋情況,或者是生活中可能用到的相片命名分類,還有工作會用到的圖像素材貼標,這些都難不倒GPT-4模型。
事實上,OpenAI先前就曾發表類似技術,也就是同樣屬於多模態預訓練模型的CLIP(Contrastive Language-Image Pre-Training),它能夠自動分辨圖片之間的差異,即使沒有文字標籤,使用者也可以輸入文字搜尋想要的相片,完全整合了文字與圖像兩種不同的資料類型。OpenAI類似midjourney的文字生成圖像DALLE·2,便是運用了CLIP的技術。
讓GPT-4更強大的多模態模型是什麼?
GPT-4之能學會看圖說故事,符合OpenAI的開發方向:打造出多模態(Multimodal)模型。什麼是多模態?聽見悠揚樂聲、欣賞生動影片、觸碰柔軟玩偶,這些人類理解世界的方式,都是不同的「模態」。
現在GPT-4先從文字開始,接著進展到圖像,下一步可能是聲音,因為OpenAI在音樂生成領域耕耘甚久;若進一步從二維平面上升到三維,例如觸覺或者嗅覺,逐步發展下去,當未來的GPT模型能夠「讀懂」不同型態的資料後,它能夠完成的任務將會更加複雜且多元,介入人類生活的空間越來越大。
《麻省理工科技評論》就曾針對多模態模型為文指出,過往人工智慧應用的最大問題在於,它們能夠成為擊敗人類的超級專才,例如對弈、玩遊戲,但無法延伸擴充到其他任務。研究人員當然想要克服這個瓶頸,其中一個可能的解法,是向小朋友取經。
孩子們是如何成長、變得更加聰明的?他們是從感知這個世界,並開口講話開始,就像《百年孤寂》裡的那句話:「世界太新,很多東西還沒有名字,必須用手去指。」小朋友們會透過眼睛觀察、以耳朵傾聽、靠著鼻子嗅聞,並且用雙手觸摸,接著再將所有的感官經驗,組織成文字,嘗試描述它。
當孩子的體驗更多、能夠形之於語言的內容更多,代表他們更能夠形成對於世界的認知。若人工智慧系統也能夠如此,可以預期,它們將能適應更多複雜的人類環境、解決不同類型的問題,若是技術成熟的那一天,它們恐怕將不再只是人類的虛擬助手,而會成為人類的實體秘書。
谷歌大腦(Google Brain)專攻深度學習的研究總監艾克(Douglas Eck)就曾表示,多模態人工智慧模型將會帶來最新的突破;DeepMind的研究總監哈德席(Raia Hadsell)也對多模態模型感到興奮,他更大膽預言,未來我們可能見到人工智慧模型能夠自由探索、擁有自主權、跟環境互動。
當然,GPT-4現在僅具備讀懂圖像和文字的能力,另外,它輸出的內容也只有文字,但OpenAI早就有影像生成的服務,是否要將其整合到GPT-4的新版模型中,只是OpenAI策略上的決定,要做與不做而已。
GPT-4缺陷:更快更好以外,還是有偏見
雖然性能提升,但OpenAI坦承,GPT-4仍有無法克服的問題,它仍會無中生有,生成的文字還是有偏見(bias),此外,和過往一樣,因為訓練資料只到2021年9月,GPT-4不知道那之後世界發生了什麼事。
即使是簡單的推理,它還是不時犯錯,使用者故意用虛假的敘述「釣魚」,也能讓GPT-4上當受騙,在某些事實性問題上,也有答錯的機會。幸好,在內部測試中,GPT-4正確回答問題的準確度已經有明顯提升。
OpenAI強調,它們在開發時,有為模型的安全性做出努力。它們邀請了多位專家協助測試模型在特定領域上的應用,例如網路安全、生物風險(biorisk)、國際安全等,以免相關問答引發危險;此外,它們也在訓練過程中明確設定了減少產出有害內容的改進方向,例如更能夠避免回答自殘、製造武器、危害身體健康的相關問題。
不過,若是有心人士想盡辦法繞過這些限制,還是有奸計得逞的機會,現在OpenAI正透過不同方法,希望減少使用者成功「越獄」、跨過模型規範的行為。
OpenAI所言非虛,它們的確致力於促進人工智慧安全。執行長奧特曼(Sam Altman)本人就曾在國會上作證,支持管制AI。
此外,外界也曾質疑,ChatGPT產生的回答太過偏向自由派。OpenAI因此採取行動,它們拋出一個巨大的問題:誰有權力決定人工智慧應該貼合哪些價值觀?
對於此議題,OpenAI計畫開發更個人化、可以反映出在文化上達到平衡的系統,也徵求大眾對生成內容的意見,它也提供獎金,徵求「決定AI系統應該遵循何種規則」提案,希望可以設定民主進程(democratic process),作為通用型人工智慧到來前的指引。
GPT-4有什麼最新應用?
美國非營利教育機構可汗學院(Khan Academy)宣布,推出建立於GPT-4之上的線上家教「Khanmigo」,學生可以學習不同科目,因為GPT-4大語言模型的特性,能夠生成巧妙的文字對話,有一定的創造力,同時可汗學院又巧妙設計出學習中的不同活動,例如和老師針對特定議題展開思辨、與書中或是歷史人物聊天、寫習題等應用。
摩根史坦利(Morgan Stanley)則是將內部財富管理的相關知識與累積的洞見,餵給GPT-4模型,藉此打造專業的AI理財專員,向它提問時,AI理專會從廣袤的知識庫中尋找正確的解答。
--------------------------------------------------------------------------------
ChatGPT的應用愈來愈簡單, 連手機都可以安裝app, 直接使用提問, 得到一篇四平八穩的回應! 但還是需要檢查有無衝突之處, 並做更深入得提問...一直重複直到得到滿意答案為止. |
|