加強語音文本音視頻交互功能新版ChatGPT類人速度反應超快

責任編輯：趙桐曲 2024-05-14 23:44:57 來源：香港商報網

　當地時間13日，美國OpenAI公司展示了最新版本ChatGPT-4o的新技能：與使用者展開語音對話、識別圖像並展開討論、翻譯。據路透社報道，相比先前版本，GPT-4o與使用者對話基本無延遲，和人類反應速度類似。即使對話中途被打斷，也能繼續下去。這些都是實現逼真語音對話的標誌，也是當前眾多AI語音助手普遍面臨的技術難點。在BBC看來，GPT-4o能夠結合文本、音頻和圖像內容瞬間作出反應，目前在競爭中仍處於領先地位。

　邁向更自然人機互動能回應真人情緒

　在當天網絡直播的展示中，GPT-4o這款生成式AI工具利用其視覺和語音能力，指導演示者在紙上逐步解出一道方程式，而不是直接給出答案。它還展示了英語與意大利語互譯、用自拍照片識別情緒等能力。新模型將會免費對外開放，而付款費用可獲得更多限額。

　OpenAI在直播時演示，用戶與ChatGPT對話時可立即獲得回應，並且能夠中途打斷ChatGPT的說話。GPT-4o能夠利用其視像和語音功能與研究人員對話，解決紙上的數學方程式。另一展示中，GPT-4o模型展現即時語言翻譯能力，亦能對研究人員的情緒作出回應。

　「GPT-4o」是「GPT-4」模型的更新版本，當中的「o」代表「omni」，代表「全部」。新模型將免費使用，原因是比過去的模型更具成本效益，並提供大量過往曾收費的功能，例如線上搜尋、語音對話等，不過設有用量限制，當到達上限時，會自動切換到「GPT-3.5」。

　OpenAI稱今次更新，是邁向更自然人機互動的一步，因為在GPT-4o推出前，用戶使用語音模式與ChatGPT對話，GPT-3.5的平均延遲2.8秒，GPT-4延遲5.4秒。相反，GPT-4o可快至232毫秒內對音頻輸入作反應，與人類在對話中的反應時間相近，令人類與聊天機械人的對話交流，變得更自然。

　OpenAI行政總裁奧特曼發文形容，與電腦的交流從未如此自然過，就像是在電影中出現過的AI一樣。OpenAI首席技術官穆拉蒂解釋，之前的模型是語音、文字和視覺協同工作，導致大量延遲，破壞沉浸式體驗，GPT-4o則將三者整合到同一個模型中，以消除所有延遲。

　OpenAI希望以GPT-4o在激烈的AI技術競爭中保持領先。該公司2022年發布ChatGPT後，短時間內每月活躍用戶增至1億。然而，研究機構西米勒網絡公司的數據顯示，去年以來ChatGPT用戶人數呈現過山車式變化，近期才重回去年5月巔峰時期的水平。

　谷歌推出聊天機械人Gemini應對

　另一方面，谷歌和OpenAI之間激烈的競爭態勢愈演愈烈。谷歌13日亦發布了一段視頻，展示了疑似經過升級的Gemini聊天機械人。視頻中，Gemini以同時實時處理來自視頻和語音的輸入。

　視頻展示了Gemini在一台Pixel手機上流暢地處理實時視頻和語音提問，並準確地提供信息。當被問到正在進行的布置工作時，Gemini正確識別出這是為一個重要活動做的準備。整個對話過程自然流暢，Gemini還會詢問用戶注意到的細節，成功識別出了該活動為谷歌I/O開發者大會，並進行了簡要介紹。

　此外，微軟當地時間13日亦宣布向法國投資40億歐元，用於擴展在當地的雲端及AI業務，並將會資助法國的AI技術及科技工業，計劃把2.5萬塊最先進的塊圖像處理器帶進法國，預計至2027年可訓練100萬人，及支援2500家AI初創公司。

　近年來，開發更人性化、功能更強大的生成式AI工具競爭激烈。谷歌母公司Alphabet擬於14日召開谷歌開發者年度會議，預計屆時將展示谷歌開發的相關產品。馬斯克、科技DeepMind創始人之一穆蘇萊曼也分別投資開發了聊天機械人Grok和Pi，將擬人化特點作為產品主攻方向。

　IMF警全球四成職位受AI衝擊

　與此同時，國際貨幣基金（IMF）也在對AI可能給全球勞動力市場帶來的衝擊發出警告。IMF總裁格奧爾基耶娃13日表示，AI正如山呼海嘯般衝擊全球勞動力市場，而全球政府和企業尚未對此做好準備。格奧爾基耶娃預測，未來兩年，對於發達經濟體而言，AI可能會影響60%的工作職位；而對於全球所有國家而言，AI可能將衝擊40%的工作職位。

　格奧爾基耶娃表示：「我們幾乎沒有時間讓人們和企業做好準備，如果我們管理得當，AI的確可以極大地提高生產力，但它也可能導致更多的錯誤信息，當然，還會加劇我們社會的不平等。」

頂圖：ChatGPT用戶人數去年呈過山車式變化，近期才重回去年5月巔峰時期的水平。路透社

責任編輯：趙桐曲