自然人機交互邁出重要步伐

2024-05-19 06:12 來源:經濟日報
查看余下全文
(責任編輯:王炬鵬)
手機看中經經濟日報微信中經網微信
當前位置     首頁 > 新聞 > 國內時政更多新聞 > 正文
中經搜索

自然人機交互邁出重要步伐

2024年05月19日 06:12   來源:經濟日報   

  近日,美國人工智能公司OpenAI在其春季發布會上展示了新一代旗艦生成模型GPT-4o。接入GPT-4o的ChatGPT語音助手,能和用戶實時對話且從語音中分辨用戶是否緊張,能通過前置攝像頭觀察用戶的面部表情并分析其情緒變化,能當家教老師在線教孩子解數學題……能聽、能看、能說,且達到人類級別的響應時間和表達能力,難怪不少網友驚呼:大模型從“呆瓜”變“真人”了!

  作為人工智能大模型浪潮的領航者,OpenAI這次發布展現了人工智能大模型2個新趨勢。

  一方面,大模型向應用端需求進化,商業價值更加凸顯。

  在GPT-4o之前,用戶以語音模式與ChatGPT對話,要通過音頻轉文本、文本處理、文本轉音頻3個模型來實現,平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。GPT-4o是OpenAI的首個“端到端多模態大模型”,“o”代表omni,即“全能”的意思。它用一個模型同時處理文本、視覺和音頻的輸入輸出,所有輸入和輸出都由同一個神經網絡完成,這讓它的反應速度有了質的提升。GPT-4o可以在短至232毫秒、平均320毫秒的時間內響應音頻輸入,與人類在對話中的反應速度一致。這意味著高端人工智能產品更接近一個自然人,向自然人機交互邁出了重要一步。

  GPT-4o在資源消耗和響應速度上進行了優化,達到了與GPT-4 Turbo相當的能力,且降低50%的推理成本,打開了商業推廣的空間,更有利于在智能手機、智能電腦等個人終端上實現端側應用。在消費終端,用戶需求多樣化且變化迅速,需要提升交互界面的友好性和易用性,讓用戶獲得流暢、自然的交互體驗。GPT-4o向具備情緒價值和自然交互能力的方向進化,意味著大模型在端側的落地更進一步,有望開啟下一波科技應用和商業模式的革命,出現人工智能的國民級應用。

  另一方面,大模型技術迭代放緩,風險和不確定性增加。

  OpenAI并沒有推出萬眾期待的GPT-5,這讓不少業內人士推測,OpenAI“用更多大數據煉更大模型”這條技術迭代路線可能已遇到瓶頸,國內底層大模型加速追趕的窗口期或許到了。人們還期待GPT-5解決當代大模型存在的最大問題——幻覺(胡編亂造),因為它影響大模型的可靠性。這個問題也沒能在GPT-4o中獲得解決。有些網友就在試用中發現它會認字不會寫字,如果讓它輸出一張含有特定文字內容的手寫字體圖畫,它會寫出誰都看不懂的自造字。此外,OpenAI去年發布的GPT-4模型僅限付費用戶使用,今年則宣布新模型GPT-4o用戶不用注冊、功能全部免費。OpenAI開始卷起了免費,可能是GPT的用戶增長和收入增長都已經碰到瓶頸。

  從卷參數、卷文本長度再到卷多模態,大模型的競爭一直很激烈。隨著當前人工智能技術的快速發展,大模型技術路徑和商業模式的多樣性和不確定性增加,商業投資風險也隨之增加。對國產大模型來說,風險也是機遇。比如,全球首個三模態大模型其實是2021年7月中國發布的“紫東太初”。不管大模型賽道往什么方向去,中國都有基礎,也應該有信心打開更廣闊的應用商業化空間。 (本文來源:經濟日報 作者:佘惠敏)

(責任編輯:王炬鵬)

精品国产一区二区三,免费久久成年大A,久久精品道一区二区三区,欧美激情中文字幕综合一区
中国AV乱码一区二区三区 | 久久精品人人看人爽 | 亚洲中文字幕不卡专区 | 香港三日木三级少妇三级99 | 亚洲第一在线综合网站 | 亚洲熟女中文字幕 |