“從ChatGPT發布至今短短不到一年的時間,人工智能企業、大模型廠商以及社會各界風起云涌,在不到一年時間內,我們欣喜地看到,大模型正日益深入地跟每個人息息相關。”在10月20日舉辦的2023科大訊飛全球1024開發者大會上,科大訊飛董事長劉慶峰感嘆到。 ChatGPT的出現引爆了一場人工智能的狂歡,各方勢力紛紛下場,開啟“百模大戰”。今年5月6日,訊飛星火認知大模型V1.0發布時,科大訊飛定下了今年的三個發展目標:6月9日,突破開放式問答、多輪對話能力明顯提升、數學能力再升級;8月15日,代碼能力升級以及多模態交互能力提升;10月24日,實現通用模型對標ChatGPT,并在教育、醫療等領域做到業界領先。 10月24日,科大訊飛如期交出成績單。訊飛星火認知大模型V3.0正式發布,在文本生成、語言理解、知識問答、邏輯推理、數學能力、代碼能力以及多模態能力方面都有所提升。 此外,訊飛聯合行業龍頭共同發布12個行業大模型,加速產業落地。其自主創新的大模型算力平臺已經啟動。訊飛聯合昇騰生態共同發布“飛星一號”大模型算力平臺,并啟動對標GPT-4的更大參數規模的星火大模型訓練。 此次開發者大會上,劉慶峰定下了一個新目標:2024年上半年,訊飛星火將實現對標GPT-4。在劉慶峰看來,這不僅僅是一個簡單的技術對標問題,“我們要走出自己的技術路線,走出自己的產業方向,形成自己完整的生態。從這個角度來說,大模型時代的序幕才剛剛拉開!”劉慶峰說到。 ![]() 圖片來源:科大訊飛 而對于汽車行業來說,大模型上車的步伐也才剛剛拉開。 訊飛智駕方案新鮮出爐 人們對于大模型賦能汽車的想象空間主要集中在幾個方面:一是伴隨著大模型在深度理解、邏輯推理、情感捕捉等方面的進步,打造類人的座艙交互體驗。二是依托大模型,通過多模態融合等人工智能技術,進一步助力智能駕駛發展。此外,還有大模型會帶來更廣泛的應用生態,以及促進“軟件定義汽車”的發展等。 10月24日,科大訊飛同步召開以“釋放想象力·智能新出行”為主題的智能汽車新品發布會,會上,科大訊飛發布了基于訊飛星火V3.0的座艙、音效、智駕三大方向的產品升級。 大模型的理解、推理、表達和多模態知識學習等能力給自動駕駛帶來了更多新的技術思路,基于訊飛星火認知大模型,科大訊飛發布了兩款行泊一體智駕解決方案——智駕STD和智駕PRO,配備增強型高速NOA(HNOA)、記憶行車和記憶泊車等功能。 ![]() 圖片來源:科大訊飛 對于大模型如何提升自動駕駛能力,行業還在探索初期,在科大訊飛看來,大模型利用海量數據以及駕駛領域知識的強化,可以用于自動駕駛場景數據以及駕駛策略的生成,并支持以交互的方式增強對基礎駕駛模型的理解。 基于此,科大訊飛自研了從深度學習訓練到模型調優量化、模型推理部署的全棧工具鏈,并打造了智駕應用開發框架和中間件,支撐跨平臺算法快速移植,以及自研4D重建與自動標注系統提升標注的效率和質量。 星火大模型將從技術架構層面賦能BEV+transformer智駕感知大模型的研發,意圖解決智能駕駛當前存在的感知不精準、決策不智能、長尾不收斂三大技術難題。 據訊飛介紹,通過統一的BEV+Transformer網絡,可以實現多模態、多任務、長時序4D感知等能力。此外,科大訊飛還開發了基于機器學習的超聲波感知算法應用,提升感知準確性和泛化性。 重感知正成為當下推動高階輔助駕駛快速落地的一大趨勢,視覺感覺的技術也在加速發展。機器視覺是科大訊飛2030Top計劃的核心,在自動駕駛對視覺依賴越來越強的今天,科大訊飛依托在機器視覺方面的積累和投入打造智駕方案。 科大訊飛智能汽車事業部副總經理李衛兵認為,視覺感知技術能夠加速智能駕駛落地,具有輕地圖、重感知、低成本、快落地等特點。 科大訊飛的兩款智駕方案,其中智駕STD算力為15TOPS,憑借6個攝像頭、5個毫米波雷達和12個超聲波雷達,能夠實現基礎ADAS、自動泊車(APA)、高速NOA、記憶泊車等在內的32項功能點。智駕PRO算力為50TOPS,硬件方案為11個攝像頭、5個毫米波雷達和12個超聲波雷達,支持的功能點達40項。 AI算法研發能力、完整的數據閉環云平臺、工程技術能力等,是科大訊飛行泊一體智駕解決方案的支撐,科大訊飛在此基礎上打造車云一體的智駕研發體系。 具體來看,科大訊飛通過算法迭代提供基礎設施支撐和數據服務,打造功能平臺為安全研發優化神經網絡推理提供數據,保證其模型的訓練的效率和訓練的質量。同時科大訊飛將會增建百輛規模的算法研發測試數據回流的開發平臺等。 在智駕領域,科大訊飛除提供行泊一體智駕解決方案外,另有四大服務:采集服務、數據服務、標注服務、訓練服務。 以數據標注為例,自動駕駛所需標注的數據類型呈現多樣化,數據數量也在呈現指數級的提升。然而,目前普遍存在的問題是標注數據的準確性較低及綜合成本較高。 用人工標注的數據去訓練云端大平臺,再用訓練過后的云端大平臺去協助進行自動標注,結合少量的質檢和人工調整,能生成更多的標注數據,形成正向循環,逐步用來提升感知大模型的自動標注的程度和效果,并進一步的降低成本。科大訊飛自研4D重建與自動標注系統,以提升標注效率和質量。 “未來我們結合大模型的精準的識別能力,數據挖掘能力和強大的生成能力,進一步豐富我們的仿真場景,構建更接近現實的仿真環境,以大幅提升我們算法的迭代效率,支撐整個智駕系統的快速高效的進化。”李衛兵說到。 李衛兵指出,智能汽車這個新物質的本質需求在不斷的進化。要能夠做到全生命周期的持續迭代OTA,需要Tier 1方案提供商有強大的技術實力,堅定的長期戰略。在李衛兵看來這也不是一般的小公司能夠做得到。 以數據驅動為開發模式的自動駕駛發展階段,大模型賦能自動駕駛在車端、云端實現端到端的平臺管理,在數據采集標注、仿真、算法優化等各個層面賦能自動駕駛發展,科大訊飛這類的大模型AI廠商,或將迎來時代機遇。 大模型與智能座艙,碰撞出更多火花 大模型在智能座艙領域的應用已有一些產品出現,科大訊飛將訊飛星火V3.0與智能座艙進一部結合,面向多樣化的汽車使用場景,推出星火座艙OS、星火汽車APP和星火座艙域控三大產品,支持實時檢索,可以實現插件化調度,并集成了多模態生成的能力,目的是為合作伙伴提供自主可控、組件化、更開放的座艙解決方案。 大模型上車的一個典型應用是助力實現對話式交互,為車輛的駕駛出行、導航、娛樂等環節提供強大的支持,使駕駛員和車輛之間的交流更為自然流暢。這種新型的交互方式正在改變著人們對于汽車智能座艙的認知。 科大訊飛介紹到,在過去,人們常常將車機屏幕視為車內的一個平板電腦,然而,隨著對話式交互的出現,人們開始意識到汽車智能座艙可以提供更多的可能性。 據悉,星火座艙OS包括星火汽車助理和星火場景應用兩大部分,語音合成MOS>4.6,大模型業務貫穿支持十輪以上的上下文語義繼承,新增實時檢索能力。借力大模型賦能,星火座艙OS打造了多個沉浸式的使用場景,并支持自定義,一句話生成復雜場景,觸達200+車控動作。 ![]() 圖片來源:科大訊飛 至于星火汽車APP則是圍繞用車場景打造的多樣化大模型車端應用,涵蓋用車顧問、兒童故事、口語陪練、心靈SPA、旅行伙伴等等。 座艙體驗的很大組成部分在于其內容、應用生態,科大訊飛除了基于其自研的兒童教育、K12教育、音娛資源、聽見會議以及訊飛翻譯五大自建生態資源外,訊飛星火大模型賦能的智能座艙已經與支付寶、咪咕文娛、騰訊音樂、喜馬拉雅、高德、火山引擎、雷石、能鏈、喜泊客等九家企業開展了深度生態合作,以滿足車主多元化需求。此外,科大訊飛智能座艙還與百余家企業生態積極合作,期望以豐富全面的軟件生態賦能智能座艙。 星火座艙域控是科大訊飛打造的智能化AI底座,面向行業輸出兼容核心AI算法的“核心板”,基于全棧的座艙AI算法和結合芯片的異構算法優勢實現芯算融合,SOC算力消耗降低10%。 科大訊飛智能汽車事業部副總裁和衛民表示,是否具備AI算力或NPU加速能力是座艙域控開發的核心競爭力。“我們的目標是基于星火座艙域控方案,可以提供給Tier 1或車企一個平臺,讓其可以開發自己的差異化應用,讓大家以最小的資源,最快的時間,更好的做產品的差異化。”和衛民說到。 車載音效,還有更多玩法 作為駕駛場景下最安全和高效的交互方式,聽覺感官在車內備受關注,用戶對汽車場景下的聽感品質要求逐漸提高,對高級別車載音響系統的需求也在持續增長, 特別是隨著自動駕駛技術的發展,人們在車里面的精力被釋放出來,有更多的機會可以去學習、工作、娛樂和休息。現在智能座艙的發展,有很多應用場景與音效息息相關,諸如K歌、會議、看視頻等,要想打造沉浸式的體驗,車載音效的設計也必須與時俱進,從單一維度向多維度發展,從單一場景向多場景延伸。 ![]() 圖片來源:科大訊飛 這為汽車音效品牌實現智能化提供了新的機遇。當下無論是新老品牌都在積極推動著智能化產業升級。 科大訊飛在智能音效領域算是老玩家了,其認為車載音頻系統的發展可分為三個階段:第一個階段,1930-1984年,是基礎音效階段,包含收音機、磁帶機等產品;第二個階段,1994-2016年,環繞音效體驗階段,涵蓋模擬功放、數字功放等產品;第三個階段,2021年往后,車載音頻系統開始進入多維表達與全場景覆蓋的階段,標志性產品便是智能音效管理系統。 科大訊飛給汽車智能音效也做了一個分級,與自動駕駛類似,從L1到L5,對應著從基礎音效、基礎功能到身臨其境的極致體驗。 兩年前,科大訊飛在廣州發布了提供16個以上通道、20個以上揚聲器的智能車載音頻系統,開始進入L3階段。此次,科大訊飛有發布了支持24個通道、30個以上揚聲器,具有更強大的AI技術加持的新一代音頻管理系統。 為了適配不同級別的車型,科大訊飛推出了靈活的軟硬一體平臺,分別是iFlySound STD平臺、iFlySound PRO平臺、iFlySound PLUS平臺。其iFlySound Plus 24ch功放硬件平臺,將基于應用場景的交互、聽感、內容、顯示與車控深度融合。 據介紹,在硬件層面,iFlySound Plus24ch功放硬件平臺使用高性能浮點DPS,擁有最高2GHZ*2的高速音頻處理加速器和128通道數字音頻處理能力,可以獲得24bit 96kHz的HD Audio支持,并且兼容未來E-E架構。同時,科大訊飛在保證性能的前提下,降低了硬件的尺寸和重量,實現“小型化輕量化”。 在軟件算法層面,基于科大訊飛自研技術,當前已具備3D環繞、聲場分區、車內交流償、車載K歌和大模型音效等多個音效算法。以此為基礎,科大訊飛推出了基于持續豐富的聲音庫、聲浪庫、音效庫、功能庫的訂閱模式。 論大模型如何提升音效體驗,科大訊飛做出一些嘗試。在調音層面,科大訊飛基于大模型聲學理論體系實現人機耦合,端云協同AI調音,基于iFlyDSP GUI工具,無需代碼更改,可以快速完成定制需求,價值全自研MCU基礎軟件架構,可使跨平臺代碼復用度超70%,基于此適配不同定位和級別的車型。 “未來,我們可以通過車內設備來采集整車的環境,上傳到云端,在云端的話我們會有深度學習的大模型,能夠對車載環境進行深入分析,并且結合車型本身的音效綜合定位來進行自動化調音,可以完成調音師70%以上的技術性工作,確保在降低成本、提高效率情況下,滿足調音流程的標準化。”科大訊飛蘇研院常務副院長、科大訊飛汽車事業部副總經理支洪平說到。 據悉,當前,科大訊飛車載音效產品已獲得國內13家主流車企平臺化項目定點,合作車型超過30款。 結語 在智能汽車領域,“大模型上車”已經成為一種趨勢,它將為智能座艙、自動駕駛帶來更多的智能化、個性化、高效化的特點,提升用戶的使用體驗。 隨著技術的不斷進步和應用場景的不斷擴展,“大模型上車”將會為智能汽車產業的發展和創新帶來更加廣闊的空間和機遇。 更深層次的是,大模型將不僅聚焦具體的車端應用體驗,而是賦能整個汽車產業鏈條的發展,無論是生產、研發、營銷、售后等環節,都有所助力,現在才只是剛剛開始。 |
![]() |
中國鍛壓網官方微信:掃一掃,立即關注!
關注"中國鍛壓網",獲取獨家行業新聞資訊。 添加方法1: 在“添加好友”中直接添加微信賬號:chinaforge 添加方法2: 微信中掃描左側的二維碼 |