摘要:NVIDIAMaxine是一款云AI視頻流平臺,將使用GAN來提高帶寬性能
NVIDIA Maxine是一款云AI視頻流平臺,將使用GAN來提高帶寬性能
Ming-Yu Liu 和Arun Mallya 正在進(jìn)行視頻通話,其中一個人的畫面開始出現(xiàn)卡頓,直至畫面定格。
這是一種常見且令人反感的情況。但與大多數(shù)人不同的是,Liu和Mallya可以做出一些改變。
他們是NVIDIA的AI研究人員,專攻計算機視覺。在與Ting-Chun Wang共事中,他們意識到可以使用神經(jīng)網(wǎng)絡(luò)來替代被稱為視頻編解碼器的軟件,這種軟件通常用于視頻在網(wǎng)絡(luò)傳輸過程中的壓縮和解壓縮。
迄今為止,他們的工作成果將用戶在視頻通話時所需的網(wǎng)絡(luò)帶寬壓縮至原來的十分之一,還有望將帶寬消耗降低數(shù)個數(shù)量級。
Mallya表示:“我們希望通過AI提供更好的視頻溝通體驗,即使在帶寬極低的情況下,也可以從語音升級到視頻通話?!?/span>
GAN讓連接質(zhì)量更佳
即使用戶的面部有遮擋(比如戴著帽子、眼鏡、耳機或口罩),這項技術(shù)同樣適用。為了增加趣味性,他們在演示中使用了一些裝飾物,這樣用戶可以在線上更改其發(fā)型或衣服或者創(chuàng)建頭像。
更重要的是,如上圖所示,借助神經(jīng)網(wǎng)絡(luò)定位,無需再盯著顯示器上方攝像頭才能與對方對視,這增強了面對面對話的感覺。
Wang表示:“借助計算機視覺技術(shù),我們可以從多個角度來定位頭部。我們認(rèn)為這將幫助人們更自然地進(jìn)行對話?!?/span>
迎接最前沿的AI技術(shù),讓虛擬生活更真實。
AI賦能視頻通話的原理
AI輔助視頻通話的工作機制十分簡單。
與目前使用壓縮的視頻流的系統(tǒng)類似,參考圖像發(fā)送后,僅用戶眼睛、鼻子和嘴巴周圍幾個關(guān)鍵點的位置數(shù)據(jù)被發(fā)送,而非發(fā)送大量壓縮過像素的圖像。
接收端的生成式對抗網(wǎng)絡(luò)通過初始圖像和面部關(guān)鍵點,在本地GPU上重構(gòu)后續(xù)圖像。因此,通過網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)要比之前少得多。
Liu在GAN領(lǐng)域的工作成果GauGAN曾引發(fā)關(guān)注。GauGAN是一種可以將涂鴉轉(zhuǎn)化為寫實藝術(shù)作品的AI工具,目前已經(jīng)創(chuàng)建了超過一百萬張圖像。該工具可在AI Playground中獲取。
Liu表示:“疫情期間頻繁的視頻會議啟發(fā)了我們,因此我們開始探索突破帶寬瓶頸的方式,讓供應(yīng)商可以同時為更多人提供服務(wù)?!?/span>
GPU突破帶寬瓶頸
這一方法順應(yīng)當(dāng)前行業(yè)趨勢,將網(wǎng)絡(luò)瓶頸轉(zhuǎn)化為計算任務(wù),從而借助本地或云端資源更輕松地解決此類問題。
NVIDIA媒體集團高級產(chǎn)品總監(jiān)Andrew Page表示:“如今,許多公司希望將帶寬問題轉(zhuǎn)化為計算問題,這是因為帶寬一般很難增加,而增強算力則相對容易。”
NVIDIA Maxine搭配了一套視頻會議和流媒體服務(wù)工具
AI 工具優(yōu)化視頻服務(wù)
GAN視頻壓縮是NVIDIA Maxine即將推出的幾個功能之一,這是一個云AI視頻流平臺,用于增強視頻會議和電話質(zhì)量。它將音頻、視頻和對話式AI功能整合在一個工具包中,并支持多種設(shè)備。
在上周的GTC大會上,NVIDIA宣布推出了Maxine平臺。基于該平臺,服務(wù)提供商能夠在提供超高分辨率的視頻的同時,實現(xiàn)實時翻譯、噪聲消除和情景感知的閉路字幕。用戶可以享受到人臉校正、虛擬助手和化身逼真的動畫角色等功能。
Page表示:“視頻會議正在經(jīng)歷一場復(fù)興。疫情期間,它的缺點給所有人帶來了不愉快的使用體驗,但回歸視覺動物的屬性,視頻終將成為人們今后生活中的一部分。”
通過利用基于Tensor Core核心的NVIDIA GPU,Maxine可運行如NVIDIA Jarvis的軟件。NVIDIA Jarvis是用于對話式AI的SDK,提供了一套語音和文本功能。 它們共同提供了當(dāng)今有用的AI功能,并成為未來視頻產(chǎn)品和服務(wù)的基石。
想要了解更多有關(guān)AI計算的最新技術(shù),解鎖GPU前沿應(yīng)用,可點擊鏈接:https://www.nvidia.cn/gtc/keynote/,觀看GTC 2020秋季站主題演講上的精彩內(nèi)容。
《白月城》由“風(fēng)起”“云涌”“撥云”“見月”四部曲組成,超現(xiàn)實科幻劇集,各篇章環(huán)環(huán)入扣,高潮迭起。
如同工業(yè)革命的開啟,機器代替了大部分的手工,提升了生產(chǎn)效率;AI時代的到來,減少了重復(fù)、低價值的腦力...
首先,AI技術(shù)的引入將推動消費電子產(chǎn)品的功能升級和性能提升,如更智能的語音助手、更精準(zhǔn)的健康監(jiān)測、更...
近日,中建信息發(fā)布的2023年年度報告展示了其亮眼的業(yè)績表現(xiàn),歸母凈利潤同比增長224.28%,約2...
在數(shù)字時代的洪流中,面臨著日漸升級的詐騙陷阱,未成年人作為敏感弱勢群體更需要格外關(guān)心和保護(hù)。
俄羅斯金屬巨頭企業(yè)諾里爾斯克鎳公司(Nornickel)正計劃在中國投資,開展現(xiàn)代化生產(chǎn),目標(biāo)是在2...
展望未來,國航遠(yuǎn)洋將堅定不移地踐行ESG發(fā)展戰(zhàn)略,以綠色、低碳、可持續(xù)為目標(biāo),推動公司在環(huán)境保護(hù)、員...
此次發(fā)布會中,王紫菲帶來了25套極具環(huán)保意義的創(chuàng)新服裝,這些作品在色彩運用上,巧妙地延續(xù)了品牌一貫擅...
潮玩,通常是指具有一定的設(shè)計感、收藏價值和文化屬性的玩具產(chǎn)品,它已經(jīng)成為時下年輕人表達(dá)自我、追求個性...
目前,星云有客已獲得IDG資本、高瓴資本、聯(lián)想創(chuàng)投、初心資本、云曦一號等全球知名創(chuàng)投機構(gòu)的連續(xù)三輪、...
HID致力于為每個用戶、應(yīng)用程序和應(yīng)用場景提供可靠的安全性。最強大的網(wǎng)絡(luò)犯罪防御方法就是組合各種登錄...
通化東寶表示,此次IIa期臨床試驗完成首例患者入組,是公司在該領(lǐng)域邁出的又一堅實一步,公司后續(xù)將繼續(xù)...
投資家網(wǎng)(jubohaotong.com)是國內(nèi)領(lǐng)先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務(wù)平臺。為活躍于中國市場的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務(wù),包括行業(yè)媒體、智庫服務(wù)、會議服務(wù)及生態(tài)服務(wù)。長按右側(cè)二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。
2016年注冊于北京的中氫新能技術(shù)有限公司,下設(shè)位于大興的裝備制造公司、位于海淀區(qū)的技術(shù)研究院、材料...
一度無比高光的理想汽車,猝不及防遭遇重挫。
2024年1月10日,由投資家網(wǎng)主辦,財經(jīng)銳眼、有時間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...
2024年1月10日,由投資家網(wǎng)主辦,財經(jīng)銳眼、有時間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...
2024年1月10日,由投資家網(wǎng)主辦,財經(jīng)銳眼、有時間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...