摘要:Tiamat已于日前完成近千萬美元A輪融資,由老股東DCM和綠洲資本聯(lián)合領(lǐng)投。
Tiamat 已于日前完成近千萬美元 A 輪融資,由老股東DCM和綠洲資本聯(lián)合領(lǐng)投,遠(yuǎn)識資本擔(dān)任獨(dú)家財(cái)務(wù)顧問。本輪融資將用于繼續(xù)打磨產(chǎn)品和自研大模型,拓展商業(yè)化能力等。數(shù)月前,Tiamat 已經(jīng)獲得由DCM獨(dú)家領(lǐng)投的數(shù)百萬美元天使輪融資。
Tiamat 成立于2021年,是一家國內(nèi) AI 圖像生成技術(shù)服務(wù)商。其自研的MorpherVLM 是國內(nèi)首個基于概念融合范式提出的近百億級跨模態(tài)生成模型,通過異構(gòu)的視覺編碼 - 解碼網(wǎng)絡(luò)結(jié)構(gòu),并引入基于用戶反饋的強(qiáng)化學(xué)習(xí)(RLHF)和細(xì)粒度的提示 - 隱變量對齊技術(shù),提高了模型對圖像多尺度信息的建模能力,在用戶 Prompt 輸入的理解能力方面也實(shí)現(xiàn)了進(jìn)步。
圖為 Tiamat 創(chuàng)作生成
去年夏天,AI Art 一躍成為了熱度最高的新興技術(shù),在設(shè)計(jì)、繪畫等專業(yè)化領(lǐng)域的影響力不亞于如今 ChatGPT 帶來的全民狂歡。AIGC 的結(jié)構(gòu)性機(jī)會下,“不追逐風(fēng)口,但等到了風(fēng)口”是技術(shù)型創(chuàng)業(yè)者和資本最愿意看到的擁抱創(chuàng)新的方式。而在時間差方面,Tiamat 從 2021 年開始進(jìn)行模型訓(xùn)練,以自研并自主訓(xùn)練底層模型的方式,始終與海外技術(shù)節(jié)點(diǎn)、開源社區(qū)等保持著同頻。
“我們拼命地想告訴大家,這件事情很快就會成為風(fēng)口。” Tiamat 創(chuàng)始人青柑表示,去年上半年融資的時候,他們還需要花很多精力去教育市場,解釋什么是 AI 生成,什么是多模態(tài),為什么要做圖像。彼時,距離 Stable Diffusion、MidJourney 這些引領(lǐng)著行業(yè)革新的產(chǎn)品上線還有幾個月左右的時間。而作為國內(nèi) AI 生成圖像領(lǐng)域的第一批團(tuán)隊(duì),Tiamat 如今也成為了為數(shù)不多成功融資并實(shí)現(xiàn)了商業(yè)化的技術(shù)服務(wù)商。
Tiamat 創(chuàng)始人青柑和聯(lián)合人 Eric,從 Tiamat 自研大模型和商業(yè)化的階段性成果出發(fā),探討了 AIGC 未來在國內(nèi)市場的應(yīng)用可行性。
問:從大模型出發(fā),AI 繪畫和以 ChatGPT 為代表的對話式 AI 有哪些差異?
青柑:AIGC 中的不同賽道其實(shí)會有很多細(xì)節(jié)上的差異。首先,是這些模型涉及的是單一模態(tài)還是多模態(tài)。我們的模型打通的是多個模態(tài),體現(xiàn)在用戶可以用文本去指導(dǎo)生成的圖像,或者也可以用一張草圖得到新的生成結(jié)果。而 ChatGPT 作為聚焦在文本領(lǐng)域的理解和生成模型,它只有文字這一個模態(tài)。但與此同時,它的參數(shù)非常多,需要花大量的時間和數(shù)據(jù)去清洗有害信息,所以實(shí)際上花費(fèi)的時間精力和算力是遠(yuǎn)大于我們 AI Art 領(lǐng)域的。從一個比較直觀的感受切入,如果文本出現(xiàn)了一些邏輯上的錯誤或?qū)υ捝系氖д妫脩艨梢院芸斓馗惺艿?,而不像對于圖片的細(xì)微瑕疵可能會有更好的包容度。我們現(xiàn)在正在做的 Tiamat 文本到圖像模型,大概是數(shù)十億參數(shù),這個量級實(shí)際上要比 ChatGPT 文本模型的參數(shù)量要低將近 100 倍左右。換算成他們當(dāng)年發(fā)展的話,大概是在 GPT1-2 之間。所以,雖然都叫大模型,其實(shí)數(shù)據(jù)和參數(shù)量級還是有很大區(qū)別的。在此基礎(chǔ)上,對于我們來說,不停地把模型的參數(shù)量級進(jìn)行擴(kuò)張并不是最重要的指標(biāo)。
Eric:除了模態(tài)和輸入種類上的區(qū)別之外,生成的任務(wù)是另一個可供參考的維度。我們在談?wù)?/span> AI 的時候其實(shí)有很多解釋空間,比如人臉識別、大數(shù)據(jù)文本分析等,他們更多地在于理解數(shù)據(jù)。但回歸到 AIGC 領(lǐng)域,更多的則是在理解的基礎(chǔ)上生成。ChatGPT 首先能夠做到很好地理解你的輸入內(nèi)容,并調(diào)用潛藏在自己參數(shù)里的知識,對人類的輸入作出反應(yīng)。在這一方面我們可以與 ChatGPT 做一個類比。我們會用多個不同的網(wǎng)絡(luò)把用戶的輸入放到一個對 AI 來說比較自然的空間里,再從這個空間中去找到合適的解答。這與以往生成理解類的 AI 是不太一樣的。
圖為 Tiamat 創(chuàng)作生成
問:對于 AI 生成圖像來說,更重要的指標(biāo)有哪些?
青柑:更重要的指標(biāo)在于能不能在垂直領(lǐng)域有更好的精準(zhǔn)性和可控性,能不能更好地讓圖像展現(xiàn)出人類理想的構(gòu)圖、或者一致性的角色等等。除此之外,我們自研的考慮也來自如何能讓研發(fā)的成本結(jié)構(gòu)更加精益和可控。從這一點(diǎn)來說,創(chuàng)業(yè)公司也會有更多機(jī)會。剛才提到,圖像文本多模態(tài)生成的領(lǐng)域參數(shù)量級更低,在標(biāo)注數(shù)據(jù)和訓(xùn)練上的成本也可以有效壓縮。整個圖像類的 AIGC 創(chuàng)新更加關(guān)注具體的技術(shù)路徑和商業(yè)化上的突破,成本壓力相對較小。而文本領(lǐng)域目前的一次訓(xùn)練可能會花掉幾十到幾百萬美元,成本是巨大的。Eric:是的,同時可控性也是一個和商業(yè)化應(yīng)用息息相關(guān)的指標(biāo)。我們在談?wù)摯竽P偷臅r候會有一個問題,很多大模型都是在大規(guī)模的數(shù)據(jù)集上構(gòu)建的,其中大部分來源于互聯(lián)網(wǎng)上獲取的知識,問題隨之產(chǎn)生:如何用人類可以操控的方式去做這些大模型可以做的事情?我們都知道,OpenAI 的 GPT-3 和 ChatGPT 在技術(shù)上是同源的,但是 ChatGPT 效果明顯好得多,大家也直觀感受到了它在各行各業(yè)的應(yīng)用。而在技術(shù)環(huán)節(jié),就是因?yàn)?/span> ChatGPT 比 GPT-3 多了一個用人類的反饋來自我學(xué)習(xí)的過程,可以使得它的應(yīng)用更符合期望。所以,我們在做 Tiamat 生成模型的時候也會格外在意這一點(diǎn),就是怎么樣能讓生成結(jié)果符合用戶的期望。
問:從去年下半年開始,AIGC 跑得非常快,整個行業(yè)在被資本推著走,可能還沒有來得及出現(xiàn)一個得到廣泛印證的商業(yè)模式,Tiamat 在商業(yè)化方面是如何考慮的?
青柑:從創(chuàng)業(yè)開始,我們就在自研圖像模型,自己去訓(xùn)練,一步步的優(yōu)化和迭代。所以目前為止,我們應(yīng)該是國內(nèi) AI 圖像領(lǐng)域在商業(yè)化方面跑得最快的。去年 Q4,我們有幾百萬元的合同訂單。因?yàn)閳D像領(lǐng)域其實(shí)需要的是更加專業(yè)化、垂直化的理解生成。以我們正在商業(yè)化的服裝領(lǐng)域?yàn)槔?。服裝領(lǐng)域現(xiàn)在需要 AI 來代替設(shè)計(jì)師或者幫設(shè)計(jì)師尋找靈感,那么首先他們的輸入方式一定是服裝設(shè)計(jì)領(lǐng)域的 “黑話” ,比如什么樣的領(lǐng)口版式、版型,不一定是外行能夠理解到的行業(yè)知識。所以我們在去做行業(yè)模型的時候會先去理解設(shè)計(jì)師之間的溝通語言,再去理解對應(yīng)的圖片,在此過程中可能需要重新去構(gòu)建一些圖像文本作為訓(xùn)練數(shù)據(jù)集。此外,我們還會通過一些方法去增強(qiáng) AI 對行業(yè)的理解,基于大模型去調(diào)整,然后才能做行業(yè)的專有模型。所以比起其他非自研的圖像生成公司,這是我們能夠體現(xiàn)出優(yōu)勢的地方。
問:在當(dāng)下的開源趨勢中,非自研模型還有哪些弊端?
青柑:文本圖像生成這個領(lǐng)域基本上是從去年二三月份開始公開測試,去年七八月份,SD(Stable Diffusion)這一類開源模型放出來之后,緊接著就有大量的創(chuàng)業(yè)者入局。但開源模型的參數(shù)本身是固定的,模型本身沒有涵蓋特定行業(yè)的知識和術(shù)語,未經(jīng)進(jìn)一步的有效訓(xùn)練,很多用戶輸入都難以被理解。而且在我們看來,純開源模型本身在圖像的精準(zhǔn)性和可控性上其實(shí)還是有一些問題。所以在國內(nèi)市場經(jīng)常會遇到的一些情況是,一些廠商需要圖像生成的供應(yīng)商,可能會找到一些用了開源模型的公司,發(fā)現(xiàn)沒法達(dá)到好的效果,然后再來找我們。所以,自研也是我們商業(yè)化比較順利的理由之一,因?yàn)榉亲匝械姆?wù)商始終不能特別直接地生成一個行業(yè)想要的東西。
Eric:開源的另一個問題是數(shù)據(jù)訓(xùn)練細(xì)節(jié)上的模仿難度。因?yàn)?/span> Stable Diffusion 雖然本身的模型結(jié)果是開源了出來,但其實(shí)現(xiàn)在大家對于其中一些具體的訓(xùn)練方法和細(xì)節(jié)仍然是不明確的。就好比說,如果我們想要做一個 ChatGPT,這一系列的論文都是開放出來的,大家也大概知道它使用的參數(shù)和數(shù)據(jù)量在什么規(guī)模,但如果真的想要從零去做 ChatGPT,遇到的難度會遠(yuǎn)比收集這么多數(shù)據(jù)要大。所以當(dāng)我們在強(qiáng)調(diào)自研的時候,也意味著我們踩過很多圖像生成工程化的坑,現(xiàn)在才能取得一個比較好的階段成果。
圖為 Tiamat 創(chuàng)作生成
問:經(jīng)過一段時間的商業(yè)化沉淀后,發(fā)現(xiàn)了來自哪些具體行業(yè)的商業(yè)化潛力?
青柑:我們最開始聚焦的是一些垂直領(lǐng)域的中小型企業(yè),因?yàn)樗麄冇泻芏喽ㄖ苹瘜傩曰蛘呖缃绾献鞯男枨螅谑袌鰧用娴膭幼饕彩亲罨钴S的,接受度更高,客戶反饋也更多。其中目前發(fā)展得最好的行業(yè)其實(shí)還是廣告、還有相關(guān)設(shè)計(jì)行業(yè)的,因?yàn)闊o論從調(diào)性、感興趣程度、需求強(qiáng)烈度還是預(yù)算幾個方面來說,這一領(lǐng)域的中小 B 表現(xiàn)都比較好。合作大多數(shù)都是主動找過來的,通過一些定制化的案例來幫助我們更深入地了解具體商業(yè)場景中的痛點(diǎn)。
問:在行業(yè)模型上的積累是 AIGC 商業(yè)化的核心壁壘嗎?
青柑:從我們的視角出發(fā)是的,甚至于行業(yè)的數(shù)據(jù)會變得越來越重要。因?yàn)殡S著之后大家可能都會想要擁有 AI 技術(shù),拉開差距的可能就是數(shù)據(jù)量、如何篩選有效數(shù)據(jù)、哪些數(shù)據(jù)是獨(dú)有的,包括用戶的正反反饋數(shù)據(jù)也包含在內(nèi)。這些東西會逐漸成為各個 AI 公司的壁壘,而且會逐漸走向不同的垂直領(lǐng)域。數(shù)據(jù)收集的類型不一樣,也會產(chǎn)生不同的影響。
問:“大廠”入局 AIGC 會讓創(chuàng)業(yè)公司產(chǎn)生壓力嗎?
青柑:我們訓(xùn)練大模型,其實(shí)目標(biāo)是找到一個更有效、更有優(yōu)勢的功能性定義。對于大廠來說,基于產(chǎn)品生態(tài),在訓(xùn)練語料的數(shù)據(jù)量上會有一定優(yōu)勢,但可用性上不一定更強(qiáng)。再加上中文的語匯環(huán)境特點(diǎn)更加復(fù)雜,數(shù)據(jù)清洗難度很大,目前實(shí)際可用性的文本量級并沒有這么高,可能僅為英文語境可用性的 1/20。同時,就圖像生成來說,更并沒有觀察到像文本領(lǐng)域一樣由參數(shù)量引發(fā)的質(zhì)變。因此,在數(shù)據(jù)清洗和數(shù)據(jù)選擇這一方面,大廠要去經(jīng)歷的流程和創(chuàng)業(yè)公司沒有太大區(qū)別。當(dāng)然也不排除大廠有更好的驅(qū)動力和更多擅長數(shù)據(jù)清洗的人。但從我們的技術(shù)視角來說,我們平時會開玩笑說,其實(shí)并不擔(dān)心大廠突然做一個非常強(qiáng)的東西出來,而是會擔(dān)心再出現(xiàn)一個很聰明的年輕人用有限的資源做出了一個很有意思的技術(shù)和方向,解決了一個復(fù)雜的問題。因?yàn)楝F(xiàn)在看來,AI 可能會離現(xiàn)代技術(shù)更近,但如果一項(xiàng)技術(shù)的工程化潛力沒有那么強(qiáng),關(guān)于它的任何遐想,很快就會在下一代技術(shù)出現(xiàn)的時候被迭代掉。
問:如何評價(jià) ChatGPT 引發(fā)的“AI浪潮”?
Eric:現(xiàn)在的 AI 技術(shù)其實(shí)比較像之前的影像技術(shù),到了一個關(guān)鍵的技術(shù)節(jié)點(diǎn)之后自然會有一些不同的流向。比如有些是做照相機(jī),有些做攝影機(jī),而 ChatGPT 在產(chǎn)品化方面就像是直接做了個電視。大家現(xiàn)在的沖動可能來自于,有一天看到了電視,看到里面的一個影像化呈現(xiàn)非常感興趣,引發(fā)了對整個成像技術(shù)的興趣。但其實(shí)在用戶興趣的背后,不同的技術(shù)在不同的流向里都是有各自的發(fā)展的。單純地去做影像或者相機(jī)本身,也可以發(fā)展出徠卡、佳能這樣的應(yīng)用端公司,中間層也有蔡司鏡頭等。細(xì)分市場的延伸不同,大家都有自己獨(dú)有的數(shù)據(jù),但技術(shù)節(jié)點(diǎn)后的市場空間會非常廣闊,每個賽道都有可能催生非常大的公司。
ChatGPT 一個很重要的意義是提高了大家對AI的接受程度。以前 AI 只是幫人類解決輔助性的問題,比如識別分析和判定。但現(xiàn)在關(guān)于 AI 的討論已經(jīng)發(fā)展到了如何和人的工作流進(jìn)行有機(jī)結(jié)合,哪些環(huán)節(jié)應(yīng)該直接交給 AI 來做,要做到什么程度,形成怎樣的互動或者相互依存的關(guān)系。但這些都要針對接入特定的商業(yè)場景和工作流。
圖為 Tiamat 創(chuàng)作生成
問:我們怎樣去理解將 AIGC 融合進(jìn)工作流的重要性?
青柑:在一點(diǎn)上,圖像生成和文本可能又會存在比較大的區(qū)別。比如說 AI 幫我寫了一封郵件、一段文字,它可以很順滑地融入生產(chǎn)力工具,提高編輯效率,比如Notion AI。但圖像生成的最終判定標(biāo)準(zhǔn)就是圖片本身,比起工具體驗(yàn)的好壞,大家可能更關(guān)注圖片效果。因?yàn)?/span> SD 在開源之后大家其實(shí)做了很多插件,放到Blender、Figma 等生產(chǎn)力環(huán)境中,但更多用戶并沒有很順滑地去用這些插件,而是更愿意去 MidJourney 生成一張圖片復(fù)制下載到工具中使用。根本原因就是MidJourney 的生成質(zhì)量要好很多。當(dāng)然,生成圖像之后一些二次編輯的小功能是大家愿意去快速使用的,但這和他們過去使用的軟件并不沖突。整體來說我的感受是,在圖像生成領(lǐng)域,目前工具化的接入方式還沒有成為用戶關(guān)注的重點(diǎn)。
問:Tiamat 未來會考慮做文本語言模型嗎?
青柑:我們公司的整體風(fēng)格和選擇方向都比較專注。我們非常信服前沿技術(shù),但更加關(guān)注的是當(dāng)下的技術(shù)能不能解決當(dāng)下的問題。也許有能力的人會去努力成為 “中國的 OpenAI” ,但目前來說,我們還沒有去做 ChatGPT 這樣的文本大模型的理由。因?yàn)閷τ谝患覄?chuàng)業(yè)公司來說,如果能把圖像模型的可控性、精準(zhǔn)性和連續(xù)性做到最好,它其實(shí)就已經(jīng)能帶來很多垂直行業(yè)和場景下的商業(yè)化應(yīng)用了。比如去支持更加細(xì)分的、特定的設(shè)計(jì)行業(yè),幫助它們完成生產(chǎn)力提效。比較讓我們高興的一點(diǎn)是,我們看到 AI 技術(shù)正在向一個“新的互聯(lián)網(wǎng)”形式進(jìn)發(fā),而我們在產(chǎn)品戰(zhàn)略方面也會更加審慎。一個很具代表性的現(xiàn)象是,OpenAI 可能都還沒有想好 ChatGPT 的商業(yè)化應(yīng)用場景,國內(nèi)的創(chuàng)業(yè)公司反而會把這些問題想得更清楚??傮w來說,AI 是一個新的主題,每一個細(xì)分領(lǐng)域都值得被認(rèn)真打磨,大家聚焦在各自擅長的地方,才能形成更好的產(chǎn)業(yè)。
DCM中國創(chuàng)始合伙人、董事合伙人林欣禾表示:“AIGC正在走向真實(shí)落地,不僅要保持對前沿技術(shù)的探索,捕捉到更多的商業(yè)化機(jī)會也更為重要。將AI能力遷移到不同場景,同時滿足效率和成本的要求,AI才有更大的價(jià)值。”
綠洲資本投資負(fù)責(zé)人表示:“Tiamat 通過生成式 AI,結(jié)合已知文本或圖像文件,自動生成新的圖像數(shù)字內(nèi)容,突破了專業(yè)插畫師、設(shè)計(jì)師、數(shù)字藝術(shù)工作者在創(chuàng)作中的效率桎梏問題。綠洲資本自去年上半年就已經(jīng)開始關(guān)注 AIGC 為產(chǎn)業(yè)帶來的底層變化,我們認(rèn)為 Tiamat 基于特定風(fēng)格管線的積累,以及在社區(qū)用戶之間的廣泛影響力,必定會向用戶提供新一代的創(chuàng)意設(shè)計(jì)工具產(chǎn)品。Tiamat 正在圍繞設(shè)計(jì)的垂直場景,逐步構(gòu)建出一套 'AIGC-based' 工作流,我們相信這將會給整個創(chuàng)意行業(yè)帶來巨大的變革。 ”
投資家網(wǎng)5月10日消息,長租行業(yè)的房東直租平臺「巴樂兔」今日宣布,已于近期完成3億元人民幣新一輪融資...
這家紐約創(chuàng)企表示自2015年成立以來,其注冊用戶已經(jīng)超過100萬。它的住戶大多都是年輕的工作者,平均...
近日,國內(nèi)領(lǐng)先的大學(xué)生生活綜合服務(wù)平臺胖乖生活與三只羊旗下的知名數(shù)碼主播超哥數(shù)碼達(dá)成了戰(zhàn)略合作。
隨著A股市場的不斷演變,投資者對于各類資產(chǎn)的關(guān)注點(diǎn)也在發(fā)生著微妙的變化。
今年以來, A股市場呈現(xiàn)出典型的“結(jié)構(gòu)性行情”特征,市場熱點(diǎn)輪換加快,在多個板塊輪番上漲過后,投資者...
2023年,全球風(fēng)起云涌,股權(quán)投資受大環(huán)境影響步入了歷史轉(zhuǎn)折期。
后疫情時代,呼吸系統(tǒng)疾病的流行病學(xué)發(fā)生了很大的變化,不能再用過往的經(jīng)驗(yàn)去預(yù)測和應(yīng)對,守護(hù)自己和家人的...
此次合作,旨在充分發(fā)揮雙方優(yōu)勢,為新理念、新思想、新模式、新技術(shù)提供有力支持,助力黨委政府戰(zhàn)略咨詢、...
為喜迎新中國 75 周年華誕,同時更加有效助力中華優(yōu)秀傳統(tǒng)文化的創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展,華夏文化促進(jìn)...
面向未來,鴻鵠實(shí)驗(yàn)室將繼續(xù)以科技創(chuàng)新為驅(qū)動,以前瞻性思維引領(lǐng)TCL實(shí)業(yè)技術(shù)研發(fā)方向,不斷探索新產(chǎn)品、...
本次詩文展活動以詩文形式詮釋、演繹、弘揚(yáng)了新時代禮義文化,是向新中國75周年華誕的一次重大獻(xiàn)禮,反映...
今年是TCL出海的25周年。多年來,TCL實(shí)業(yè)通過不斷提升科技創(chuàng)新能力,為全球消費(fèi)者提供了眾多讓人耳...
投資家網(wǎng)(jubohaotong.com)是國內(nèi)領(lǐng)先的資本與產(chǎn)業(yè)創(chuàng)新綜合服務(wù)平臺。為活躍于中國市場的VC/PE、上市公司、創(chuàng)業(yè)企業(yè)、地方政府等提供專業(yè)的第三方信息服務(wù),包括行業(yè)媒體、智庫服務(wù)、會議服務(wù)及生態(tài)服務(wù)。長按右側(cè)二維碼添加"投資哥"可與小編深入交流,并可加入微信群參與官方活動,趕快行動吧。
2016年注冊于北京的中氫新能技術(shù)有限公司,下設(shè)位于大興的裝備制造公司、位于海淀區(qū)的技術(shù)研究院、材料...
一度無比高光的理想汽車,猝不及防遭遇重挫。
2024年1月10日,由投資家網(wǎng)主辦,財(cái)經(jīng)銳眼、有時間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...
2024年1月10日,由投資家網(wǎng)主辦,財(cái)經(jīng)銳眼、有時間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...
2024年1月10日,由投資家網(wǎng)主辦,財(cái)經(jīng)銳眼、有時間協(xié)辦,北京微金科技有限公司承辦的“第十二屆股權(quán)...