由Elon Musk創立的人工智能初創公司OpenAI,為流行的DALL-E文本-圖像生成器提供支持,宣布發布其最新的圖像制作機器POINT-E,它可以直接從文本提示中生成3D點云。谷歌的DreamFusion等現有系統通常需要數小時和GPU來生成圖像,而Point-E只需要一個GPU和一兩分鐘。
3D 建模用于各種行業和應用程序。現代電影大片、視頻游戲、VR 和 AR 的 CGI 效果、NASA 的月球隕石坑測繪任務、Google 的遺址保護項目以及 Meta 的 Metaverse 愿景都取決于 3D 建模功能。然而,創建逼真的 3D 圖像仍然是一個耗費資源和時間的過程,盡管 NVIDIA 致力于自動化對象生成和 Epic Game 的 RealityCapture 移動應用程序,它允許任何擁有 iOS 手機的人將現實世界的對象掃描為 3D 圖像。
文本到圖像系統,如 OpenAI 的 DALL-E 2 和 Craiyon、DeepAI、Prisma Lab 的 Lensa 或 HuggingFace 的 Stable Diffusion,近年來迅速流行、臭名昭著和聲名狼藉。Text-to-3D 是該研究的一個分支。與類似系統不同,Point-E“利用大量(文本、圖像)對語料庫,使其能夠遵循多樣化和復雜的提示,而我們的圖像到 3D 模型是在較小的(圖像、3D)數據集上訓練的對,”由 Alex Nichol 領導的 OpenAI 研究團隊在 Point·E 中寫道:從復雜提示生成 3D 點云的系統, 上周發布。“為了根據文本提示生成 3D 對象,我們首先使用文本到圖像模型對圖像進行采樣,然后根據采樣圖像對 3D 對象進行采樣。這兩個步驟都可以在幾秒鐘內完成,并且不需要昂貴的優化程序。”
如果您要輸入文本提示,比如“一只貓在吃墨西哥卷餅”,Point-E 將首先生成該吃墨西哥卷餅的貓的合成視圖 3D 渲染。然后,它將通過一系列擴散模型運行生成的圖像,以創建初始圖像的 3D、RGB 點云——首先生成粗略的 1,024 點云模型,然后生成更精細的 4,096 點云模型。“在實踐中,我們假設圖像包含來自文本的相關信息,并且沒有明確地限制文本上的點云,”研究團隊指出。
這些擴散模型分別在“數百萬”個 3d 模型上進行訓練,所有模型都轉換為標準化格式。“雖然我們的方法在這種評估中的表現比最先進的技術差,”該團隊承認,“它在一小部分時間內產生了樣本。” 如果您想親自嘗試一下,OpenAI 已在 Github 上發布了該項目的開源代碼。