【資料圖】
站長(zhǎng)之家(ChinaZ.com) 7月3日消息:Diffusion 模型近年來(lái)在文本到圖像生成方面得到廣泛應(yīng)用,并取得了顯著的成功,從而在圖像質(zhì)量、推理性能和創(chuàng)造性范圍方面實(shí)現(xiàn)了重大改進(jìn)。然而,在難以用文字明確定義的條件下,有效的生成管理仍然是一個(gè)挑戰(zhàn)。
由谷歌研究人員開(kāi)發(fā)的 MediaPipe Diffusion 插件使得用戶(hù)可以在設(shè)備上執(zhí)行文本到圖像的生成,并進(jìn)行用戶(hù)控制。在這項(xiàng)研究中,谷歌延伸了之前關(guān)于設(shè)備上大型生成模型的 GPU 推理的工作,提出了低成本的可編程文本到圖像創(chuàng)建解決方案,可以集成到現(xiàn)有的 Diffusion 模型及其 LoRA 變體中。
Diffusion 模型中模擬了迭代去噪的圖像生成過(guò)程。Diffusion 模型的每一次迭代都以受噪聲污染的圖像開(kāi)始,并以目標(biāo)概念的圖像結(jié)束。通過(guò)文本提示的語(yǔ)言理解極大地增強(qiáng)了圖像生成過(guò)程。文本嵌入通過(guò)交叉注意力層與文本到圖像生成模型關(guān)聯(lián)起來(lái)。然而,物體的位置和姿態(tài)等細(xì)節(jié)可能更難以通過(guò)文本提示傳達(dá)。研究人員通過(guò)額外的模型將條件圖像中的控制信息引入到 Diffusion 中。
Plug-and-Play、ControlNet 和 T2I Adapter 方法經(jīng)常用于生成受控的文本到圖像輸出。Plug-and-Play 使用 Diffusion 模型的副本(Stable Diffusion1.5 版本的 860M 參數(shù))和廣泛使用的去噪 Diffusion 隱式模型(DDIM)反演方法來(lái)從輸入圖像中推導(dǎo)出初始噪聲輸入。
通過(guò)自注意力從復(fù)制的 Diffusion 中提取空間特征,并使用 Plug-and-Play 將其注入到文本到圖像 Diffusion 中。ControlNet 構(gòu)建了 Diffusion 模型編碼器的可訓(xùn)練副本,并通過(guò)一個(gè)帶有零初始化參數(shù)的卷積層連接到編碼條件信息,然后傳遞給解碼器層。不幸的是,這導(dǎo)致了模型的顯著增大,Stable Diffusion1.5 版本的參數(shù)約為 4.5 億個(gè),相當(dāng)于 Diffusion 模型本身的一半。T2I Adapter 在較小的網(wǎng)絡(luò)(77M 參數(shù))下實(shí)現(xiàn)了可比較的受控生成結(jié)果。條件圖像是 T2I Adapter 的唯一輸入,其結(jié)果被用于所有后續(xù)的 Diffusion 周期。然而,這種適配器樣式不適用于移動(dòng)設(shè)備。
MediaPipe Diffusion 插件是谷歌開(kāi)發(fā)的一個(gè)獨(dú)立網(wǎng)絡(luò),旨在使條件生成變得高效、靈活和可擴(kuò)展。
作為一種便攜式的設(shè)備上文本到圖像創(chuàng)建范式,MediaPipe Diffusion 插件可以免費(fèi)下載使用。它接收一個(gè)條件圖像,并通過(guò)多尺度特征提取將特征添加到 Diffusion 模型的編碼器中的適當(dāng)尺度上。
當(dāng)與文本到圖像 Diffusion 模型結(jié)合使用時(shí),插件模型將一個(gè)條件信號(hào)添加到圖像生成過(guò)程中。谷歌希望插件網(wǎng)絡(luò)只有 600 萬(wàn)個(gè)參數(shù),使其成為一個(gè)相對(duì)簡(jiǎn)單的模型。
MediaPipe:https://developers.google.com/mediapipe
關(guān)鍵詞: