MaGGIe 在自然影像的頭髮渲染和實例分離方面表現出色,在複雜的多實例場景中優於 MGM 和 InstMatt。MaGGIe 在自然影像的頭髮渲染和實例分離方面表現出色,在複雜的多實例場景中優於 MGM 和 InstMatt。

強健的遮罩引導去背:管理雜訊輸入與物件多樣性

摘要與 1. 引言

  1. 相關研究

  2. MaGGIe

    3.1. 高效遮罩引導實例摳圖

    3.2. 特徵-遮罩時間一致性

  3. 實例摳圖資料集

    4.1. 影像實例摳圖與 4.2. 視訊實例摳圖

  4. 實驗

    5.1. 在影像資料上預訓練

    5.2. 在視訊資料上訓練

  5. 討論與參考文獻

\ 補充材料

  1. 架構細節

  2. 影像摳圖

    8.1. 資料集生成與準備

    8.2. 訓練細節

    8.3. 定量細節

    8.4. 更多自然影像的定性結果

  3. 視訊摳圖

    9.1. 資料集生成

    9.2. 訓練細節

    9.3. 定量細節

    9.4. 更多定性結果

8.4. 更多自然影像的定性結果

圖 13 展示了我們模型在具有挑戰性場景中的表現,特別是在準確渲染頭髮區域方面。我們的框架在細節保留方面持續優於 MGM⋆,尤其是在複雜的實例互動中。與 InstMatt 相比,我們的模型在模糊區域展現出更優越的實例分離和細節準確度。

\ 圖 14 和圖 15 展示了我們的模型和先前研究在涉及多個實例的極端情況下的表現。雖然 MGM⋆ 在密集實例場景中面臨雜訊和準確度的困擾,但我們的模型保持了高精確度。InstMatt 在沒有額外訓練資料的情況下,在這些複雜設置中顯示出局限性。

\ 我們遮罩引導方法的穩健性在圖 16 中得到進一步證明。在此,我們強調了 MGM 變體和 SparseMat 在預測遮罩輸入中缺失部分時所面臨的挑戰,而我們的模型解決了這些問題。然而,重要的是要注意,我們的模型並非設計為人體實例分割網路。如圖 17 所示,我們的框架遵循輸入引導,即使在同一遮罩中存在多個實例時,也能確保精確的 alpha 遮罩預測。

\ 最後,圖 12 和圖 11 強調了我們模型的泛化能力。該模型準確地從背景中提取人體主體和其他物體,展示了其在各種場景和物體類型中的多功能性。

\ 所有範例均為無真實標註的網路影像,並使用來自 r101fpn400e 的遮罩作為引導。

\ 圖 13. 我們的模型在自然影像上生成高度詳細的 alpha 遮罩。我們的結果顯示,它在沒有昂貴計算成本的情況下準確且可與先前的實例無關和實例感知方法相媲美。紅色方框放大了每個實例的細節區域。(最佳以彩色和數位縮放檢視)。

\ 圖 14. 我們的框架在具有許多實例的極端情況下精確分離實例。雖然 MGM 經常導致實例之間的重疊,而 MGM⋆ 包含雜訊,但我們的結果與在外部資料集上訓練的 InstMatt 相當。紅色箭頭指示錯誤。(最佳以彩色和數位縮放檢視)。

\ 圖 15. 我們的框架在一次傳遞中精確分離實例。所提出的解決方案顯示出與 InstMatt 和 MGM 相當的結果,而無需運行五次預測/精煉。紅色箭頭指示錯誤。(最佳以彩色和數位縮放檢視)。

\ 圖 16. 與 MGM 和 SparseMat 不同,我們的模型對輸入引導遮罩具有穩健性。透過注意力頭,我們的模型對遮罩輸入產生更穩定的結果,而無需像 InstMatt 那樣在實例之間進行複雜的精煉。紅色箭頭指示錯誤。(最佳以彩色和數位縮放檢視)。

\ 圖 17. 我們的解決方案在多實例遮罩引導下正確運作。當一個引導遮罩中存在多個實例時,我們仍然為這些實例生成正確的聯合 alpha 遮罩。紅色箭頭指示錯誤或紅色方框中的放大區域。(最佳以彩色和數位縮放檢視)。

\ 表 12. HIM2K+M-HIM2K 上定量結果的細節(表 5 的延伸)。灰色表示未重新訓練的公開權重。

\ 表 12. HIM2K+M-HIM2K 上定量結果的細節(表 5 的延伸)。灰色表示未重新訓練的公開權重。(續)

\ 表 12. HIM2K+M-HIM2K 上定量結果的細節(表 5 的延伸)。灰色表示未重新訓練的公開權重。(續)

\ 表 12. HIM2K+M-HIM2K 上定量結果的細節(表 5 的延伸)。灰色表示未重新訓練的公開權重。(續)

\ 表 13. 所提出的時間一致性模組在 V-HIM60 上的有效性(表 6 的延伸)。雙向 Conv-GRU 和前向-後向融合的組合在三個測試集上達到了最佳整體效能。粗體突出顯示每個級別的最佳結果。

\

:::info 作者:

(1) Chuong Huynh,馬里蘭大學帕克分校 ([email protected]);

(2) Seoung Wug Oh,Adobe Research (seoh,[email protected]);

(3) Abhinav Shrivastava,馬里蘭大學帕克分校 ([email protected]);

(4) Joon-Young Lee,Adobe Research ([email protected])。

:::


:::info 本論文可在 arxiv 上取得,採用 CC by 4.0 Deed(姓名標示 4.0 國際)授權。

:::

\

市場機遇
Mask Network 圖標
Mask Network實時價格 (MASK)
$0.5937
$0.5937$0.5937
-2.70%
USD
Mask Network (MASK) 實時價格圖表
免責聲明: 本網站轉載的文章均來源於公開平台,僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利,請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證,並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考,不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

您可能也會喜歡

Solana Treasury Stocks:為什麼這些公司正在大量購買 SOL?

Solana Treasury Stocks:為什麼這些公司正在大量購買 SOL?

這篇文章《Solana 財庫股票:為什麼這些公司大量購買 SOL?》發表於 BitcoinEthereumNews.com。在 2020 年,大家都看到 Strategy(當時稱為 Microstrategy)大量購入 Bitcoin,使企業加密貨幣財庫成為主流話題。現在,一股新浪潮正在形成,而且以 Solana 為中心。數十家公司持有 SOL 作為對價格的押注。但他們不僅僅是持有,他們正在建立所謂的 Solana 財庫或數位資產財庫(DATs)。這些不是被動的金庫,而是積極的策略,進行質押、賺取收益,並與快速成長的 Solana 生態系統相連。 在納斯達克上市的 Forward Industries 公司最近購買了超過 680 萬個 SOL,使其成為全球最大的 Solana 財庫公司。其他如 Helius Medical、Upexi 和 DeFi Development 也在採用類似的策略,將 SOL 變成其資產負債表的核心。趨勢很明顯:Solana 財庫股票正在成為一種新型的加密貨幣相關股票。對投資者來說,問題不僅是誰在買入,還有為什麼這種策略傳播得如此之快。 主要亮點:
  • Solana 財庫(DATs)是企業持有的 SOL 儲備,旨在通過質押和 DeFi 賺取收益。
  • Forward Industries、Helius Medical、Upexi 和 DeFi Development Corp 等公司現在持有數百萬個 SOL。
  • 上市公司共同擁有 1710 萬個 SOL(約 40 億美元),使 Solana 成為最被採用的財庫之一。
  • 與 Bitcoin 財庫不同,Solana 持有量每年產生 6-8% 的回報,使儲備變成生產性資產。
  • Solana 財庫股票正在成為投資者間接接觸 SOL 的新方式。
  • 風險仍然存在:波動性、監管和集中持有。但企業採用正在迅速增長。
什麼是 Solana 財庫(DAT)? Solana 財庫,有時被稱為數位資產財庫(DAT),是指公司在其資產負債表中持有 SOL。但與 Bitcoin 財庫不同,這些通常不僅僅是靜態儲備存放在冷錢包中。關鍵區別在於生產力。SOL 可以直接質押...
分享
BitcoinEthereumNews2025/09/21 06:09
XRP 看漲背離顯示價格接下來的走向

XRP 看漲背離顯示價格接下來的走向

XRP 目前可能正在修正階段交易,但技術分析顯示該加密貨幣仍朝向上升方向發展。最近分享的一項分析
分享
NewsBTC2026/01/21 04:30
葡萄牙因400萬歐元選舉投注醜聞禁用Polymarket

葡萄牙因400萬歐元選舉投注醜聞禁用Polymarket

葡萄牙已下令加密貨幣預測平台 Polymarket 在 48 小時內關閉,此前發現超過 400 萬歐元的可疑投注活動於
分享
Brave Newcoin2026/01/21 04:05