概要と1. はじめに
関連研究
MaGGIe
3.1. 効率的なマスクガイドインスタンスマッティング
3.2. 特徴マット時間的一貫性
インスタンスマッティングデータセット
4.1. 画像インスタンスマッティングと4.2. 動画インスタンスマッティング
実験
5.1. 画像データの事前学習
5.2. 動画データの学習
考察と参考文献
\ 補足資料
アーキテクチャの詳細
画像マッティング
8.1. データセット生成と準備
8.2. 学習の詳細
8.3. 定量的詳細
8.4. 自然画像のより多くの定性的結果
動画マッティング
9.1. データセット生成
9.2. 学習の詳細
9.3. 定量的詳細
9.4. より多くの定性的結果
本セクションでは、画像マッティングプロセスを拡張し、データセット生成と既存手法との包括的な比較についての追加的な洞察を提供する。I-HIM50KおよびM-HIM2Kデータセットの作成について掘り下げ、詳細な定量分析を提供し、我々のアプローチの有効性を強調するためのさらなる定性的結果を提示する。
I-HIM50Kデータセットは、人物画像マットの広範なコレクションで知られるHHM50K [50]データセットから合成された。我々は、COCOデータセットで学習されたMaskRCNN [14] Resnet-50 FPN 3xモデルを使用して単一人物画像をフィルタリングし、35,053枚の画像のサブセットを得た。InstMatt [49]の方法論に従い、これらの画像はBG20K [29]データセットの多様な背景に合成され、画像ごとに2~5人の被写体を含むマルチインスタンスシナリオが作成された。被写体は、現実的なスケールを維持し、インスタンスIoUが30%を超えないことで示される過度の重複を避けるためにリサイズおよび配置された。このプロセスにより49,737枚の画像が生成され、画像あたり平均2.28のインスタンスとなった。学習中、ガイダンスマスクは、アルファマットを二値化し、ランダムなドロップアウト、拡張、および侵食操作を適用することで生成された。I-HIM50Kのサンプル画像は図10に表示されている。
\ M-HIM2Kデータセットは、さまざまなマスク品質に対するモデルのロバスト性をテストするために設計された。これは、さまざまなMaskRCNNモデルを使用して生成された、インスタンスごとに10個のマスクで構成されている。この生成プロセスに使用されたモデルの詳細情報は表8に示されている。マスクは、グラウンドトゥルースアルファマットとの最高IoUに基づいてインスタンスにマッチングされ、70%の最小IoU閾値が確保された。この閾値を満たさないマスクは、グラウンドトゥルースから人工的に生成された。このプロセスにより、合成用に117,660枚、自然画像用に16,600枚の合計134,240枚のマスクの包括的なセットが作成され、マスクガイドインスタンスマッティングを評価するための堅牢なベンチマークが提供された。完全なデータセットI-HIM50KおよびM-HIM2Kは、本研究の採択後にリリースされる予定である。
\ 
\ 
\
:::info 著者:
(1) Chuong Huynh, University of Maryland, College Park ([email protected]);
(2) Seoung Wug Oh, Adobe Research (seoh,[email protected]);
(3) Abhinav Shrivastava, University of Maryland, College Park ([email protected]);
(4) Joon-Young Lee, Adobe Research ([email protected]).
:::
:::info 本論文は、CC by 4.0 Deed(Attribution 4.0 International)ライセンスの下でarxivで入手可能です。
:::
\


