O3D-SIM est construit en projetant des masques 2D et des embeddings en 3D, en utilisant DBSCAN pour le raffinement initial.O3D-SIM est construit en projetant des masques 2D et des embeddings en 3D, en utilisant DBSCAN pour le raffinement initial.

Construction d'une représentation 3D en ensemble ouvert : Fusion de caractéristiques et fusion géométrico-sémantique

2025/12/15 01:00

Abstrait et 1 Introduction

  1. Travaux connexes

    2.1. Navigation basée sur la vision et le langage

    2.2. Compréhension sémantique de scène et segmentation d'instance

    2.3. Reconstruction de scène 3D

  2. Méthodologie

    3.1. Collecte de données

    3.2. Informations sémantiques en ensemble ouvert à partir d'images

    3.3. Création de la représentation 3D en ensemble ouvert

    3.4. Navigation guidée par le langage

  3. Expériences

    4.1. Évaluation quantitative

    4.2. Résultats qualitatifs

  4. Conclusion et travaux futurs, déclaration de divulgation et références

3.3. Création de la représentation 3D en ensemble ouvert

Pour compléter la construction de l'O3D-SIM, nous nous appuyons maintenant sur les embeddings de caractéristiques extraits pour chaque objet en projetant les informations d'objet dans l'espace 3D, en les regroupant et en associant les objets à travers plusieurs images pour créer une représentation complète de la scène 3D. Le processus de projection des informations sémantiques dans l'espace 3D et d'affinage de la carte est illustré dans la Figure 3.

\ 3.3.1. L'initialisation de l'O3D-SIM

\ La carte 3D est initialement créée à l'aide d'une image sélectionnée, qui sert de cadre de référence pour initialiser notre représentation de scène. Cette étape établit la structure fondamentale de notre scène 3D, qui est ensuite progressivement enrichie avec des données provenant d'images ultérieures pour enrichir la complexité et les détails de la scène.

\ Les données des objets dans une scène 3D sont organisées sous forme de nœuds dans un dictionnaire, qui est initialement vide. Les objets sont ensuite identifiés à partir de l'image initiale avec les données connexes qui englobent les caractéristiques d'embedding et les informations sur leurs masques. Pour chaque objet discerné dans l'image, un nuage de points 3D est créé en utilisant les informations de profondeur disponibles et le masque de l'objet. Cette formation de nuage de points implique la cartographie des pixels 2D dans l'espace 3D, facilitée par les paramètres intrinsèques de la caméra et les valeurs de profondeur. Par la suite, la pose de la caméra est utilisée pour aligner avec précision le nuage de points dans le système de coordonnées global. Pour affiner notre représentation de scène, le filtrage d'arrière-plan supprime les éléments identifiés comme arrière-plan, tels que les murs ou les sols. Ces éléments sont exclus du traitement ultérieur, en particulier dans la phase de clustering, car ils ne constituent pas l'objet principal de notre représentation de scène.

\ L'ensemble des nuages de points d'objets est traité davantage en utilisant le clustering DBSCAN[34] pour l'affinage de la représentation. Le nuage de points est sous-échantillonné via un filtrage par grille de voxels pour réduire le nombre de points et la complexité computationnelle tout en préservant la structure spatiale des données gérable. DBSCAN regroupe les points qui sont étroitement regroupés tout en étiquetant les points qui se trouvent seuls dans des régions de faible densité comme du bruit. Dans une étape post-clustering, le plus grand cluster, qui correspond généralement à l'objet principal d'intérêt dans le nuage de points, est identifié. Cela aide à filtrer le bruit et les points non pertinents, produisant une représentation plus propre de l'objet d'intérêt.

\ La pose d'un objet dans l'espace 3D est déterminée en calculant l'orientation d'une boîte englobante, qui offre une représentation spatiale concise de l'emplacement et de la taille de l'objet dans l'espace 3D. Par la suite, la sortie de la carte 3D est initialisée avec un ensemble initial de nœuds, encapsulant les embeddings de caractéristiques, les données de nuage de points, les boîtes englobantes et le nombre de points dans le nuage de points associé à chaque nœud. Chaque nœud comprend également des informations sur la source pour faciliter le traçage des origines des données et le lien entre les nœuds et leurs homologues d'image 2D.

\ 3.3.2. Mise à jour incrémentale de l'O3D-SIM

\ Après avoir initialisé la scène, nous mettons à jour la représentation avec des données provenant de nouvelles images. Ce processus garantit que notre scène 3D reste actuelle et précise à mesure que des informations supplémentaires deviennent disponibles. Il itère sur chaque image dans la séquence d'images; pour chaque nouvelle image, les données multi-objets sont extraites et la scène est mise à jour.

\ Les objets sont détectés pour chaque nouvelle image, et de nouveaux nœuds sont créés comme pour l'image initiale. Ces nœuds temporaires contiennent les données 3D pour les objets nouvellement détectés qui doivent soit être fusionnés dans la scène existante, soit ajoutés comme nouveaux nœuds. La similarité entre les nœuds nouvellement détectés et les nœuds de scène existants est déterminée en combinant la similarité visuelle, dérivée des embeddings de caractéristiques, et la similarité spatiale (géométrique), obtenue à partir du chevauchement des nuages de points, pour formuler une mesure de similarité agrégée. Si cette mesure dépasse un seuil prédéterminé, la nouvelle détection est considérée comme correspondant à un objet existant dans la scène. En effet, le nœud nouvellement détecté est soit fusionné avec un nœud de scène existant, soit ajouté comme nouveau nœud.

\ La fusion implique l'intégration des nuages de points et la moyenne des embeddings de caractéristiques. Une moyenne pondérée des embeddings CLIP et DINO est calculée, en tenant compte de la contribution des informations clés de source, avec une préférence pour les nœuds ayant plus d'identifiants de source. Si un nouveau nœud doit être ajouté, il est incorporé dans le dictionnaire de scène.

\ L'affinage de la scène se produit une fois que les objets de toutes les images de la séquence d'entrée ont été ajoutés. Ce processus consolide les nœuds qui représentent les mêmes objets physiques mais qui ont été initialement identifiés comme séparés en raison d'occlusions, de changements de point de vue ou de facteurs similaires. Il utilise une matrice de chevauchement pour identifier les nœuds qui partagent une occupation spatiale et les fusionne logiquement en un seul nœud. La scène est finalisée en écartant les nœuds qui ne répondent pas au nombre minimum de points ou aux critères de détection. Cela aboutit à une représentation finale de scène affinée et optimisée - Cartes d'instances sémantiques 3D en ensemble ouvert, alias O3D-SIM.

\

:::info Auteurs:

(1) Laksh Nanwani, Institut international de technologie de l'information, Hyderabad, Inde; cet auteur a contribué de manière égale à ce travail;

(2) Kumaraditya Gupta, Institut international de technologie de l'information, Hyderabad, Inde;

(3) Aditya Mathur, Institut international de technologie de l'information, Hyderabad, Inde; cet auteur a contribué de manière égale à ce travail;

(4) Swayam Agrawal, Institut international de technologie de l'information, Hyderabad, Inde;

(5) A.H. Abdul Hafez, Université Hasan Kalyoncu, Sahinbey, Gaziantep, Turquie;

(6) K. Madhava Krishna, Institut international de technologie de l'information, Hyderabad, Inde.

:::


:::info Cet article est disponible sur arxiv sous licence CC by-SA 4.0 Deed (Attribution-Partage dans les mêmes conditions 4.0 International).

:::

\

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.