Zum Inhalt
210825-website-blog-semantische-intelligenz-1
Tim RungeAug 21, 20254 Minuten lesen

3D-Räume lehren, sich selbst zu verstehen: Erforschung der semantischen Intelligenz bei NavVis

NavVis hatte schon immer das Ziel, Menschen dabei zu helfen, Innen- und Außenräume besser zu erfassen und zu erkunden. Unsere Scanner und Software verwandeln reale Orte in genaue, detaillierte digitale 3D-Räume. Aber was wäre, wenn diese digitalen Räume mehr könnten, als nur zu zeigen, was dort ist? Was wäre, wenn sie auch ihren eigenen Inhalt verstehen könnten?

Bei unserem jüngsten CodeJam haben die Ingenieure mit einem frühen Prototyp experimentiert, der einen deutlichen Schritt in diese Richtung macht: Verbesserung von 3D Gaussian Splatting mit semantischen Merkmalen.

Die Idee: Bedeutung in 3D bringen

Heute erkennen und beschriften leistungsstarke KI-Modelle Objekte in 2D-Fotos eindeutig. Man kann diesen Modellen ein Foto zeigen, und sie erkennen sofort Stühle, Tische, Türen und vieles mehr. Bei 3D-Szenen ist diese Art von Verständnis jedoch noch weit entfernt.

Deshalb ist NavVis' Manuel Dahnert, ein Experte für maschinelles Lernen, der zuvor an der Technischen Universität München promoviert hatte, gefragt: Können wir dieses 2D-Wissen auf 3D-Umgebungen übertragen, insbesondere auf 3D-Gaussian-Splatting-Umgebungen, so dass Benutzer mit Objekten und nicht nur mit Geometrie interagieren können?

Manuels Hypothese war einfach, aber ehrgeizig. Wenn wir die Erkenntnisse aus 2D-Bildern direkt auf digitale 3D-Umgebungen anwenden könnten, NavVisBenutzer mit Räumen auf vielfältigere Weise interagieren. Sie könnten eine digitaler Zwilling nach Objekttypen abfragen, eine schnelle Bestandsprüfung durchführen oder sogar ein 3D-Modell filtern, um sich nur auf bestimmte Elemente zu konzentrieren.

Warum Gauß und nicht Punktwolken?

Gaussian Splatting modelliert eine Szene als Tausende von überlappenden, farbigen "Klecksen" anstelle von Millionen diskreter Punkte. Jeder Klecks ist mit Größe, Farbe und Tiefe versehen, was die Verknüpfung mit den ursprünglichen Kamerabildern erleichtert.

Diese Struktur ermöglicht es auch, semantische Beschriftungen aus 2D-Bildern natürlicher in 3D zu übertragen. Außerdem sind die Dateien dadurch leichter, werden schneller gerendert und unterstützen glattere Oberflächen und Okklusionen - und das alles unter Beibehaltung der ursprünglichen NavVis Punktwolke für genaue Messungen erhalten bleibt.

Kurz gesagt: Gaussianer bieten eine aussagekräftigere und effizientere Grundlage, um 3D-Daten Bedeutung zu verleihen.

Bau des Prototyps

  1. Segment Anything Model (SAM) isoliert Objekte in jedem Bild.
  2. Die CLIP-Vision-Language-Merkmale assoziierten diese Objekte mit Kategorien wie Stuhl oder Tür.
  3. Die beschrifteten Pixel wurden in die gesplatterte Szene gehoben und färbten jeden Blob, der zum gleichen Objekttyp gehörte.

In Manuels Prototyp erschienen verschiedene Arten von Objekten durchweg in verschiedenen Farben. Alle Stühle wurden in einer Farbe angezeigt, Tische in einer anderen und Türen in einer anderen. Obwohl er noch nicht in der Lage war, textbasierte Abfragen hinzuzufügen, zeigten die Ergebnisse deutlich das Potenzial dieser Methode. Die digitale Szene war nicht nur realistisch, sondern auch semantisch geordnet.

Ansicht 1 Ansicht 2 Ansicht 3
220825-website-blog-semantische-intelligenz-1 220825-website-blog-semantische-intelligenz-2 220825-website-blog-semantische-intelligenz-3

Abbildung 1: Beispiele für 3D Gaussian Splatting unter Verwendung der NavVis HQ Küche als Testumgebung. Unterschiedliche Farben kennzeichnen verschiedene Arten von Objekten.

Praktischer Wert

  • Filtern Sie einen digitaler Zwilling , um nur kritische Geräte anzuzeigen
  • Vergleichen Sie erfasste Möbel in Sekundenschnelle mit einem Designmodell.
  • Zählen Sie bestimmte Objekte ohne manuelle Beschriftung.

Semantisches Verstehen in 3D-Szenen eröffnet viele Möglichkeiten. Stellen Sie sich vor, Sie gehen durch einen digitaler Zwilling eines Gebäudes und filtern schnell, um nur Brandschutzeinrichtungen zu sehen. Oder stellen Sie sich vor, dass ein Bauleiter sofort erkennt, welche Teile eines halbfertigen Gebäudes mit dem BIM übereinstimmen oder davon abweichen. Diese Funktionen können in Branchen wie dem Baugewerbe, dem Gebäudemanagement und bei Sicherheitsinspektionen viel Zeit und Mühe sparen.

Mit anderen Worten: Wir glauben, dass die Kombination digitaler Räume mit semantischem Verständnis zu einer intelligenteren Navigation, schnelleren Suche und besseren Entscheidungsfindung führen kann.

Gemeinsame Stiftungen: Saubere Panoramen

NavVisDie Erforschung des semantischen Verständnisses ist nicht auf 3D-Räume beschränkt. Ein anderes Team bei unserem CodeJam verwendete ähnliche Segmentierungsmodelle, um automatisch Bediener aus den von unseren NavVis MLX-Laserscannern aufgenommenen Panoramen zu entfernen.

Diese saubere Ausgabe bedeutet weniger manuelle Bearbeitung, klarere Bilder und eine insgesamt verbesserte Benutzerfreundlichkeit. Es zeigt auch, wie praktisch und wertvoll semantische Segmentierung heute sein kann, selbst ohne vollständige 3D-Integration.

Aktuelle Grenzwerte und offene Fragen

  • Dateigröße: Die semantische Szene ist immer noch schwer, die Optimierung ist im Gange.
  • Bereichsabdeckung: Offene Modelle kommen gut mit Alltagsgegenständen zurecht, haben aber Schwierigkeiten mit speziellen Industrieobjekten, weshalb zusätzliche Trainingsdaten erforderlich sein können.
  • Kostenrahmen: Die Cloud-Verarbeitung muss innerhalb eines Budgets bleiben, das für bestehende Kunden nicht unerschwinglich ist.
  • Benutzeroberfläche: NavVis IVION braucht Möglichkeiten, um semantische Filter und Abfragen darzustellen.

Die ersten Ergebnisse sind zwar vielversprechend, aber Manuel und der Rest des Teams sind sich bewusst, dass sich die Arbeit noch in einer frühen Phase befindet. Um vom Prototyp zum Produkt zu gelangen, sind weitere Tests in der realen Welt erforderlich, insbesondere in komplexen industriellen Umgebungen.

Das Ziel ist es, sicherzustellen, dass alle zukünftigen semantischen Funktionen die gleichen Erwartungen an Genauigkeit, Zuverlässigkeit und Leistung erfüllen, die für alle NavVis Produkte gelten.

Blick in die Zukunft

Innovation folgt hier einem vorhersehbaren Weg: Prototyp → Messung → Iteration. Einige Ideen gehen in die Produktplanung ein. Andere fließen in die künftige Forschung ein. Diese Arbeit ist in der Forschungsphase angesiedelt, orientiert sich aber an den klaren Kundenbedürfnissen und der allgemeinen Ausrichtung der Branche.

Unsere Ingenieure arbeiten weiter daran, die Modellgröße zu reduzieren, grundlegende Textabfragen zu verdrahten und mit größeren, vielfältigeren Datensätzen zu testen. Sobald diese Meilensteine erreicht sind, kann die Funktion in Pilotprojekten mit echten Kundendaten eingesetzt werden.

NavVis wird für den Moment bereit sein, in dem semantisches Verstehen zu einer alltäglichen Erwartung wird.

ÄHNLICHE BEITRÄGE