Kunst & Kultur
Möchte man beim Entwickeln digitaler Formate virtuelle Charakter auf einem Bildschirm oder auf einer Projektion in Bewegung sehen, so müssen diese animiert werden. Hierbei ist es möglich, auf öffentlich verfügbare Animationen zurückzugreifen oder diese selbst in einem 3D-Programm zu animieren. Eine weitere Möglichkeit ist die Motion Capture Methode, die in der Vergangenheit jedoch teure Technik und professionelle Studios erforderte. Heutzutage ist es auch für kleine Teams und Einzelpersonen möglich, den Motion Capture Ansatz im eigenen Wohnzimmer anzuwenden. Im Wissenstransferprojekt cross:play am DE:HIVE Institut des Studiengang Game Design an der HTW Berlin wurden im Labor „Character Design meets Movement Research” gemeinsam mit der Tanzbühne DOCK 11 verschiedene Möglichkeiten des Körpertrackings untersucht, um Bewegungen von Tanzerschaffenden aufzuzeichnen und spielerisch weiterzuentwickeln. Im September 2022 wurden die Ergebnisse des Labors zum „Humandroid Festival” am DOCK 11 in Berlin gezeigt. Drei dieser Arbeiten dienen nun als Beispiele, um verschiedene Methoden des Trackings vorzustellen.
Motion Capture
Mit Motion Capture können die Bewegungen von Tanzschaffenden und Performenden digitalisiert und in Animationen umgewandelt werden. Die Methode eignet sich besonders für die Bereiche Tanz und Theater, da charakteristische Bewegungen und der Ausdruck in den Aufzeichnungen berücksichtigt werden. Verfügt man über ein Setup, kann die Methode sogar effizienter und kostengünstiger als das händische Animieren in einem 3D-Programm sein. Die wohl erste Assoziation bei dem Begriff Motion Capture ist vermutlich der typisch schwarze Anzug mit weißen Kügelchen. Diese sehr präzise und teure Form des Trackings fällt unter die Kategorie des optischen Trackings mit Markern. Die Kügelchen, welche mit reflektierendem Material ummantelt sind, werden von mehreren speziellen Infrarotkameras als Marker erfasst. Anschließend werden mithilfe der Rohdaten und Triangulationsverfahren die Positionen im dreidimensionalen Raum berechnet. Es gibt allerdings noch weitere Methoden des Trackings, die man in optische und mechanische Trackingverfahren unterteilen kann. Zu den optischen Verfahren zählt das Tracking mit Kameras und Tiefenbildkameras, die auf einen definierten Bereich gerichtet sind. Mechanische Trackingverfahren hingegen erfordern das Befestigen von Sensoren am Körper der getrackten Person, welche oft auch in speziellen Anzügen untergebracht sind.
Tracking mit Kamera
Durch die Entwicklung und Verbreitung verschiedenster Machine Learning Bibliotheken in den letzten Jahren, welche oft auch als Open Source Projekte betrieben werden, ist es mittlerweile relativ einfach, Bilderkennungs- und Trackingverfahren selbst am eigenen Computer zu verwenden. Bibliotheken wie MediaPipe oder OpenPose sind in der Lage, ganz ohne Marker menschliche Körper in einem Kamerabild zu erkennen. Diese Kamerabilder können von handelsüblichen Webcams stammen, die ein einfaches Farbbild aufnehmen. Durch Machine Learning Modelle, die auf Bildmaterial von etlichen Körpern und Posen trainiert wurden, können Gelenke und Gliedmaßen erkannt und Bewegung aufgezeichnet werden.
Für die Anbindung an 3D-Programme und Game Engines können oftmals Plug-ins genutzt werden, die von Personen aus der Community entwickelt wurden. Beispielsweise ermöglicht das Projekt BlendArMocap eine Integration von MediaPipe im 3D-Programm Blender, mit der Bewegung aus einem Webcambild direkt auf ein 3D-Modell übertragen werden kann. Die Firma Rokoko, welche sich zunächst auf einen Motion Capture Anzug spezialisiert hat, hat mittlerweile Rokoko Video lanciert, ein Produkt, welches auf optischem Tracking basiert.
Das Beispielprojekt „Bodyswitch” wurde von Maximilian Warsinke zusammengestellt und sollte in das Thema der Ausstellung einführen. Die Haltung und Bewegung der betrachtenden Person werden auf einen digitalen Körper projiziert. Wie in einem Spiegel bewegt sich das Gegenüber simultan, nur dass auf dem Bildschirm nicht der eigene Körper, sondern ein 3D-Charakter zu sehen ist. Da das Tracking über die Kamera ganz ohne Kalibrierung oder Anzug auskommt, erzeugt die Arbeit bei Betrachtenden oftmals einen Überraschungseffekt im Moment, indem sie feststellen, dass der eigene Körper aufgezeichnet wird.
Mit Hilfe des Plug-ins Unity Barracuda für die Unity Engine lassen sich Machine Learning Modelle für eigene Spiele und Experiences nutzen. In der Softwarelösung ThreeDPoseTracker von Digital Standard wurde auf diese Weise ein Open Neural Network Exchange (ONNX) Modell integriert, das auf einem Kamerabild menschliche Posen und Bewegung erkennt. Die Körperdaten können anschließend auf ein eigenes Virtual Reality Model (VRM) übertragen werden. Diese können im 3D-Programm Blender mit dem VRM Add-On umgewandelt und exportiert werden.
Tracking mit Tiefenkamera
Eine weitere Möglichkeit, die Körperposition zu ermitteln, ist der Einsatz eines Tiefensensors. Spezielle Kameras besitzen zusätzlich zu den aufgenommenen Farbbildern einen Sensor, der Distanz zu einem Objekt oder einer Person aufzeichnet. Die Azure Kinect von Microsoft ist eine dieser Tiefenkameras, die im Bereich Mixed Reality eingesetzt wird und neueste Smartphone Modelle wie das iPhone sind mit einem LiDAR Sensor ausgestattet, der durch Tiefenmessung in der Lage ist, 3D-Scans zu erstellen.
Die Tiefensensoren messen die Distanz zu einem Körper im Raum und erstellen auf diese Weise eine Punktwolke aus 3D-Koordinaten. So lassen sich unabhängig von den Lichtverhältnissen Objekte und Menschen erkennen und Bewegungen aufzeichnen. Zusätzlich zu den rohen 3D-Daten können durch die Kombination mit Machine Learning menschliche Posen und Bewegungen aus den Punktwolken interpretiert werden.
Im Projekt „Move the Ocean” von Beka Tcharbadze und Baris Pekcagliyan können Besuchende der Ausstellung mit ihrem Körper einen digitalen Ozean bewegen. Personen, die vor der Leinwand springen und tanzen, werden von einer Tiefenbildkamera als Input für die digitale Szene erfasst. Das Wasser und die Wellen werden somit zu einem nicht-humanoiden, virtuellen Avatar, der vielfältig interpretierbar ist. Besonders interessant war hier die Wechselwirkung zwischen der Steuerung und dem durch den Ozean erzeugten Anreiz zum Bewegen.
Umgesetzt wurde diese interaktive Installation mit der Kinect von Microsoft, einer Tiefenkamera, die ursprünglich für digitale Spiele mit Körpereinsatz entwickelt wurde und zusammen mit der Xbox Konsole verkauft wurde. Die Kamera lässt sich zusammen mit dem Visual Gesture Builder aus dem Kinect Software Development Kit mit dem Programm TouchDesigner verbinden. Anschließend wurde zwischen TouchDesigner und der Unreal Engine eine Verbindung aufgebaut, wo der getrackte Körper nun durch Kollision das Wasser des Meeres verdrängt.
Tracking mit Sensoren
Eine andere Methode, um Bewegungen aufzuzeichnen und diese für digitale Experiences zu nutzen, funktioniert ohne Kamera. Mithilfe der sogenannten Inertial Measurement Unit (IMU), die am Körper von Performenden befestigt werden, können ebenfalls Bewegungsdaten aufgezeichnet werden. Eine IMU besteht aus mehreren Arten von Sensoren, die auch in Smartphones zu finden sind. Sie setzt sich aus einem Gyroskop, einem Beschleunigungsmesser und einem Magnetometer zusammen. Die aufgezeichneten Sensordaten können umgerechnet und auf einen Avatar angewendet werden, um die Bewegung des Körpers zu rekonstruieren.
Ein solcher Prozess wird beim Smartsuit der Firma Rokoko verwendet. Dieser ist mit 18 dieser IMU ausgestattet, welche verschiedenen Körperteilen innerhalb des Anzugs zugeordnet sind, um ein breites Spektrum an Bewegungen einfangen zu können. Die dazugehörige Software Rokoko Studio führt die Berechnungen aus und kann entweder im Aufnahmemodus Animationen erstellen oder im Live-Modus direkt an ein anderes Programm für Echtzeit Motion Capture gekoppelt werden.
Im Projekt „Countershade” von Julian Nowak, Pia Seel und Harald Stojan ist ein Musikvideo entstanden, welches mit Motion Capture Aufnahmen arbeitet und diese experimentell einsetzt. Die Choreografie und die Musik von Tänzer und Soundkünstler Harald Stojan dient als Grundlage für diese Arbeit. Während das Musikstück mit digitalem Prozessieren abstrahiert wird, transformiert sich Haralds Körper im Laufe des Videos von einer humanoiden in eine nicht-humanoide Form.
Für die Motion Capture Aufnahmen wurde der Rokoko Smartsuit zunächst mit dem Rokoko Studio gekoppelt, um die getrackte Bewegung auf einem digitalen Beispielcharakter zu sehen. Anschließend konnten Aufnahmen innerhalb der Software gemacht und die erstellten Animationen exportiert werden. In der virtuellen Szene innerhalb der Unreal Engine wurde das digitale Bewegungsmaterial dann importiert und auf einen eigenen Charakter angewendet.
Auswertung
Um die Wahl des Trackings für das eigene Projekt zu vereinfachen, sollen nun einige Vor- und Nachteile der entsprechenden Ansätze erwähnt werden. Dies hängt natürlich auch mit dem konkreten Anwendungsfall und der Expertisen der Projektmitarbeitenden ab. Wichtig ist, dass es sich bei den Trackingverfahren zunächst nur um den ersten Schritt handelt, die Erfassung der Bewegungs- und Körperdaten. Für die meisten Use Cases muss im zweiten Schritt dann mit den Daten umgegangen werden, was oft Kenntnis über Programmierung oder 3D-Modellierung erfordert. Auch die vermeintlichen „Plug and Play” Lösungen wie der Rokoko Smartsuit zeichnen zunächst nur die Animation auf, die anschließend an ein weiteres 3D-Programm oder eine Game Engine gesendet wird. Häufig werden für diese Schritte allerdings Tutorials und Online Ressourcen von den Entwickelnden zur Verfügung gestellt. Bei kleineren Plug-ins und Programmen gehört hingegen meist etwas Glück dazu, dass alles wie vorgesehen funktioniert. Oft wird auf Plattformen wie GitHub ein Grundverständnis für die Technologie und benutzte Programmiersprachen vorausgesetzt. Von den vorgestellten Methoden ist deswegen der Machine Learning Ansatz, das Tracking mit Kamera, vermutlich die technisch herausforderndste Methode. Die Verwendung einer Tiefenkamera, insbesondere der Kinect, die für die Aufzeichnung von Bewegung entwickelt wurde, hat den Vorteil, dass es bereits Schnittstellen für gängige Programme gibt. Die Daten können dann ähnlich wie die der Verbindung mit Rokoko Studio in einer Game Engine benutzt werden.
Weitere Unterschiede zwischen den Methoden ist das Format, in dem Bewegungs- und Körperdaten nach Aufzeichnung vorliegen. Ob es sich um Rohdaten handelt oder diese bereits von weiteren Algorithmen interpretiert wurden, macht einen Unterschied für die Weiterverarbeitung. In Rokoko Studio werden die Sensordaten direkt umgerechnet und auf einen 3D-Avatar übertragen, sie gehen also immer von einem durchschnittlichen humanoiden Körper aus. Bei ungewöhnlichen Bewegungen kann es sein, dass die Algorithmen die scheinbaren Fehler normieren und Bewegungsmaterial verloren geht. Auch sehr feine Bewegungen wie die Veränderung einer Fußstellung können bei diesen Verfahren möglicherweise herausgerechnet werden. Ähnliche Fehlerquellen kann es bei dem Machine Learning Ansatz mit Kamera geben. Die trainierten Modelle sind auf gewöhnliche menschliche Bewegungen trainiert, was dazu führen kann, dass experimentelle Choreografien eventuell gar nicht erst erkannt werden. Die Datenpunkte des Körpers werden auf eine Fläche projiziert und haben somit keine Dreidimensionalität. Dies ist anders bei Tiefenkameras. Diese arbeiten nicht mit Annahmen über Bewegung, sondern zeichnen die tatsächlichen Positionen als Punktwolke im 3D-Raum auf. Diese Rohdaten unterscheiden jedoch nicht zwischen Mensch und Objekt, sondern tracken alles im Fokus der Kamera, was zu zusätzlichen Fehlerquellen führen kann.
+ | – | |
Kamera | Kein Sensor am Körper (Weniger Behinderung) Keine speziellen Kameras erforderlich (Geringe Kosten) | Körper und Raum muss gut ausgeleuchtet sein (Eingeschränkte Settings) Aufwendige technische Implementierung (Programmierkenntnisse) |
Tiefenkamera | Keine Interpretierten Daten sondern 3D-Punkte (Präzise Distanzen) Auch bei schlechten Lichtverhältnissen (Vielseitige Settings) | Spezielle Kamera nötig (Kosten) 3D-Daten benötigen Cleanup (3D-Kenntnisse) |
Sensoren | Vorgefertigter Workflow mit Hardware und Software (Weniger Vorkenntnisse) Kein speziell ausgeleuchteter Trackingbereich (Vielseitige Settings) | Anschaffung des Sensoranzugs (Hohe Kosten) Interpretation der Bewegungen (Normierte Bewegungen) |
Das interdisziplinäre Transferprojekt „Cross:play”, bot 2020–2023 Start-up-Gründer:innen, Künstler:innen, Theaterschaffenden, Game Designer:innen und Designer:innen zwei Jahren die Möglichkeiten, die Potenziale digitaler Erlebnistechnologien in Laboren, Beratungen und Workshops auszutesten. Das Forschungsprojekt am DE:HIVE Institut des Studiengang Game Design an der HTW Berlin stand somit für einen Wissenstransfer von User-Centered Design Methoden und dem Wissen über digitale Technologien aus dem Bereich des digitalen Spiels in die Kulturszene.
Cross:play wurde gefördert durch den Europäischen Fonds für regionale Entwicklung (EFRE) im Rahmen des Programms „Stärkung des Innovationspotentials in der Kultur – INP II” der Senatsverwaltung für Kultur und Europa.