LOGO maxwissen

Ein einfaches Modell eines neuronalen Netztes, das für Deep Learning genutzt wird, besteht aus mehreren Schichten künstlicher Neuronen (Kugeln). Die Eingabeschicht (blaue Kugeln) nimmt die eingehenden Daten auf. Diese werden anschließend von den Neuronen in den verborgenen Schichten (hier nur eine Schicht, gelbe Kugeln) verarbeitet. Dazu werden die Daten von  einem künstlichen Neuron gewichtet (Gewicht wxx) und an weitere Neuronen in der nächsten Schicht weitergegeben. Das Ergebnis des Programms in der Ausgabeschicht hängt somit von vielen verschiedenen Neuronen und Gewichten ab (rote Linien).

© Grafik: HNBM, CC BY-NC-SA 4.0

© [M] MPG; Roboter im Atelier: [AI] Midjourney / MPG; Vitruvianischer Mensch: Leonardo da Vinci , Foto: Luc Viatour / ucnix.

Bilder, die nicht der Wirklichkeit entsprechen, sind allgegenwärtig, zum Beispiel in Kinofilmen, auf Werbeplakaten oder im Internet. Zunehmend bearbeiten oder erzeugen künstliche Intelligenzen Bilder – mit Chancen und Risiken. Der Arbeitsgruppe von Christian Theobalt am Max-Planck-Institut für Informatik gelingt es so beispielsweise, den Gesichtsausdruck einer Person in einem Quellvideo auf eine Person in einem Zielvideo zu übertragen. Der Nutzen solcher Techniken für die Filmindustrie oder für virtuelle Treffen liegt auf der Hand. Die Risiken aber auch: gefälschte Medieninhalte (Deepfakes) können für einzelne Personen oder für die ganze Gesellschaft gefährlich werden.

Der Avatar folgt den Bewegungen Theobalts exakt, und das in Echtzeit. Während der Wissenschaftler seinen Vortrag hält, spricht, gestikuliert und bewegt sich auch sein virtueller Doppelgänger. Neben dem realistischen Abbild des Wissenschaftlers zeigt der Bildschirm parallel auch zwei einfache Modelle (Abb. A). Diese sind üblicherweise nicht zu sehen, verdeutlichen aber, auf welcher Grundlage die Bewegungen des aus vier Blickwinkeln durch Kameras aufgezeichneten Wissenschaftlers auf den Avatar übertragen werden. Christian Theobalt spricht von holoportierten Charakteren, die in virtuellen Räumen zum Einsatz kommen können. Er sagt: „So könnte in Zukunft beispielsweise eine virtuelle Telepräsenz möglich sein, die es erlaubt, über große Distanzen mit Personen realistisch zu kommunizieren, ohne reisen zu müssen.“

Abb. A: Ein Avatar entsteht. Das von Theobalts Team erstellte und trainierte KI-Programm kann anhand von Kamerabildern, die aus vier Blickwinkeln aufgenommen werden (links), ein virtuelles 3D-Abbild einer Person erschaffen (rechts). Dieses lässt sich dann aus jedem beliebigen Blickwinkel betrachten bzw. darstellen und in virtuellen Treffen oder Computerspielen einsetzen. Damit der Avatar realistisch und detailgetreu ist, extrahiert das Programm zunächst die 3D-Skelettpose aus den Kamerabildern. Anschließend wird eine dynamische Textur bzw. Oberfläche erstellt und schließlich der hochaufgelöste Avatar erzeugt.
© MPI für Informatik, Universität Saarbrücken, Via Research Center; arXiv:2312.07423

Anhand des holoportierten Wissenschaftlers erklärt Christian Theobalt viele Facetten seiner Arbeit. Sein Ziel ist es, neue Wege zu entwickeln, die bewegte, reale Welt technisch zu erfassen und so detailgetreue virtuelle Modelle zu erstellen. Diese Modelle sollen es Computern und zukünftigen intelligenten Maschinen ermöglichen, die reale Welt zu verstehen, sicher mit ihr zu interagieren oder sie auch zu simulieren. Bislang ist es sehr aufwendig, Bewegungen technisch aufzuzeichnen und in allen Einzelheiten mittels Computergrafik wiederzugeben. Für die technische Erfassung von Bewegungen, Motion Capture genannt, werden meist viele Kameras und Marker kombiniert oder eine Tiefenkamera verwendet. Bei der digitalen Erzeugung von Bildern wird außerdem viel Aufwand betrieben, damit Bewegungen natürlich erscheinen oder Details wie Lichtreflexionen, Falten in der Kleidung oder die Mimik von Menschen möglichst realistisch wiedergegeben werden. Für Filme erstellen und bearbeiten Spezialisten die computergenerierten Bilder, kurz CGI (engl. Computer Generated Imagery) in aufwendiger Handarbeit. Christian Theobalt will das alles wesentlich vereinfachen: „Ziel ist es, dass eine einzige Kamera ausreicht, um Bewegungen exakt zu erfassen.“ Und auch Bilder zu erzeugen oder zu verändern soll wesentlich einfacher werden. Dazu forscht Theobalts Abteilung „Visual Computing and Artificial Intelligence“ an der Schnittstelle von Computergrafik, Computer Vision und künstlicher Intelligenz. Der erwünschte Fortschritt soll durch die Kombination künstlicher Intelligenz und etablierter Ansätze der Computergrafik, wie beispielsweise der Nutzung geometrischer Modelle, erreicht werden.

Maschinen werden intelligent

Der Begriff künstliche Intelligenz beschreibt Algorithmen, die dazu dienen, Maschinen intelligent zu machen. In vielen Fällen ahmen diese Algorithmen die kognitiven Fähigkeiten von Menschen nach. Ziel der Forschung und Entwicklung im Bereich der künstlichen Intelligenz ist es, Maschinen zu schaffen, die in bestimmten Bereichen der Intelligenz an den Menschen heranreichen oder diesen sogar übertreffen. Eine gebräuchliche Abkürzung für künstliche Intelligenz ist KI. Im englischsprachigen Raum wird von „artificial intelligence“ gesprochen und manchmal wird die daraus folgende Abkürzung AI auch im Deutschen verwendet.

Die menschliche Intelligenz zeichnet sich dadurch aus, dass das Gehirn unseren Körper steuert, Sinneseindrücke verarbeitet und neue Informationen mit bekannten verbindet. Dadurch können wir Geschehnisse in unserer Umwelt einordnen und vorausschauend denken und handeln. Bekannte Bereiche der künstlichen Intelligenz sind die Robotik, also die Steuerung komplexer Bewegungen, und Computerprogramme, die komplexe Spiele wie Schach oder Go meistern und dafür Informationen verarbeiten und vorausschauend agieren müssen. Eine weitere Komponente der Intelligenz ist das Sprachverständnis. Das Ziel des Forschungsbereichs der Computerlinguistik ist es, Maschinen zu entwickeln, die Sprache möglichst umfassend verstehen. Zuletzt machten auf diesem Feld sogenannte Chatbots wie ChatGPT oder Bard Schlagzeilen, aber auch Übersetzungsprogramme wie DeepL gehören zu den vielfältigen Anwendungen von KI im Bereich Sprache. Der Aspekt an künstlicher Intelligenz, der Christian Theobalt am meisten interessiert, ist das Visual Computing. Darunter fallen alle digitalen Methoden, die Bilder verarbeiten, analysieren, modifizieren und erzeugen. Seine Arbeit geht also über die Computer Vision hinaus, die aus visuellen Daten wie Bildern und Videos Informationen gewinnt und beispielsweise in selbstfahrenden Fahrzeugen zum Einsatz kommt.

In seiner Forschung setzt Theobalt auf maschinelles Lernen. Diese Art des Lernens produziert künstliche Intelligenz, die nicht auf vorab formulierten Regeln basiert, sondern aus Beispielen lernt, wie eine Entscheidung zu treffen ist. Stehen der selbstlernenden Maschine hunderte oder besser tausende Beispiele zum Training zur Verfügung, entwickelt sie selbstständig einen Entscheidungsprozess, der verallgemeinert werden kann. Somit ist dieser anschließend auch auf unbekannte Datensätze anwendbar. Dazu nutzt Theobalts Forschungsteam das Deep-Learning-Verfahren. Dieses imitiert das menschliche Lernverhalten und basiert auf einem neuronalen Netz. Das Netz besteht aus künstlichen Neuronen, die in mehreren Schichten den Entscheidungsprozess gestalten (Abb. B). Jedes Neuron verarbeitet die eingehenden Daten, indem es die einzelnen Eingabegrößen gewichtet und gemäß bestimmter Regeln an die Neuronen der nächsten Schicht weitergibt. Nachdem moderne neuronale Netze oftmals aus vielen Schichten bestehen und damit tief sind, spricht man von Deep Learning.

Abb. B: Neuronales Netz. Ein einfaches Modell eines neuronalen Netztes, das für Deep Learning genutzt wird, besteht aus mehreren Schichten künstlicher Neuronen (Kugeln). Die Eingabeschicht (blaue Kugeln) nimmt die eingehenden Daten auf. Diese werden anschließend von den Neuronen in den verborgenen Schichten (hier nur eine Schicht, gelbe Kugeln) verarbeitet. Dazu werden die Daten von einem künstlichen Neuron gewichtet (Gewicht wxx) und an weitere Neuronen in der nächsten Schicht weitergegeben. Das Ergebnis des Programms in der Ausgabeschicht hängt somit von vielen verschiedenen Neuronen und Gewichten ab (rote Linien).
© Grafik: HNBM, CC BY-NC-SA 4.0

Selbstlernende Programme

Der rasante Fortschritt der letzten Jahre auf dem Gebiet der KI  basiert auf solchen selbstlernenden Programmen. Ausgelöst wurde diese Entwicklung durch Forschungserfolge im Deep Learning ab 2009 sowie immer größere verfügbare Rechenleistung und Datenmengen (Big Data), die es möglich machen, eine KI umfassend zu trainieren. So konnten Programmierende die Fähigkeiten von KI-Programmen rasch verbessern und erweitern. Beispielsweise erzielte 2015 das Deep-Learning-basierte Programm AlphaGo die ersten Erfolge einer KI gegen Weltklassespieler beim Brettspiel Go. Im weniger komplexen Schach schaffte es dagegen schon 1997 der Schachcomputer Deep Blue, den amtierenden Weltmeister zu schlagen. Deep Blue war eine regelbasierte, sogenannte symbolische KI. Diese Art der KI ist nicht selbstlernend, sondern kommt zu Entscheidungen, indem sie anhand klarer, vorab im Programmcode festgelegter Regeln Symbole wie z. B. Wörter oder Ziffern kombiniert. Die rein regelbasierte KI ist allerdings stark limitiert. Denn abgesehen von Spielen wie Schach, in denen die Umgebung eindeutig definiert ist, versagt sie, da es kaum möglich ist, alle möglichen Fälle vorab durch Regeln abzudecken. Der Vorteil symbolischer KI ist, dass sie durch die Regeln und Symbole in der menschlichen Realität verankert ist und ihre Entscheidungen somit nachvollziehbar und interpretierbar sind. Im Gegensatz dazu sind die Entscheidungen selbstlernender Programme nicht per se nachvollziehbar. Christian Theobalt kombiniert in seiner Forschung regelbasierte und selbstlernende KI im sogenannten neuro-expliziten Verfahren. Wenn die KI etwa lernen soll, menschliche Bewegungen aus Kamerabildern zu rekonstruieren, nutzt sein Team ein vereinfachtes Skelett mit erlaubten Bewegungsrichtungen und -winkeln, um die Entscheidungen des Programms in realistische Bahnen zu lenken.

Effizientes Training

Damit die KI später gute Entscheidungen trifft, sind die Trainingsdaten entscheidend. Dabei ist es sowohl wichtig, dass eine große Datenmenge verfügbar ist, als auch, dass diese Daten von hoher Qualität sind. Damit der Avatar von Theobalt erzeugt werden kann, posierte der Wissenschaftler vorab in einem speziellen Labor vor mehr als einhundert hochauflösenden Kameras. Für das Trainingsdatenset der neuro-expliziten KI wird einerseits ein statischer 3D-Scan von Theobalt mit dem vereinfachten Skelett versehen und andererseits Videomaterial aufgezeichnet, das die unterschiedlichsten Bewegungen und Körperhaltungen aus allen Blickwinkeln umfasst. Ein Teil des Videomaterials dient außerdem als Testdatenset. Die trainierte KI kann anschließend auf der Grundlage von Videomaterial aus nur vier Blickwinkeln den detailgetreuen, bewegten Avatar erstellen. „Der Avatar kann Bewegungen darstellen und Haltungen annehmen, die nicht im Trainingsdatenset enthalten sind. Und er kann aus jedem Blickwinkel betrachtet werden, also nicht nur aus den vier Kameraperspektiven der Eingangsdaten“, sagt Christian Theobalt.

Dazu startet das Programm mit den vier Kamerabildern, der extrahierten 3D-Skelett-Pose und den Kameraparametern (Abb. A). Das auf Basis des Trainingsdatensets erstellte neuronale Netz für das Charaktermodell nimmt die Skelett-Bewegung als Eingabe und sagt eine positionsabhängige Verformung des Gitters voraus, das die Oberfläche des Charaktermodells bildet. Anschließend wird die Textur der Person soweit möglich aus den vier Kamerabildern gewonnen. Die Textur umfasst die Oberflächenbeschaffenheit und Farbe, etwa von Haut, Haaren und Kleidung. Im nächsten Schritt erstellt ein weiteres neuronales Netz aus diesen Texturinformationen eine blickwinkelabhängige, dynamische Textur. Zu guter Letzt erzeugt ein weiteres neuronales Netz aus den gesamten, niedrig aufgelösten Merkmalen die hochaufgelösten Bilder des Avatars. Das ganze Programm aus mehreren zusammenspielenden neuronalen Netzwerken arbeitet so schnell, dass der Avatar in Echtzeit entsteht und keine Verzögerung zwischen den Bewegungen der realen Person und dem holoportierten Charakter festzustellen ist.

Der Lernprozess der neuronalen Netze, die Theobalts Team dazu nutzt, läuft überwacht ab. Beim überwachten Lernen hat der Algorithmus eine klare Zielvorgabe und nutzt das Trainingsdatenset, um diesem Ziel immer näher zu kommen. Im Fall des Avatars werden die Ergebnisse der neuronalen Netze mit den zugrundeliegenden Kamerabildern verglichen, um eine möglichst fotorealistische Darstellung zu erreichen. Weitere wichtige Formen des maschinellen Lernens sind das unüberwachte Lernen und das bestärkende Lernen.

Künstliches Lächeln

Das Gesicht und die Hände sind die Körperpartien, die am schwierigsten technisch nachzustellen sind. Doch gerade Mimik und Handgesten werden in Zukunft wichtig für die Interaktion von Menschen mit Computer- und Robotersystemen sein. Daher liegt hier auch ein Schwerpunkt von Theobalts Forschung: Sein Team arbeitet daran, mit nur einer Kamera die Bewegung von Händen oder die Details eines Gesichts erfassen zu können. Ihre Forschung zu Gesichtern zeigt, dass sich der Gesichtsausdruck einer Person in einem Quellvideo auf eine Person in einem Zielvideo übertragen lässt. Die Forschenden entwickelten beispielsweise ein Programm, das die detaillierten Bewegungen der Augenbrauen, des Mundes, der Nase und der Kopfposition aufzeichnet. Dadurch kann etwa der ganze Ausdruck eines Synchronsprechers auf den eigentlichen Schauspieler im Film übertragen werden, wodurch die Synchronisation eines Films in einer anderen Sprache wesentlich vereinfacht wird. Noch realistischer wirkt die Synchronisation durch eine weitere Entwicklung des Forschungsteams: Die stilbewahrende Lippensynchronisation überträgt die Mimik der Quellperson (Synchronsprecherin) auf den charakteristischen Stil der Zielperson (Schauspielerin) (Abb. C). Dadurch passen die Lippenbewegungen zur neuen Tonspur, während die Eigenheiten, die die Schauspielerin ausmachen, erhalten bleiben. Dazu nutzen die Forschenden einen ähnlichen Ansatz wie für den holoportierten Charakter. Die neuro-explizite KI stützt sich in diesem Fall auf ein Gesichtsmodell und neuronale Netze.

Abb. C: Realistische Mimik. Die KI-gestützte visuelle Synchronisation kann die Lippen stilbewahrend an eine neue Tonspur anpassen, indem sie die Mimik der Quellperson auf den charakteristischen Stil der Zielperson überträgt. Wird der Gesichtsausdruck dagegen direkt übertragen, gehen die Eigenheiten, die die Zielperson ausmachen, verloren. Dies wird hier beispielsweise an der Mundpartie deutlich.
© H. Kim et al.: Neural Style-Preserving Visual Dubbing (2019)

KI verantwortungsvoll nutzen

Neben vielen zukunftsträchtigen Anwendungen, die solche Forschung erschließt, birgt diese Technik auch Gefahren. Mithilfe derartiger Programme ist es möglich, Medieninhalte zu fälschen, die für einzelne Personen, aber auch ganze Gesellschaften zur Gefahr werden können. Diese durch Deep Learning erzeugten Fälschungen werden Deepfakes genannt und sind ein echtes Problem: gerade in niedrig aufgelösten Videos, die in sozialen Medien kursieren, sind Fälschungen mit bloßem Auge kaum zu identifizieren. So können falsche Informationen schnell und durchaus glaubhaft verbreitet werden. Politikern oder Politikerinnen können zu Propagandazwecken falsche Aussagen in den Mund gelegt und Prominenten kann ein künstlicher Skandal angehängt werden. Letztlich kann prinzipiell jeder Mensch, von dem Video- oder Bildmaterial zugänglich ist, Opfer eines Deepfakes werden. Theobalt plädiert dafür, dass Forschende die Ausgabe ihrer Programme mit einem Wasserzeichen versehen, das es später ermöglicht, damit erzeugte Deepfakes leicht zu identifizieren. Außerdem sagt er: „Es wird immer Menschen geben, die Technik missbrauchen. Der beste Weg, um dagegen vorzugehen, ist mit dem Fortschritt Schritt zu halten und KI-basierte Programme auch dafür zu nutzen, gefälschte Bilder oder Videos aufzuspüren. Wir entwickeln mit unserer Forschung auch  das mathematische Verständnis, das dazu nötig ist, Fälschungen zu detektieren.“ Aktuell ist es meist noch möglich, Deepfake-Videos selbst zu identifizieren. Doch dazu muss man sehr aufmerksam sein und auf Details wie Lippenbewegungen, Zähne und Mundinnenraum, Augenpartie oder Schattenwurf und Reflexionen achten. Allerdings werden die Algorithmen immer besser und gefälschte Videos immer schwerer von der Wirklichkeit zu unterscheiden. Forschende entwickeln daher Programme, die Deepfakes verlässlich aufdecken sollen. Diese können allerdings wiederum dazu genutzt werden, die erzeugenden KI-Programme noch besser zu machen. Ein Wettrüsten findet statt. Entsprechend ist es nach Ansicht vieler Experten entscheidend, den Einsatz von KI umfassend gesetzlich zu regulieren, damit diese Technologie sicher und zum Wohl der Menschen eingesetzt wird.

 

Abbildungshinweise:
Titelbild © [M] MPG; Roboter im Atelier: [AI] Midjourney / MPG; Vitruvianischer Mensch: Leonardo da Vinci , Foto: Luc Viatour / ucnix.
Abb. A: © MPI für Informatik, Universität Saarbrücken, Via Research Center; arXiv:2312.07423; https://doi.org/10.48550/arXiv.2312.07423
Abb. B: ©  Grafik: HNBM / CC BY-NC-SA 4.0
Abb. C: © H. Kim et al.: Neural Style-Preserving Visual Dubbing (2019); https://arxiv.org/abs/1909.0251

Der Text wird unter CC BY-NC-SA 4.0 veröffentlicht.

TECHMAX Ausgabe 34, Frühjahr 2024; Text: Dr. Andreas Merian; Redaktion: Dr. Tanja Fendt

Inhalt:

Aufgabe 1: Zuordnen von Aussagen zu einem bildgebenden Verfahren (Röntgen / Sonographie / MRT)

Aufgabe 2: Lückentext zu physikalischen und technischen Grundlagen eines Magnetresonanztomographen.

H5P-Datei erstellt von T. Frank, 10/2023; der Text wird unter CC BY-NC-SA 4.0 veröffentlicht

„Vor 73 Jahren begann das Anthropozän“, sagt Carolin Riethmüller erklärt im Film, warum wir in einem neuen Erdzeitalter leben und wie die Wissenschaft seinen Beginn festlegt.

> Zum Film auf YouTube

YouTube-Link: https://youtu.be/kxrKBwsKzvY

[Dauer des Videos: 3 min]

 

Weitere passende Medien 

© Tim Patterson

Marker und Bohrkerne aus Seen
Welche Marker sind geeignet, um die Spuren menschlicher Aktivität global nachzuweisen? Bohrkerne aus dem Crawford Lake zeigen, dass um das Jahr 1950 herum der Anteil an Plutoniumteilchen in den Sedimenten deutlich ansteigt – ein klarer Hinweis auf menschliche Einflüsse und damit auf das Anthropozän.
> Methoden der Paläoklimatologie: Bohrkerne aus Seesedimenten, Biomarker, Isotopenanalyse: GEOMAX 19

 

© MPG

Anthropozän
Das Anthropozän ist heute zum geflügelten Wort geworden. Es war Paul Crutzen, Nobelpreisträger und ehemals Direktor am Max-Planck-Institut für Chemie in Mainz, der den Begriff im Jahr 2000 auf einer internationalen Wissenschaftskonferenz in die Debatte einbrachte und in der Folgezeit maßgeblich prägte.
> Digital Story: Paul Crutzen und das Anthropozän
> Unterrichtsmaterial zu Paul Crutzen

 

 

Die Kernfusion gilt als eine Energiequelle der Zukunft. Aber die Entwicklungen gehen deutlich langsamer voran als vielfach angenommen. Woran liegt das? Hartmut Zohm vom MPI für Plasmaphysik erklärt in diesem Podcast, was die Herausforderungen sind.

Themen im Podcast:
Prinzip und Vorteile der Kernfusion / Wasserstoffisotope / Herausforderungen beim Bau von Fusionsreaktoren / Forschungsprojekt ITER / zukünftige Entwicklung

Zum Podcast [14 min]

Hintergrund: Verschiedene Fusionsprojekte im Überblick

Vorschau-Bild: © Matthias Otte / IPP 

Echtzeit-MRT durch radiale Ortskodierung: Anstatt wie herkömmlich durch die Gradientenfelder ein Gitter zu erzeugen, laufen die verwendeten radialen Gradienten wie Speichen durch die Mitte eines Rades. Dabei werden für jedes Schichtbild aber weniger Einzelmessungen als nötig aufgenommen. Die fehlenden Informationen werden anschließend durch die Lösung eines komplexen mathematischen Problems ermittelt. So lassen sich z.B. Videos des Schluckvorgangs mit einer Zeitauflösung von nur 40 ms aufnehmen.

© links: HNBM, MPG / CC BY-NC-SA 4.0

Die zu untersuchende Person wird in der Röhre positioniert. Die äußersten Spulen (rot) erzeugen das starke statische Magnetfeld, das die Kernspins der Wasserstoffkerne ausrichtet. Die Spulen für die Gradientenfelder (grün) schalten kurzzeitig weitere (statische) Magnetfelder für die Ortskodierung zu. Radiofrequenzspulen (orange) erzeugen das magnetische Wechselfeld zur Auslenkung der Magnetisierung und dienen als Empfängerspulen für die Signale.

© HNBM, MPG / CC BY-NC-SA 4.0

Kernspin und damit kernmagnetischer Dipol (oben) der Wasserstoffatomkerne des Körpers sind ohne äußeres Magnetfeld ungeordnet (unten links). Wird ein starkes statisches Magnetfeld angelegt, so richten sich die kernmagnetischen Dipole entlang der Feldlinien aus (unten rechts).

© HNBM, MPG / CC BY-NC-SA 4.0

© J. Frahm , Investigative Radiology, Vol. 54 , Nr. 12 , 2019; istockphoto.com

Die Magnetresonanztomographie, kurz MRT, gehört längst zum medizinischen Alltag: Nach Sportverletzungen oder Unfällen, auf der Suche nach Tumoren oder zur Untersuchung des Gehirns nutzen Ärztinnen und Ärzte die Bilder, die die MRT produziert. Bisher mussten sie sich dabei allerdings mit Standbildern zufriedengeben. Doch der Arbeitsgruppe von Jens Frahm am Max-Planck-Institut für Multidisziplinäre Naturwissenschaften gelingt es, mit der MRT Videos aufzunehmen. Die Aufnahmen in Echtzeit ermöglichen der Medizin neue Einblicke, zum Beispiel in das schlagende Herz, Gelenke in Bewegung oder die komplexen Vorgänge beim Singen, Sprechen oder Schlucken.

Nach einem schweren Sportunfall landet man oftmals in der Röhre. Während man in der Enge liegt, kann man dem Magnetresonanztomographen bei der Arbeit zuhören: es brummt und klackt und summt. Nach der Untersuchung sichtet ein Arzt oder eine Ärztin die hochaufgelösten Schwarzweißbilder, auf denen die unterschiedlichen Gewebe klar zu unterscheiden sind und ihre Struktur gut zu erkennen ist. So wird festgestellt, ob durch den Unfall Bänder oder Sehnen in Mitleidenschaft gezogen wurden. Neben der Orthopädie kommt das Bildgebungsverfahren auch in vielen anderen Bereichen der Medizin zum Einsatz, zum Beispiel auf der Suche nach Tumoren oder bei der Untersuchung des Gehirns. Doch was passiert eigentlich, während man in der Röhre liegt? Wie entstehen die Bilder und wie unterscheidet sich das Verfahren von Röntgen und Ultraschall? Der Physiker Jens Frahm vom Max-Planck-Institut für Multidisziplinäre Naturwissenschaften war bei der Entwicklung der Magnetresonanztomographie von Anfang an dabei und sorgte dafür, dass sie die nötige Geschwindigkeit für den klinischen Alltag erreichte.

Rotierende Kerne

Abb. A: Kernresonanz.Kernspin und damit kernmagnetischer Dipol (oben) der Wasserstoffatomkerne des Körpers sind ohne äußeres Magnetfeld ungeordnet (unten links). Wird ein starkes statisches Magnetfeld angelegt, so richten sich die kernmagnetischen Dipole entlang der Feldlinien aus (unten rechts).
© HNBM, MPG / CC BY-NC-SA 4.0

Der grundlegende physikalische Effekt hinter der MRT ist die magnetische Kernresonanz. Über 60 Prozent der Atome im menschlichen Körper sind Wasserstoffatome. Und deren Kerne haben einen Eigendrehimpuls, auch Kernspin genannt. Den Kern mit Eigendrehimpuls kann man sich wie einen Ball vorstellen, der sich um sich selbst dreht. Da die Wasserstoffkerne Protonen und damit durch den Kernspin bewegte Ladungen sind, erzeugen sie ein Magnetfeld. Der entstehende kernmagnetische Dipol richtet sich in einem von außen angelegten statischen Magnetfeld entlang der Feldlinien aus (Abb. A). In einem MRT-Gerät wird durch supraleitende Spulen (siehe Techmax 5) ein üblicherweise 1 bis 3 Tesla starkes statisches Magnetfeld erzeugt, das die Wasserstoffkerne im Körper der untersuchten Person ausrichtet. Dadurch entsteht eine makroskopische Magnetisierung entlang der Längsachse der Röhre (Abb. B). Ein elektromagnetisches Wechselfeld kann die Magnetisierung aus dieser Richtung auslenken. Damit das Wechselfeld die Magnetisierung kippen kann, muss seine Frequenz der Resonanzfrequenz entsprechen. Diese ist vom Atomkern und der Stärke des angelegten statischen Magnetfelds abhängig. Für Protonen bei 1 Tesla beträgt sie 42,58 MHz und liegt im UKW-Radiowellenbereich. Nach der Kippung kehrt die Magnetisierung langsam wieder in die Ausgangslage zurück. Dabei erzeugt sie ein elektromagnetisches Wechselfeld, das eine Spannung in einer Messspule induziert und so aufgezeichnet wird. Die Stärke des Signals weist auf die Protonendichte im Gewebe hin, während die Zeit bis zum Abklingen des Signals charakteristisch für die chemische Bindung der Wasserstoffatome und deren molekulare Umgebung ist.

Vom Signal zum Bild

Im Magnetresonanztomographen regt man also die magnetische Kernresonanz der Wasserstoffatome im Gewebe an, um Signale und damit Informationen aus dem Körper zu erhalten. Doch wie kann das Signal einem exakten Ort zugeordnet werden und wie setzt sich aus einer Vielzahl derartiger Informationen ein Bild zusammen? Hier kommt der zweite Teil des Namens der Bildgebungsmethode ins Spiel, die Tomographie, was Schnittbild oder Schichtaufnahme bedeutet. Bei der MRT wird somit eine ausgewählte Schicht des Körpers dargestellt. Die sogenannte Ortskodierung ermöglicht es, aus den Messdaten Abbilder des Untersuchungsobjekts zu berechnen. Dazu werden zusätzlich zum statischen magnetischen Feld weitere Magnetfelder angeschaltet, die sich in ihrer Stärke entlang einer Achse unterscheiden. Man spricht von Gradientenfeldern (Abb. B). In der MRT werden klassisch drei senkrechte Gradientenfelder verwendet, die es möglich machen, ein Signal genau seinem Ursprungsort zuzuordnen. Der erste Gradient wählt die Schicht aus, die abgebildet werden soll, und die beiden anderen Gradienten erzeugen ein Gitter, wodurch Signale Bildpunkten zugeordnet werden können (Abb. B). Dabei macht man sich zunutze, dass ein zusätzliches Magnetfeld die Resonanzfrequenz der Wasserstoffkerne ändert und man so eine Schicht zur Anregung auswählen bzw. anschließend nachvollziehen kann, von welchem Ort ein Signal stammt. Die exakte Schaltung von Gradienten- und Wechselfeldern hängt vom spezifischen Verfahren ab und ist hochkomplex. Doch allgemein gilt: Um ein vollständiges Schichtbild zu erhalten, müssen die Gradientenfelder so oft an und wieder ausgeschaltet werden, wie das Bild letztlich Zeilen bzw. Bildpunkte in einer Dimension haben soll. Meist werden in der MRT Bilder mit bis zu 512 x 512 Bildpunkten aufgenommen. Damit die Aufnahme möglichst schnell abläuft, werden die zur Ortskodierung eingesetzten Gradientenfelder sehr schnell geschaltet, wodurch die lauten Geräusche in der Röhre entstehen.

Abb. B: Magnetresonanztomograph. Die zu untersuchende Person wird in der Röhre positioniert. Die äußersten Spulen (rot) erzeugen das starke statische Magnetfeld, das die Kernspins der Wasserstoffkerne ausrichtet. Die Spulen für die Gradientenfelder (grün) schalten kurzzeitig weitere (statische) Magnetfelder für die Ortskodierung zu. Radiofrequenzspulen (orange) erzeugen das magnetische Wechselfeld zur Auslenkung der Magnetisierung und dienen als Empfängerspulen für die Signale.
© HNBM, MPG / CC BY-NC-SA 4.0

Mittels komplexer mathematischer Verfahren lässt sich dann aus der großen Datenmenge der vielen Einzelmessungen ein zweidimensionales Schnittbild berechnen. Bis Mitte der 1980er Jahre dauerte die Aufnahme eines Schnittbildes ca. 5 Minuten, eine dreidimensionale Messung des Körpers mit beispielsweise 256 x 256 x 256 Bildpunkten sogar mehrere Stunden. Da sich während dieser Zeit der Patient auch nicht bewegen durfte, führte das dazu, dass die MRT im klinischen Alltag selten eingesetzt wurde. Doch 1985 gelang Jens Frahm und seinem Team ein Durchbruch. „Durch FLASH eliminierten wir die Wartezeit zwischen den Einzelmessungen und beschleunigten die MRT so um einen Faktor größer 100. Plötzlich konnten einzelne Schichtbilder in Sekundenschnelle aufgenommen werden und dreidimensionale Aufnahmen dauerten nur noch wenige Minuten“, sagt Jens Frahm. Das patentierte FLASH-Verfahren wurde innerhalb eines halben Jahres von allen Herstellern von MRT-Geräten übernommen und kommt heute in allen kommerziellen Geräten zum Einsatz. Dank der Geschwindigkeit des neuen Verfahrens etablierte sich die MRT in der diagnostischen Bildgebung.

MRT vs. Röntgen und Ultraschall

Doch warum ist die MRT in der Medizin eigentlich so gefragt? Mit Röntgen, Computertomographie (CT) und Sonographie waren ja bereits verschiedene Bildgebungsverfahren etabliert. Welche Vorteile bietet die MRT gegenüber diesen Methoden? Beim Röntgen nutzt man die kurzwellige elektromagnetische Röntgenstrahlung. Diese wird von der einen Seite auf die zu untersuchende Körperpartie gestrahlt und auf der anderen Seite detektiert. Je mehr Gewebe zwischen Strahlungsquelle und Detektor liegt und je dichter dieses Gewebe ist, desto mehr Röntgenstrahlung wird absorbiert oder gestreut. Dichte anatomische Strukturen wie Knochen heben sich somit hell gegen die dunkleren Weichteile wie Muskeln ab. Knochenbrüche können so zum Beispiel leicht diagnostiziert werden. Unterschiedliche weiche Gewebe lassen sich durchs Röntgen nur schwer unterscheiden, da hierzu der Kontrast nicht ausreichend ist. Die Computertomographie basiert auch auf Röntgenstrahlung, ermöglicht aber statt einer Durchleuchtung eine Schichtbildgebung und 3D-Aufnahmen. Da die kurzwellige Röntgenstrahlung ionisierend auf biologisches Gewebe wirkt, besteht durch die Strahlenbelastung ein erhöhtes Krebsrisiko. Deshalb wird bei einer Untersuchung nur die betreffende Stelle geröntgt und empfindliche Körperpartien werden durch eine Bleischürze geschützt. Die Strahlenbelastung verbietet es außerdem, Videos mit vielen Bildern pro Sekunde mit Röntgenapparat oder CT aufzunehmen.

Bei der Sonographie werden mechanische Ultraschallwellen in den Körper gesandt und deren Echo aufgezeichnet. Mit der Sonde, die den Ultraschall aussendet und detektiert, wird über die betreffenden Körperstellen gefahren. Aus der Laufzeit und der Amplitude des Echos berechnet ein Computer dann in Echtzeit Bilder. Von der Sonde werden die Ultraschallwellen fächerartig in den Körper ausgesandt. So entsteht typischerweise ein Schnittbild entlang der Ebene dieses Fächers. Moderne Geräte ermöglichen aber auch 3D-Bilder. Je stärker ein Gewebe den Schall zurückwirft, desto heller erscheint es auf den Bildern. Dadurch entsteht der Kontrast im Bild. Da die Eindringtiefe des Ultraschalls begrenzt ist, werden tief liegende oder verdeckte anatomische Strukturen kaum oder nicht aufgelöst. Dies schränkt die Nutzung der Sonographie ein. Je nach medizinischer Fragestellung können Ärztinnen und Ärzte einzelne Bilder aufnehmen oder in Echtzeit mit Videobildrate das Geschehen im Körper verfolgen. Die sonographische Untersuchung hängt in ihrer Qualität stark vom Untersuchenden ab und ist schlecht wiederholbar. Vorteil der Sonographie ist, dass sie nichtinvasiv und risikoarm ist, weshalb sie beispielsweise in der Schwangerschaftsvorsorge eingesetzt wird.

Stärken der MRT sind der hervorragende Weichteilkontrast und die hohe räumliche Auflösung. So entstehen scharfe Bilder des gesamten Körperinneren. Außerdem sind sowohl die Radiowellen als auch die statischen Magnetfelder gesundheitlich unbedenklich. Ganzkörperscans oder wiederholte Untersuchungen bedeuten also kein zusätzliches gesundheitliches Risiko. Seit der Einführung von FLASH hat sich die Geschwindigkeit der MRT lange Zeit nicht verändert. Das bedeutete, dass zwar MRT-Aufnahmen im medizinischen Alltag kein Problem, aber MRT-Videos bewegter Vorgänge aus dem Körperinneren ein Ding der Unmöglichkeit waren: An Videos mit Bildraten von 20 Bildern pro Sekunde oder mehr war nicht zu denken. „Nach der Entwicklung von FLASH sahen wir zunächst keine weitere Möglichkeit, die MRT zu beschleunigen“, sagt Jens Frahm. Doch die Idee einer noch schnelleren MRT spukte ihm weiter im Kopf herum.

Echtzeit durch Hochleistungsrechner

Bis es soweit war, dauerte es 25 Jahre. Aber seit dem Durchbruch, den Jens Frahm mit seinem Team 2010 feierte, kann er sagen: „Wir haben es geschafft, die MRT-Bildgebung weiter zu beschleunigen! So ist uns sozusagen der Schritt vom Foto zum Film gelungen. Und das eröffnet ganz neue diagnostische Möglichkeiten, zum Beispiel weil das schlagende Herz genau dargestellt werden kann.“ Im Vergleich zur MRT vor 1985 gelang es Jens Frahm und seinem Team, die Aufnahmegeschwindigkeit insgesamt um einen Faktor 10.000 zu steigern. Nun können die Forschenden Schichtbilder mit einer Bildrate von bis zu 100 Bildern pro Sekunde aufnehmen. Sie nennen ihre Technik Echtzeit-MRT. „Möglich gemacht haben diese Entwicklung zum einen Fortschritte in der numerischen Mathematik und zum anderen die Verfügbarkeit von leistungsstarken Grafikkartenrechnern“, erläutert Jens Frahm. Denn die Beschleunigung des Verfahrens beruht nicht wie bei FLASH darauf, dass die Einzelmessungen schneller werden. „Wir messen einfach weniger oft und nutzen dann ein neues mathematisches Verfahren, um aus den für eine klassische Berechnung ungenügenden Daten ein aussagekräftiges Bild zu erzeugen.“ Dazu wenden die Forschenden die radiale Ortskodierung an (Abb. C).

Abb. C: Echtzeit-MRT durch radiale Ortskodierung: Anstatt wie herkömmlich durch die Gradientenfelder ein Gitter zu erzeugen, laufen die verwendeten radialen Gradienten wie Speichen durch die Mitte eines Rades (links). Dabei werden für jedes Schichtbild aber weniger Einzelmessungen als nötig aufgenommen. Die fehlenden Informationen werden anschließend durch die Lösung eines komplexen mathematischen Problems ermittelt. So lassen sich z.B. Videos des Schluckvorgangs mit einer Zeitauflösung von nur 40 ms aufnehmen. Auf den Einzelbildern aus dem Video hebt sich die getrunkene Flüssigkeit weiß ab (rechts).
© links: HNBM, MPG / CC BY-NC-SA 4.0; rechts © J. Frahm et al.: Real-Time Magnetic Resonance Imaging. Investigative Radiology, Vol. 54, Nr. 12, 2019

Entscheidend ist, dass für jedes Schichtbild je nach Anwendung um einen Faktor 10 bis 40 weniger Einzelmessungen durchgeführt werden als eigentlich nötig. Dadurch wird die Aufnahme genau um diesen Faktor schneller. Die fehlenden Informationen werden anschließend durch die Lösung des nichtlinearen inversen Problems rekonstruiert. Durch dieses mathematische Verfahren wird das Bild nicht direkt aus den Daten rekonstruiert, sondern ausgehend von einem Startbild – üblicherweise dem letzten aufgenommenen Bild – geschätzt. Aus dem geschätzten Bild lassen sich die Daten berechnen, die die Messspulen aufgenommen haben müssten, um dieses zu erzeugen. Und die kann man wiederum mit den tatsächlich aufgenommenen Daten abgleichen. In einem schrittweisen Prozess kann das geschätzte Bild so optimiert werden, dass es möglichst genau zu den Messwerten passt. Das klappt dank der Entwicklungen von Jens Frahms Team so gut, dass die Bildqualität ausreichend für die medizinische Diagnostik ist. Da dieser Ablauf die eigentliche Bildentstehung in der MRT auf den Kopf stellt, spricht man von einem inversen Problem. Die Lösung dieses Problems und damit die Echtzeit-MRT erfordert eine sehr große Rechenleistung. Was sie allerdings nicht benötigt, ist ein besonderes MRT-Gerät. So könnten alle bereits in Kliniken vorhandenen Geräte durch einen leistungsfähigen Grafikkartenrechner für die Datenverarbeitung erweitert werden.

Live-Videos aus dem Körper

Der Echtzeit-MRT eröffnen sich viele Anwendungsfelder: So kann ein Kardiologe direkt das schlagende Herz beobachten und beispielsweise Herzrhythmusstörungen genau analysieren. Auch das Schlucken und Schluckbeschwerden können durch die Echtzeit-MRT erstmals untersucht werden (Abb. C). Neben klassischen medizinischen Anwendungen ist Jens Frahm auch auf großes Interesse in der Musik und Phonetik gestoßen: Wie genau werden beim Sprechen Töne erzeugt? Wie beim Beatboxen? Und was unterscheidet einen herausragenden Hornisten von einem Anfänger oder Fortgeschrittenen? Durch die neuen Möglichkeiten der Echtzeit-MRT können beispielsweise die Bewegungen der Zunge im Mundraum genau untersucht und quantifiziert werden.

Abb. D: Messen in Millisekunden Schichtbild aus dem Gehirn eines 4 Jahre alten Kindes. Links: Die herkömmliche MRT mit einer Messzeit von 38 s liefert ein verschwommenes Bild, da sich das Kind offensichtlich während der Messung bewegt hat. Rechts: Die Echtzeit-MRT mit einer Messzeit von 50 ms erzeugt ein scharfes Bild, das zur Diagnostik genutzt werden kann.
© Verändert nach: D. Gräfe et al.: Outpacing movement — ultrafast volume coverage in neuropediatric magnetic resonance imaging. Pediatr Radiol 50, 2020. / CC BY 4.0

Die neue Methode beschleunigt auch die Untersuchung ganzer Körperteile mittels überlappender Schichtbilder, die nun in nur wenigen Sekunden gemessen werden (Abb. D). Dies ist gerade in der Kinderheilkunde ein großer Vorteil. Denn Säuglinge und Kleinkinder halten nicht lange genug still, um mit der konventionellen MRT beispielsweise eine vollständige Bildgebung des Schädels durchzuführen. Daher ist bisher oft eine risikobehaftete Narkose notwendig. „Unsere Kooperationspartner an der Universitätsklinik Leipzig haben in den letzten Jahren festgestellt, dass mit der Echtzeit-MRT in mindestens der Hälfte aller Fälle keine Narkose notwendig ist“, sagt Jens Frahm.

Der Forscher ist an seinem Ziel angekommen: Live-Videos aus dem Körper dank MRT. Und seit dem Durchbruch 2010 zeigte sich, dass die beschleunigte Methode zahlreiche neue Anwendungen ermöglicht. „Wir müssen aber erst lernen, die Echtzeit-MRT diagnostisch zu nutzen. Auch für das medizinische Personal ergeben sich neue Anforderungen und notwendige Erprobungsphasen. Die technischen Fortschritte müssen in belastbare Untersuchungsprotokolle ‚übersetzt’ werden, die die jeweiligen medizinischen Fragestellungen optimal beantworten.“

 

Abbildungshinweise:
Titelbild © J. Frahm , Investigative Radiology, Vol. 54 , Nr. 12 , 2019; istockphoto.com
Abb. A: © HNBM, MPG / CC BY-NC-SA 4.0
Abb. B: © HNBM, MPG / CC BY-NC-SA 4.0
Abb. C: links: HNBM, MPG / CC BY-NC-SA 4.0; rechts © J. Frahm et al.: Real-Time Magnetic  Resonance Imaging. Investigative Radiology, Vol. 54, Nr. 12, 2019
Abb. D: © Verändert nach: D. Gräfe et al.: Outpacing movement — ultrafast volume coverage in neuropediatric magnetic resonance imaging. Pediatr Radiol 50, 2020. / CC BY 4.0

Der Text wird unter CC BY-NC-SA 4.0 veröffentlicht.

TECHMAX Ausgabe 33, Frühjahr 2023; Autor: Dr. Andreas Merian; Redaktion: Dr. Tanja Fendt

Der Laserstrahl rastert die Probe ab.

© R. Wengenmayr / CC BY-NC-SA 4.0