Direkt zum Hauptbereich

Maschinelles 3D-Sehen

Bislang hat es viele Versuche gegeben, Computern (bzw. Robotern) das Sehen beizubringen -- mit mäßigem Erfolg. Basis für eine erfolgreiche Orientierung im Raum ist die Fähigkeit, die Welt dreidimensional wahrzunehmen. Wir Menschen bekommen das mit unseren zwei Augen hervorragend hin. Und deshalb hat man versucht, das Erfolgsmodell aus der Natur, das "Stereosehen", zu imitieren.

Allerdings ist man damit nicht weit gekommen. Es ist schon bei einem Bild extrem aufwendig und schwierig, aus den zahllosen Bildpunkten abzuleiten, wo Objektgrenzen entlang verlaufen. Bei zwei Bildern wird es nicht weniger einfach, zumal die zwei Bilder in Bezug gesetzt werden müssen und daraus mehr oder weniger präzise eine Information über die Raumtiefe gewonnen werden muss. Das ist so schwierig, dass man es bis heute nicht wagt, autonome Fahrersysteme am "normalen" Straßenverkehr teilnehmen zu lassen. Es gibt auch keine kleinen staubsaugenden oder rasenmähenden Roboter zu kaufen, die sich sicheren Auges zügig durch Wohnung oder Garten bewegen.

Ein Teil des Problems liegt daran, dass unser Stereosehen nur im Nahbereich sehr gut arbeitet. Unsere Augen liegen nur ein paar Zentimeter auseinander, zu wenig, um sehr genaue Entfernungsinformationen daraus berechnen zu können. Information über die Entfernung von etwas wird zu einem großen Teil von unserem Gehirn aus Erfahrungswissen über Größenverhältnisse, Bewegungsverhalten etc. abgeleitet. Das alles zusammen gibt uns die Illusion einer räumlichen Orientierungsfähigkeit, wie sie faktisch durch unseren reinen Sehapparat nicht gegeben ist.

Es ist also fraglich, ob das Stereosehen als Vorlage für maschinelles 3D-Sehen taugt. Müssen wir uns vielleicht nach gänzlich anderen Techniken umschauen? Es gibt sie, die neue Technik des 3D-Sehens, entwickelt von Prof. Dr. Schwarte aus Siegen. Mit Hilfe der PMD-Technologie (PMD steht für "Photonic Mixer Device") liefert eine PMD-Kamera zu jedem Pixel eine Tiefeninformation -- und das bei nur einem Kameraauge! Die Technik ist faszinierend. Sie wird fraglos unsere Zukunft verändern. Können Sie sich das vorstellen? Ein Blick in die Zukunft: In ein paar Jahren halten Sie Ihre Handykamera auf ein Motiv und Sie bekommen ein Raumbild der Szene! Damit ist es für eine Bildverarbeitung ganz einfach, Objektgrenzen in einer Szene zu ermitteln. Denn es wird gesehen, dass das eine Objekt vor oder hinter dem anderen Objekt liegt.

Ich bin sehr gespannt, was diese Zukunft bringen wird. Es werden neue Algorithmen für diese Technik entwickelt werden müssen. Man wird diese neue Technik zu nutzen lernen müssen. Bei aller Begeisterung, die ich dafür aufbringe, es wird sicher 10 oder 15 Jahre dauern, bis diese Technik unseren Alltag zu durchdringen beginnt.

Nehmen wir einmal an, wir sind 20 Jahre weiter und die Maschinen haben keine Probleme mehr beim 3D-Sehen. Dann gibt es immer noch viel zu tun. Was unterscheidet einen Profi-Tennisspieler von einem normalen Tennisspieler? Weder ist es die Fähigkeit zum 3D-Sehen bei der Ballerkennung, noch Reaktionsschnelligkeit. Wenn ein Roboter in der Profi-Liga mitspielen möchte, so muss er lernen zu sehen, was mit dem Ball wahrscheinlich passieren wird, bevor der Ball den Schläger des Gegners verlässt und die Flugbahn berechnet werden kann.

Ähnliches gilt im Straßenverkehr. Gute Autofahrer ahnen vorher, was passieren könnte und verhalten sich entsprechend. Auch hier ist unser Gehirn in der Einschätzung von Verkehrsituationen technischen Lösungen weit voraus. Wir werden das Problem mit Computern anders lösen müssen, analog zum 3D-Sehen: nicht das Vorbild imitieren, sondern technische Lösungen finden, die qualitativ ähnliches leisten, aber die Stärken der Technik ausnutzen.

Beliebte Posts aus diesem Blog

Lidl und der Kassen-Bug

Es gibt Fehler, im Informatiker-Jargon "Bugs", die etwas anrühriges haben. Ich bat den Menschen an der Kasse bei Lidl um einen Moment Geduld und meine Kinder um Ruhe, um nicht den wunderbaren Moment zu verpassen, bei dem es passierte. Der Lidl-Mensch fluchte kurz auf -- und ich war entzückt! "Einen Moment, davon muss ich ein Foto machen!" Und dann machte ich noch eines. Ich bin heute extra für diesen Fehler zu Lidl gepilgert -- ich wollte es mit eigenen Augen sehen. Gestern hat mir ein Student (vielen Dank Herr Breyer) von diesem Fehler in einer EMail berichtet. Ein richtig schöner Fehler, ein Klassiker geradezu. Ein Fehler, den man selten zu Gesicht bekommt, so einer mit Museumswert. Dafür wäre ich sogar noch weiter gereist als bis zum nächsten Lidl. Der Fehler tritt auf, wenn Sie an der Kasse Waren im Wert von 0 Euro (Null Euro) bezahlen. Dann streikt das System. Die kurze Einkaufsliste dazu: Geben Sie zwei Pfandflaschen zurück und Lidl steht mit 50 Cent bei Ihne

Syntax und Semantik

Was ist Syntax, was ist Semantik? Diese zwei Begriffe beschäftigen mich immer wieder, siehe zum Beispiel auch " Uniform Syntax " (23. Feb. 2007). Beide Begriffe spielen eine entscheidende Rolle bei jeder Art von maschinell-verarbeitbarer Sprache. Vom Dritten im Bunde, der Pragmatik, will ich an dieser Stelle ganz absehen. Die Syntax bezieht sich auf die Form und die Struktur von Zeichen in einer Sprache, ohne auf die Bedeutung der verwendeten Zeichen in den Formen und Strukturen einzugehen. Syntaktisch korrekte Ausdrücke werden auch als "wohlgeformt" ( well-formed ) bezeichnet. Die Semantik befasst sich mit der Bedeutung syntaktisch korrekter Zeichenfolgen einer Sprache. Im Zusammenhang mit Programmiersprachen bedeutet Semantik die Beschreibung des Verhaltens, das mit einer Interpretation (Auslegung) eines syntaktisch korrekten Ausdrucks verbunden ist. [Die obigen Begriffserläuterungen sind angelehnt an das Buch von Kenneth Slonneger und Barry L. Kurtz: Formal Syn

Mit Prof. Handke im Gespräch: Vom Workbook zum Inverted Classroom

Aus dem Netz in Handkes Büro Es gibt diese schönen Momente, da führen soziale Medien zu sozialen Begegnungen im echten Leben. Ich twittere im Nachgang zur #BiDiWe16, ein Dialog mit Jürgen Handke ergibt sich, er schickt mir seine Telefonnummer, ich rufe sofort durch, wir verabreden uns. Drei Tage nach der #BiDiWe16 sitze ich bei Handke im Büro, das gleichzeitig sein beachtlich ausgestattetes Aufnahmestudio beherbergt. Es ist Freitagmorgen, 9. September 2016. Jürgen Handke ist mir kein Fremder. Ich habe zwei seiner ICM-Konferenzen besucht, auf der #BiDiWe16 in Berlin hielt er die Keynote. Er hat für seine Lehre Preise erhalten, zuletzt 2015 den Ars Legendi-Preis für exzellente Hochschullehre. Zugegeben, ich hadere mit dem Konzept des Inverted Classroom -- auch Flipped Classroom genannt. Meine Erfahrungen mit der Programmierausbildung von Informatik-Studierenden des 1. und 2. Semesters lassen mich zweifeln. Videos habe ich auch schon produziert, aber vor allem das selbstgesteuerte