Direkt zum Hauptbereich

Werden Sie erfolgreich Informatik studieren? Testen Sie es!


Ich weiß etwas über Sie, das Sie nicht über sich wissen! Zum Beispiel, ob Sie zu einem Informatik-Studium geeignet sind. Ich habe einen Test entwickelt, der ist kurz und schmerzlos und ein Ergebnis jahrelanger Forschung. Nach der Auswertung der Daten von über 10.272 Studierenden kann ich Ihnen mit einer Sicherheit von 97,3% sagen, ob Sie ein Informatik-Studium abbrechen werden oder nicht – und zwar bevor Sie mit dem Studium anfangen. Der Test kann Ihnen die Fehlinvestition von ca. 17.400€ ersparen, sollten Sie zu den Abbrechern gehören. Im Mittel erfolgt der Abbruch nach 14,3 Monaten.

Hier meine Fragen, anhand derer ich Ihnen Ihre Eignung für die Informatik vorhersagen kann: (1) Ist Ihr rechter Zeigefinger so lang wie Ihr rechter Ringfinger? Falls nicht: Welcher ist größer? Sollten Sie Linkshänder sein, vergleichen Sie Zeige- und Ringfinger der linken Hand. (2) Wie lange können Sie die Luft anhalten? (3) Wie ist Ihre letzte Mathematik-Note aus der Schulzeit? (4) Wie lautet Ihr Vorname?
Das klingt absurd, nicht wahr? Und Sie werden sich innerlich nicht wohl damit fühlen: Ihre Zukunft hängt von Antworten auf diese Fragen ab, die so ohne jeden Bezug mit der Informatik zu sein scheinen? Ja, zugegeben, ich habe dieses Szenario erfunden. Ich weiß nicht, mit welchen Fragen ich Ihr Durchhaltevermögen für ein Informatik-Studium ermitteln kann. Aber so vollkommen wahnwitzig ist mein konstruiertes Beispiel nicht. Qualitativ unterscheidet sich der Test auf Eignung zum Informatik-Studium nicht von einem Erkenner von Schad-Software.

Am 4. April vermeldete heise online, dass Adobe an einem Erkenner für Schad-Software arbeite – die 30KB Python-Code zum Erkennerprogramm liefert Adobe gleich mit (http://heise.de/-1500180). Ein Erkenner für Schad-Software in 30KB? Neugierig geworden lud ich den Code runter – und war fasziniert und abgeschreckt zugleich. In dem Code ist für jeden offen zugänglich der Algorithmus kodiert, wie Adobe Schad-Software mit einer Trefferquote von über 90% erkennen will. Hier wird scheinbar Klartext geredet. Und dennoch ist der Code eine 753 Zeilen lange Ausgeburt an Hässlichkeit. Sowas produzieren in der Regel Code-Generatoren. Man liest den Code und versteht schlicht und ergreifend nichts. Wie kann das sein?

Als ich den verlinkten Artikel „Selecting Features to Classify Malware“ von Karthik Raman las (http://infosecsouthwest.com/lectures.html#sftcm), verstand ich, warum der Python-Code zwar nutzbringend aber unverständlich ist. Ausführbare EXE-Files folgen unter Microsoft Windows einem besonderen, sogenannten PE-Format (Portable Executable). Zu Beginn einer EXE-Datei kodiert das PE-Format einige Metainformationen. Und die sind bei Schadsoftware statistisch auffällig. Raman hat verschiedene Ansätze des maschinellen Lernen genutzt, um einen Satz an kritischen Metainformationen zu identifizieren. Er nutzt diese Informationen dann zur Vorhersage, ob es sich um Schadsoftware handelt. Dafür hat er 5193 „verseuchte“ Dateien und 3722 „saubere“ Dateien seinen Algorithmen vorgelegt. Im genügen letztlich 7 Metainformationen. Ist die Datei „verseucht“ erkennt Raman anhand dieser 7 Feature die Schad-Software zu 98,56% (true positives), „saubere“ Dateien stuft Ramans Erkenner zu 5.68% fälschlicherweise als schadhaft ein.

Obwohl Raman dieses Wissen als Python-Programm veröffentlicht hat, bleibt der Code vollkommen unverständlich. Solange man weder die untersuchten Ausgangsdaten noch die statistischen Verfahren und Algorithmen kennt, kann man mit dem Code nicht viel anfangen außer ihn einzusetzen. Es ist seltsamerweise eine Art der Preisgabe von Wissen, die nichts verrät. Ähnlich ist es mit meinem Eingangsbeispiel. Man könnte eine Reihe von objektiven Daten von Studierenden erheben und nach Klassifikatoren etc. untersuchen, die Studienabbrecher auszeichnet. Meine hypothetischen Testfragen wirken genauso sinnfrei und unverständlich wie der Python-Code, der Schad-Software identifiziert. Und trotzdem könnte ein solcher Test über Ihren Studienerfolg funktionieren mit genau solchen merkwürdigen Fragen.

Der Adobe-Ansatz begeistert mich. Aber sicher fühlen Sie sich unwohl, ihren Studienerfolg als Kondensat einer statistischer, maschineller Untersuchungen über Tausende Studierende hinweg eingeschätzt zu wissen. Sind Sie nicht ein Individuum? Kann der Test nicht auch irren? Und wo bitteschön sind die kausalen, die ursächlichen Zusammenhänge? Was spielt der Vorname für eine Rolle, ob ich ein Studium abbreche oder nicht?

Das ist die bittere Pille, die es zu schlucken gilt, wenn man nach statistischen Zusammenhängen in Daten sucht (Korrelationen), die aber nicht notwendigerweise etwas über Wirkungsbezüge (Kausalitäten) verraten. Und wenn Sie glauben, das sei schlimm, so irren Sie sich. Unsere Gehirne lernen Korrelationen, wenn sie sich in der Welt orientieren und überleben wollen. *Warum* man sich die Finger verbrennt, wenn man eine heiße Herdplatte anpackt, ist nicht unbedingt notwendig zu verstehen für das Überleben. Die Tatsache *dass* man sich die Finger verbrennt, das will im Zusammenhang mit einer Herdplatte gelernt, gespeichert und in Zukunft vermieden werden. Primitive Lebensformen könnten sich nicht entwickeln, wenn sie verstehen müssten, warum es links keine aber rechts eine Menge Nahrung zu finden gibt. Und seien Sie mal ehrlich: Verstehen Sie das Warum Ihrer Welt? Verstehen Sie, warum ein Fernseher funktioniert und warum es einen Klimawandel geben soll? Es ist erstaunlich, mit wie wenig an kausalem Wissen wir auskommen und uns dennoch wunderbar in der Welt zurecht finden.

Firmen wie Facebook, Google, Amazon, Twitter und viele andere sammeln sehr viele Daten von den Nutzern ihrer Dienste. Und erst seitdem es das Internet gibt, und erst seitdem so viele Menschen im Tausch für die Dienstleistung ihre Daten bei diesen Anbietern lassen, erst seit dieser Zeit ist die statistische Auswertung dieser Daten so interessant und wertschöpfend geworden. Diese Firmen suchen täglich nach statistischen Merkmalen und Auswertungen, die sich für verschiedenste Zwecke nutzen lassen. Google kann z.B. anhand von Suchanfragen die Ausbreitung von Grippe-Epidemien vorhersagen. Und Amazon schlägt Ihnen Buchtitel, die sie interessieren könnten, alles andere als zufällig vor.

Das Brisante daran ist, dass diese Firmen Ihr Wissen über uns Menschen als soziale, konsumierende Wesen ebenso Preis geben könnten, wie Adobe das Python-Programm – und dennoch hätten die Firmen kein Geheimnis über ihre Algorithmen und Verfahren verraten. Ich bin mir ziemlich sicher, dass Facebook – wenn das Unternehmen dies wollte – einen einfachen Fragekatalog erstellten könnte, der den Erfolg von jungen Menschen in Schule, Ausbildung und Studium vorhersagt; ähnlich wie ich Ihnen das eingangs vorgeführt habe.

Es gibt Firmen, die lassen Computer Twitter-Nachrichten lesen zur Beobachtung von Trends und Katastrophen-Meldungen, die dann z.B. einen Einfluss auf das Geschehen an der Börse haben. Auch hier lernen Maschinen nach Korrelationen zu suchen, die keinem Menschen jemals auffallen würden. Auch wenn wir lange nicht verstehen werden, wie diese Korrelationen zu erklären sind, Maschinen sind längst dabei ein neues, bislang ungekanntes Weltwissen zu generieren.

Ich habe einmal gelesen, dass die Suche nach in Kampfsituationen belastbaren Elite-Soldaten ein aufwendiger, sich über Wochen hinziehender Prozess ist. Amerikanische Wissenschaftler wollen festgestellt haben, dass ein einfacher Bluttest mit hoher Zuverlässigkeit geeignete Kandidaten herausfiltert und damit den teuren, langwierigen Auswahlprozess in Teilen überflüssig macht. Im Blut lassen sich Stoffe ausmachen, die Auskunft geben über die Fähigkeit, in Stresssituationen einen klaren Kopf zu behalten. Trotzdem setzt die Army diesen Bluttest nicht ein, weil es nicht mit der amerikanischen Wertekultur verträglich ist. Der Glaube an „Du kannst alles erreichen, wenn Du es nur willst“ passt nicht mit einem Bluttest zusammen.

Darum wird man wohl auch in Zukunft auf einen Test verzichten, der Ihre Eignung für ein Informatik-Studium voraussagt. Aber machen Sie sich nichts vor: In den Rechenzentren von Facebook, Google, Amazon und Co. analysiert man Ihre Daten und die anderer Menschen und sammelt Erkenntnisse über Sie, die Sie nicht verstehen – die aber wirken. Weil man erstaunliche Dinge über Sie als Wesen in der Masse Mensch aber auch als Individuum herausfindet. Sie wissen vielleicht noch nicht, was Sie studieren wollen. Aber Facebook oder Google wissen das möglicherweise schon und blenden Ihnen neuerdings Anzeigen ein, die Sie zum Studium der Informatik an der Hochschule Heilbronn auffordern. Das wird aus gutem Grund so sein. Tun Sie’s einfach ;-)

Beliebte Posts aus diesem Blog

Lidl und der Kassen-Bug

Es gibt Fehler, im Informatiker-Jargon "Bugs", die etwas anrühriges haben. Ich bat den Menschen an der Kasse bei Lidl um einen Moment Geduld und meine Kinder um Ruhe, um nicht den wunderbaren Moment zu verpassen, bei dem es passierte. Der Lidl-Mensch fluchte kurz auf -- und ich war entzückt! "Einen Moment, davon muss ich ein Foto machen!" Und dann machte ich noch eines. Ich bin heute extra für diesen Fehler zu Lidl gepilgert -- ich wollte es mit eigenen Augen sehen. Gestern hat mir ein Student (vielen Dank Herr Breyer) von diesem Fehler in einer EMail berichtet. Ein richtig schöner Fehler, ein Klassiker geradezu. Ein Fehler, den man selten zu Gesicht bekommt, so einer mit Museumswert. Dafür wäre ich sogar noch weiter gereist als bis zum nächsten Lidl. Der Fehler tritt auf, wenn Sie an der Kasse Waren im Wert von 0 Euro (Null Euro) bezahlen. Dann streikt das System. Die kurze Einkaufsliste dazu: Geben Sie zwei Pfandflaschen zurück und Lidl steht mit 50 Cent bei Ihne...

Syntax und Semantik

Was ist Syntax, was ist Semantik? Diese zwei Begriffe beschäftigen mich immer wieder, siehe zum Beispiel auch " Uniform Syntax " (23. Feb. 2007). Beide Begriffe spielen eine entscheidende Rolle bei jeder Art von maschinell-verarbeitbarer Sprache. Vom Dritten im Bunde, der Pragmatik, will ich an dieser Stelle ganz absehen. Die Syntax bezieht sich auf die Form und die Struktur von Zeichen in einer Sprache, ohne auf die Bedeutung der verwendeten Zeichen in den Formen und Strukturen einzugehen. Syntaktisch korrekte Ausdrücke werden auch als "wohlgeformt" ( well-formed ) bezeichnet. Die Semantik befasst sich mit der Bedeutung syntaktisch korrekter Zeichenfolgen einer Sprache. Im Zusammenhang mit Programmiersprachen bedeutet Semantik die Beschreibung des Verhaltens, das mit einer Interpretation (Auslegung) eines syntaktisch korrekten Ausdrucks verbunden ist. [Die obigen Begriffserläuterungen sind angelehnt an das Buch von Kenneth Slonneger und Barry L. Kurtz: Formal Syn...

Factor @ Heilbronn University

It was an experiment -- and it went much better than I had imagined: I used Factor (a concatenative programming language) as the subject of study in a project week at Heilbronn University in a course called "Software Engineering of Complex Systems" (SECS). Maybe we are the first university in the world, where concatenative languages in general and Factor in specific are used and studied. Factor is the most mature concatenative programming language around. Its creator, Slava Pestov, and some few developers have done an excellent job. Why concatenative programming? Why Factor? Over the years I experimented with a lot of different languages and approaches. I ran experiments using Python, Scheme and also Prolog in my course. It turned out that I found myself mainly teaching how to program in Python, Scheme or Prolog (which still is something valuable for the students) instead of covering my main issue of concern: mastering complexity. In another approach I used XML as a tool ...