Direkt zum Hauptbereich

Eine einfache Grammatik für LaTeX

Informatiker schreiben ihre Artikel, Berichte und Arbeiten natürlich mit TeX bzw. mit LaTeX -- sonst gehört man einfach irgendwie nicht dazu ;-) Es gibt unzählige Erweiterungen (im LaTeX-Slang "packages" genannt), die ebenso unzählige Features und Gimmicks nachrüsten für so ziemlich jedes Problem, das man sich vorstellen kann.

Für die Überarbeitung eines Artikels hatte mir der Verlag die Auflage gemacht, alle Änderungen zur vorigen Version hervorzuheben. In Microsoft Word ein Klacks, in LaTeX zugegebenermaßen ein Umstand. Aber mit \usepackage{changes} steht einem glücklicherweise ein Paket zur Verfügung, das an dieser Stelle aushilft. So übersäte ich mein LaTeX-Dokument mit \added{...}, \deleted{...} und \replaced{...}{...}.

Für eine erneute Überarbeitung wollte ich nun die vielen Änderungsauszeichnungen aus dem LaTeX-Dokument entfernen und zwar so, dass die Änderungen selbst im Text zurückbleiben. Natürlich automatisch und nicht per Hand. Das heißt, etwas vereinfacht gesagt: In dem LaTeX-Dokument können die \deleted{...}-Auszeichner samt Inhalt einfach verschwinden, von einem \added{...} muss der Inhalt in der geschweiften Klammerung erhalten bleiben, von einem \replaced{...}{...} nur der Inhalt der ersten geschweiften Klammerung.

Diese kleine Herausforderung ist ein fast klassisches Informatik-Problem. Die Anwendung von regulären Ausdrücken für einfache Ersetzungen funktioniert in LaTeX nicht, da LaTeX-Auszeichner verschachtelt sein können und somit das schließende Ende zu einer geöffneten geschweiften Klammer "{" nicht zuverlässig gefunden werden kann. Also muss man das LaTeX-Dokument parsen. Da TeX seine Grammatik zur Laufzeit ändern kann, ist auch das im Prinzip ein hoffnungsloses Unterfangen -- doch ganz so schlimm ist es in der Realität erfreulicherweise nicht. Für 99.99% aller LaTeX-Dokumente kommt ein sehr regelmäßiges Schema zum Tragen. Nur findet man dazu wenig im Netz.

Ich habe mir einen Parser in Python geschrieben (einen "Parser Combinator"), mit dem ich mit einigen einfachen Grammatiken für LaTeX-Dokumente experimentiert habe. Hier das Ergebnis, das mir für meine Zwecke gereicht hat:

text := RegExp(r"[^\\\{\}\[\]%]+")

group := "{" doc "}"
config := "[" doc "]"
comment := RegExp(r'%.*\n')

commandToken := RegExp(r"\\\\?[^\\\{\}\[\]%\s]*")

commandConfig := comment? config
commandGroup := comment? group

command := commandToken commandConfig? commandGroup*

doc := ( command | comment | config | group | text )*

Ein kleiner Hinweis: Der reguläre Ausdruck für "text" schließt alle die Zeichen aus, die bei "group", "config" und "comment" eine Sonderrolle haben. Auf diese Weise holt sich der Parser mit "text" immer möglichst zusammenhängende Textblöcke rein, ohne jedoch die Trigger "\[]{}%" für die anderen Regeln zu überlaufen.

Wenn Sie also mal in der Verlegenheit sind, eine Nachverarbeitung für LaTeX-Dokumente vornehmen zu müssen, so mag Ihnen diese einfache Grammatik den Einstieg möglicherweise erleichtern.

Sollte ich einmal Zeit dazu haben, dann erkläre ich Ihnen, wie man sich in einer objekt-orientierten Sprache einen Parser Combinator schreibt. Das geht erstaunlich einfach.

Beliebte Posts aus diesem Blog

Lidl und der Kassen-Bug

Es gibt Fehler, im Informatiker-Jargon "Bugs", die etwas anrühriges haben. Ich bat den Menschen an der Kasse bei Lidl um einen Moment Geduld und meine Kinder um Ruhe, um nicht den wunderbaren Moment zu verpassen, bei dem es passierte. Der Lidl-Mensch fluchte kurz auf -- und ich war entzückt! "Einen Moment, davon muss ich ein Foto machen!" Und dann machte ich noch eines. Ich bin heute extra für diesen Fehler zu Lidl gepilgert -- ich wollte es mit eigenen Augen sehen. Gestern hat mir ein Student (vielen Dank Herr Breyer) von diesem Fehler in einer EMail berichtet. Ein richtig schöner Fehler, ein Klassiker geradezu. Ein Fehler, den man selten zu Gesicht bekommt, so einer mit Museumswert. Dafür wäre ich sogar noch weiter gereist als bis zum nächsten Lidl. Der Fehler tritt auf, wenn Sie an der Kasse Waren im Wert von 0 Euro (Null Euro) bezahlen. Dann streikt das System. Die kurze Einkaufsliste dazu: Geben Sie zwei Pfandflaschen zurück und Lidl steht mit 50 Cent bei Ihne

Syntax und Semantik

Was ist Syntax, was ist Semantik? Diese zwei Begriffe beschäftigen mich immer wieder, siehe zum Beispiel auch " Uniform Syntax " (23. Feb. 2007). Beide Begriffe spielen eine entscheidende Rolle bei jeder Art von maschinell-verarbeitbarer Sprache. Vom Dritten im Bunde, der Pragmatik, will ich an dieser Stelle ganz absehen. Die Syntax bezieht sich auf die Form und die Struktur von Zeichen in einer Sprache, ohne auf die Bedeutung der verwendeten Zeichen in den Formen und Strukturen einzugehen. Syntaktisch korrekte Ausdrücke werden auch als "wohlgeformt" ( well-formed ) bezeichnet. Die Semantik befasst sich mit der Bedeutung syntaktisch korrekter Zeichenfolgen einer Sprache. Im Zusammenhang mit Programmiersprachen bedeutet Semantik die Beschreibung des Verhaltens, das mit einer Interpretation (Auslegung) eines syntaktisch korrekten Ausdrucks verbunden ist. [Die obigen Begriffserläuterungen sind angelehnt an das Buch von Kenneth Slonneger und Barry L. Kurtz: Formal Syn

Mit Prof. Handke im Gespräch: Vom Workbook zum Inverted Classroom

Aus dem Netz in Handkes Büro Es gibt diese schönen Momente, da führen soziale Medien zu sozialen Begegnungen im echten Leben. Ich twittere im Nachgang zur #BiDiWe16, ein Dialog mit Jürgen Handke ergibt sich, er schickt mir seine Telefonnummer, ich rufe sofort durch, wir verabreden uns. Drei Tage nach der #BiDiWe16 sitze ich bei Handke im Büro, das gleichzeitig sein beachtlich ausgestattetes Aufnahmestudio beherbergt. Es ist Freitagmorgen, 9. September 2016. Jürgen Handke ist mir kein Fremder. Ich habe zwei seiner ICM-Konferenzen besucht, auf der #BiDiWe16 in Berlin hielt er die Keynote. Er hat für seine Lehre Preise erhalten, zuletzt 2015 den Ars Legendi-Preis für exzellente Hochschullehre. Zugegeben, ich hadere mit dem Konzept des Inverted Classroom -- auch Flipped Classroom genannt. Meine Erfahrungen mit der Programmierausbildung von Informatik-Studierenden des 1. und 2. Semesters lassen mich zweifeln. Videos habe ich auch schon produziert, aber vor allem das selbstgesteuerte