Es ist schon erstaunlich, welcher Hype um dieses Repository entfacht wurde... Respekt fürs Medien-Manöver!
Ich bekomme graue Haare, wenn ich sehe, dass hier Studenten vom HPI am Werke sind, die den Unterschied zwischen unstrukturierten, semi-strukturierten und strukturierten Daten kennen sollten und eigentlich auch in der Lage sein sollten, erst entsprechende Strukturen (!) zu entwickeln und dann Datenformate dafür auszuwählen.
Wohin soll Euch bitte "Markdown", welches ein Schreibformat für Webmenschen ist, als Datenformat tragen?
Meiner Ansicht nach kommt ihr bei juristischen Daten nicht um XML rum. Das wurde von Charles F. Goldfarb doch gerade entwickelt, um Datenstellen in juristischen Texten zu markieren und maschinenlesbar zu sein. Semi-strukturierte Datenformate wie "Markdown" oder auch "HTML" sind nicht gut geeignet für juristische Daten, weil sie zu wenig Strukturinformation offenbaren - höchstens für eine menschenlesbare Repräsentation der Daten.
Bei strukturierten Daten gibts regelmäßig zusätzlich zu den Daten noch ein Schema-Format, um Kenntnis über die Struktur zu haben und Format-Validierungen zu ermöglichen (XML/XSD/DTD).
Es lässt sich in diesem Repository an Struktur nicht wirklich viel finden, nämlich lediglich
(a) der alphabetischen Repo-Index und
(b) einige Zeilen in jedem Gesetzes-Dateikopf (Ausfertigungsdatum, Fundstelle, Neugefasst durch, Zuletzt geändert durch), sowie
(c) einige Markdown-Tags, etwa "Doppelhash Absatz/Überschrift".
Insgesamt weniger, als auf den seit Jahren gut gepflegten Platformen http://buzer.de, http://openjur.de, http://juris.de/ oder http://gesetze-im-internet.de. Ich kann bislang keine Neuerungen oder Verbesserungen erkennen.
Zudem ist es grotesk, dass bereits bestehende und etablierte XML-Gesetzesstandards des BMJ und der Verwaltung gänzlich ignoriert werden. Ich denke, ihr wollt Euch in den bestehenden Toolchain einklinken und die Arbeit damit verbessern - dann macht das doch einfach mal! Werft mal einen Blick in die UML Spezifikation von xNorm und eNorm. Das Verfahren läuft mit diesen Werkzeugen und nicht mit Git oder auf Github :)
Wir halten fest:
Die Struktur der Daten ist schwach. Es gibt keine Schemadateien. Es gibt kein Pflegemodell.