Wenn Teams sagen, dass sie Markdown wollen, meinen sie meist etwas Konkreteres: Content, der kompakt, lesbar und sauber genug ist, um ihn ohne Zusatzarbeit an andere Systeme weiterzugeben.
Mit der Seitenstruktur beginnen
Die erste sinnvolle Frage lautet nicht: "Wie viel Text koennen wir sammeln?" Sondern: "Welche Teile der Seite gehoeren wirklich zur Hauptgeschichte?"
Wenn Header, Sidebars, Share-Widgets und Newsletter-Bloecke zu lange erhalten bleiben, ist das Ergebnis technisch korrekt, aber operativ zu laut.
Rauschen frueh entfernen
Die Extraktionsqualitaet steigt, wenn Boilerplate entfernt wird, bevor Formatierungsentscheidungen getroffen werden.
Dazu gehoeren wiederholte Navigation, Empfehlungsbloecke, Cookie-Banner und Social-Chrome, bevor sie die Ueberschriftenlogik oder Absatzbildung beeinflussen.
const cleaned = blocks
.filter((block) => !block.isBoilerplate)
.filter((block) => block.text.trim().length > 0);
Hierarchie erhalten
Ein sauberer Markdown-Export ist nicht einfach nur Klartext mit Zeilenumbruechen.
Er braucht genug Struktur, damit Leser oder Modelle verstehen, wo Abschnitte beginnen, wann eine Liste wirklich eine Liste ist und welcher Code oder welches Zitat zusammengehoert.
Darum ist die Genauigkeit von Ueberschriften so wichtig. Sobald der inhaltliche Aufbau kippt, wird alles dahinter schwieriger.
