Von URL zu Markdown

Francesco La Camera
Francesco La CameraGruender
18. März 20263 Min. Lesezeit
Teilen

Wenn Teams sagen, dass sie Markdown wollen, meinen sie meist etwas Konkreteres: Content, der kompakt, lesbar und sauber genug ist, um ihn ohne Zusatzarbeit an andere Systeme weiterzugeben.

Mit der Seitenstruktur beginnen

Die erste sinnvolle Frage lautet nicht: "Wie viel Text koennen wir sammeln?" Sondern: "Welche Teile der Seite gehoeren wirklich zur Hauptgeschichte?"

Wenn Header, Sidebars, Share-Widgets und Newsletter-Bloecke zu lange erhalten bleiben, ist das Ergebnis technisch korrekt, aber operativ zu laut.

Rauschen frueh entfernen

Die Extraktionsqualitaet steigt, wenn Boilerplate entfernt wird, bevor Formatierungsentscheidungen getroffen werden.

Dazu gehoeren wiederholte Navigation, Empfehlungsbloecke, Cookie-Banner und Social-Chrome, bevor sie die Ueberschriftenlogik oder Absatzbildung beeinflussen.

const cleaned = blocks .filter((block) => !block.isBoilerplate) .filter((block) => block.text.trim().length > 0);

Hierarchie erhalten

Ein sauberer Markdown-Export ist nicht einfach nur Klartext mit Zeilenumbruechen.

Er braucht genug Struktur, damit Leser oder Modelle verstehen, wo Abschnitte beginnen, wann eine Liste wirklich eine Liste ist und welcher Code oder welches Zitat zusammengehoert.

Darum ist die Genauigkeit von Ueberschriften so wichtig. Sobald der inhaltliche Aufbau kippt, wird alles dahinter schwieriger.

Weiterlesen

Alle Eintraege ansehen
Produkt20. März 2026

Der Blog ist da

Der Blog ist der neue Longform-Bereich in unblob.ai fuer Produktnotizen, Implementierungsdetails und praktische Extraktionsmuster.