Mit diesem KNIME-Workflow siehst du auf einen Blick, in welchen HTML-Dokumenten deiner Domain aktuell eine von dir definierte Variable (vergangene Jahreszahlen, alte Marketing-Begriffe,...) verwendet wird.
Ausgangspunkt für die Entwicklung dieses KNIME-Workflows war folgender Pain Point:
Jahreswechsel - und wieder einmal stellt sich die Frage: Wo verwenden wir aktuell noch alte Jahreszahlen?
Ein Produkt / ein Marketing-Begriff wird umbenannt und soll mit möglichst wenig Aufwand aufgespürt & angepasst werden.
Dieser KNIME-Workflow unterstützt mich dabei wie folgt:
In einem Screaming-Frog-Crawl extrahiere ich mittels Custom Extractions (zusätzlich zu den standardmäßigen Title-, Description- und Überschriften-Tags) den Fließtext der Domain.
Im KNIME-Workflow werden die jeweiligen Content-Spalten aggregiert.
Im Input-Feld kann ich eine von mir gewählte Variable definieren und die danach aggregierten Content-Spalten des Screaming-Frog-Crawls werden auf diese Variable hin durchsucht.
Die Datenaufbereitung und -manipulation ist dokumentiert, nachvollziehbar und reproduzierbar - für verschiedene Domains und Verzeichnisse.
Das Resultat sieht dabei wie folgt aus:
Zur Erklärung:
Die Tabelle gibt die von mir definierte Variable als Titel aus (hier: "*2022*").
In den Spalten der Tabelle wird ein "True" gesetzt, wenn auf dem jeweiligen HTML-Dokument die zuvor definierte Variable im Fließtext (p-tags), in einer der Überschriften (h-tags), im (Meta-)Title-Tag oder in der Meta-Description vorkommt.
Für diesen Workflow benötigst du:
KNIME (zum Download)
Screaming Frog (zum Download)
Der KNIME Workflow im Detail
Der dafür notwendige KNIME-Workflow besteht aus einer Component (Doppelklick öffnet das Input-Fenster), einer Metanode (die wie gehabt zahlreiche Nodes übersichtlich zusammenfasst) sowie einer Table-View-Node (für das direkte Anzeigen der Tabelle in KNIME) sowie eine Excel-Writer-Node (welche die Liste exportiert).
Variable Input | Config Node
Die Config-Node ist in diesem Workflow tatsächlich super reduziert - sie besteht aus genau zwei Felder:
Auswahl des Screaming-Frog-Exports - zur Konfiguration des 🐸 komm ich weiter unten.
Input der Variable, auf die du deine HTML-Dokumente hin untersuchen möchtest
Screaming Frog 🐸 | Konfiguration
Damit der Frosch auch wirklich die Daten erhebt, die wir brauchen, müssen wir in diesem Fall noch den Fließtext extrahieren. Dies gelingt über die Custom Extractions und sieht dabei wie folgt aus:
Anschließend benötigst du nur noch den Export "internal_html.csv" - diesen erhältst du im Screaming-Frog-Bereich "Crawl Data > Internal > HTML". Diese Übersicht kannst du nun als .csv-Datei exportieren und sie anschließend in der Config-Datei auswählen.
Wichtig: Die einzelnen Elemente müssen mit "content" beginnen, damit der KNIME-Workflow funktionstüchtig ist. In der späteren Aggregation der extrahierten Spalten werden per RegEx alle Spalten zusammengeführt, welche "content.*" in der Spaltenbezeichnung haben.
Data Manipulation Node
Die Data-Manipulations-Node transformiert die Screaming-Frog-Daten und überprüft, ob die von uns im Config-Feld definierte Variable in den aggregierten Spalten beinhaltet ist. Anschließend werden per regelbasierter Filterung ausschließlich die Reihen behalten, bei denen zumindest in einer der aggregierten Spalten (Fließtext, Title-Tag, Description-Tag, Überschriften-Tag) die definierte Variable auffindbar ist.
Weitere Möglichkeiten:
Dieser Workflow eignet sich meiner Ansicht nach für folgende Use Cases:
Jahreszahlen müssen angepasst werden - man munkelt, dass dies in der SEO saisonal bedingt vorkommen kann.
Alte (Marketing-)Termini müssen ausgetauscht / ersetzt werden.
Produkte / Marken werden nicht länger bespielt und sollen nicht länger erwähnt werden - gerade bei Affiliate-Projekten kann dies durchaus vorkommen.
Fällt dir noch ein Use Case ein? Schreib mir gerne in den Kommentaren. 👇
KNIME Workflow als Download
Gerne möchte ich dir diesen KNIME-Workflow als Download zur Verfügung stellen. Mit einem Klick auf nachfolgenden Download-Button erhältst du eine .zip-Datei, in welcher der Workflow liegt. Du benötigst für diesen Workflow keine weiteren KNIME-Erweiterungen und kannst ihn direkt "out of the box" testen.
Feedback ist ein Geschenk - daher freue ich mich jederzeit über Anmerkungen, Verbesserungsvorschläge oder auch Fragen. Meine Kontakt-Informationen findest du auf meiner "Über mich"-Seite. Du kannst mich auch gerne über LinkedIn kontaktieren. Viel Spaß!
Commentaires