Ein Crawler für Webseiten, der den Quellcode der Seite analysiert. Es wird nach Hyperlinks auf der Seite gesucht und die gefundenen Links in ein Set gespeichert. Dadurch werden gleich die Duplikate entfernt. Das Ergebnis wird in einer Datei speichert.
Dazu die Konfiguration von Maven (pom.xml)