Metadaten mit Harvester hochladen

Wie lade ich meine Metadaten mittels Harvester hoch?

Mit einem Harvester lassen sich grössere Datenmengen einfach und schnell publizieren. Es bedeutet, dass Ihre Datasets automatisch durch opendata.swiss aktualisiert werden können, der Aufwand für die Datenpflege reduziert sich für Sie. Voraussetzung dafür ist, dass Ihre Organisation mitsamt Benutzerinnen und Benutzern registriert ist. Dies erfolgt in Absprache mit der Geschäftsstelle OGD. Wir erklären Ihnen hier, wie das Harvesting funktioniert.

Die Schritte auf einen Blick

Gut zu wissen

Sollten Sie zum ersten Mal Daten publizieren, führen wir Sie durch den Prozess und unterstützen Sie dabei, die korrekte Übermittlung und Darstellung Ihrer Daten sicherzustellen, unabhängig von der Publikationsvariante.

Alle Schritte im Detail

Harvester einrichten

Wenn Sie Ihre Daten im Standard DCAT-AP-CH bereitstellen können, übernehmen wir das Einrichten des Harvesters für Sie. Sie müssen nichts weiter tun, als uns die URL mit dem Katalog-Endpunkt zu übermitteln. In speziellen Fällen, zum Beispiel wenn ein Datenkatalog nicht im DCAT-AP-CH Standard geliefert werden kann, kann ein spezifisches Mapping definiert werden. Bitte kontaktieren Sie uns hierfür.

Gut zu wissen

Pro Organisation wird jeweils ein Endpunkt für das Harvesten benötigt. Falls Sie also Daten von mehreren Organisationen verwalten, benötigen wir auch mehrere Endpunkte. Beachten Sie beim Vorbereiten Ihres Datenkatalogs die besondere Struktur des Dataset-Identifiers, die im Standard DCAT-AP-CH beschrieben ist und für jede Organisation individuell ist.

Katalog-Endpunkt übergeben

Senden Sie uns hierfür eine E-Mail mit der URL, unter der wir Ihren Datenkatalog herunterladen können. Diese URL ist gleichzeitig ein RDF-Endpunkt.

Wichtig: Der Datenkatalog muss im Format DCAT-AP-CH vorliegen.

Katalog-Endpunkt mit Paginierung übergeben

<hydra:PagedCollection rdf:about="http://opendata.swiss/catalog.xml?page=3">
  <hydra:lastPage>http://opendata.swiss/catalog.xml?page=4</hydra:lastPage>
  <hydra:itemsPerPage rdf:datatype="http://www.w3.org/2001/XMLSchema#integer">1000</hydra:itemsPerPage>
  <hydra:totalItems rdf:datatype="http://www.w3.org/2001/XMLSchema#integer">3479</hydra:totalItems>
  <hydra:firstPage>http://opendata.swiss/catalog.xml?page=1</hydra:firstPage>
  <hydra:previousPage>http://opendata.swiss/catalog.xml?page=2</hydra:previousPage>
</hydra:PagedCollection>

Falls Ihr Datenkatalog zu gross ist und nicht in einer einzigen Anfrage übermittelt werden kann, besteht die Möglichkeit, ihn seitenweise zu übergeben. Dafür empfehlen wir, die Paginierung mit dem Hydra Vocabulary zu implementieren. Senden Sie uns anschliessend eine E-Mail mit der entsprechenden URL.

Harvester testen

Das Harvesting von Datasets im DCAT-AP-CH Standard wird von uns für Sie getestet. Nachdem wir Ihre URL erhalten und den Harvester eingerichtet haben, lassen wir ihn auf Ihrem Endpunkt in der Abnahmeumgebung erstmalig laufen. Unter Umständen liefert der Harvester anfangs Fehler zurück, die Sie dann in Ihrem Datenkatalog beheben müssen.

Am Prozess des Testens und der iterativen Verbesserung Ihrer Daten sind Sie von Anfang an mit einbezogen. Sie haben selbst Zugang zu Ihrem Harvester, seinen Jobläufen und Fehlerberichten. Sollten Sie bei allfälligen Fehlern Fragen haben, dann wenden Sie sich bitte an uns und wir helfen Ihnen weiter

Den Harvester verwalten

Im Folgenden erklären wir Ihnen den Zugang zu Ihrem Harvester:

Klicken Sie auf den Button «Harvest Sources». Dann gelangen Sie zu einer Liste aller Harvester. Geben Sie den Namen Ihres Harvesters ins Suchfeld ein, um nach Ihrem Harvester zu finden. Den Namen des Harvesters erhalten Sie von uns.

Harvester Suche im Backend von opendata.swiss

Wenn Sie Ihren Harvester gefunden haben: klicken Sie auf den Link, dann gelangen Sie zur Detailansicht des Harvesters:

Harvester verwalten

In der Detailansicht Ihres Harvesters sind alle Datasets aufgelistet, die der Harvester über den Zugriff auf Ihren Katalog Endpunkt automatisch erzeugt hat.

Klicken Sie auf den Button «Administrator» um Ihren Harvester zu verwalten. Sie gelangen dann zu einem Dashboard für das Management Ihres Harvesters.

Dashboard für das Management eines Harvesters

Hier wird Ihnen jeweils der aktuellste Harvest Job angezeigt.

Sie haben folgende Möglichkeiten:

  • Der Tab «Jobs» führt Sie zu einer Liste vergangener Harvest Jobs

  • Der Tab «Bearbeiten» führt Sie zur Bearbeitung der Einstellungen Ihres Harvesters

  • Der Button «Reharvest» stösst einen erneuten Harvesterlauf an, so dass die Datasets anhand dem eingetragenen Katalog-Endpunkt aktualisiert werden

  • Über den Button «View harvest source» gelangen Sie zurück auf die Detailseite Ihres Harvesters

Vorsicht: Der Button «Clear» löscht alle Datasets und vergangenen Jobs des Harvester. Machen Sie das nur, wenn das wirklich Ihre Absicht ist.

Gut zu wissen

Harvester laufen als Hintergrundprozesse. Wenn Sie Ihren Harvester anstossen, wird dadurch ein Harvest Job erzeugt und in eine Jobqueue gestellt. Wie schnell Ihr Harvest Job Ergebnisse liefert, hängt auch davon ab, wie lang die Jobqueue gerade ist. Deshalb kann die Zeit, die Sie auf die Ergebnisse Ihres Harvesters warten müssen, stark variieren.

Harvesting Fehler beheben

Wenn Ihr letzter Harvest Job Fehler gemeldet hat, sehen Sie das auf dem Dashboard. Klicken Sie dann auf den Tab «Jobs», um zur Jobliste zu gelangen:

Übersicht Harvester-Jobs

Hier können Sie die Harvesting Fehler im Detail ansehen:

Detailreport Harvester-Job
  • In der «Error Summary» sind die Fehlerarten mit der Häufigkeit ihres Vorkommens gelistet

  • Im «Error Report» sind alle Fehler einzeln gelistet.

Je nach Art des Fehlers steht Ihnen noch Einsicht in den «Remote Content» und den «Local Content» zur Verfügung:

  • Im «Remote Content» sehen Sie den Datenkatalog an Ihrem Katalog-Endpunkt so wie der Harvester ihn abholt.

  • Der «Local Content» betrifft oft nur ein Dataset: hier können Sie in einer JSON Darstellung sehen, wie das Dataset auf opendata.swiss angekommen ist.

Wenn Sie beim Testen Ihres Harvesters auf Fehler stossen, die Sie nicht verstehen und nicht beheben können, dann melden Sie sich bei uns. Wir unterstützen Sie beim Einrichten und Testen Ihres Harvesters.

Harvester Einstellungen

Harvester haben ausser dem Katalog-Endpunkt noch weitere Einstellungen.

Wichtig: Wir haben Ihren Harvester bereits für Sie konfiguriert. Im Normalfall sollten die Einstellungen so bleiben, wie wir es für Sie eingerichtet haben.

Harvester-Konfiguration im Webformular

Die «URL» ist der Katalog-Endpunkt an dem Ihre Daten abgeholt werden.

Unter dem «Titel» finden Sie den Harvester in der Harvester-Liste. Das Feld «Beschreibung» ist für Anmerkungen gedacht.

Der «Source type» Ihres Harvesters hängt von der Publikationsvariante ab: in der hier beschriebenen Publikationsvariante hat der Harvester die Einstellung «DCAT-AP Switzerland RDF Harvester». Auch in der Publikationsvariante Metadaten via geocat.ch publizieren kommen Harvester zum Einsatz. Diese haben dann den Typ «Geocat Harvester».

Die Harvester sind bezüglich dem Feld «Update frequency» auf «Manual» eingestellt, obwohl sie täglich laufen, da ihre Startzeit nicht über die Weboberfläche, sondern über Hintergrundprozesse, gesteuert wird. Beim Feld «Configuration» werden gegebenenfalls weitere Konfigurationen eingetragen, die Ihr Harvester benötigt, um Ihre Daten korrekt zu importieren.

Wichtig: Pro Organisation kann es nur einen Harvester mit derselben Konfiguration geben.

Wichtig: Bitte löschen Sie Ihren Harvester nicht, sondern wenden Sie sich an uns, falls Sie ihn nicht mehr benötigen, damit der Harvester und seine Daten fachgerecht entfernt werden können.

Datasets prüfen

Sobald Ihr Harvester fehlerfrei durchläuft, kontrollieren Sie bitte Ihre Datensätze in der Detailansicht des Harvesters:

Datasets eines Harvesters

Kontrollieren Sie bitte auch die Frontendansicht Ihrer Datasets:

Sie gelangen zur Ansicht Ihrer Organisation im Frontend, indem Sie ckan aus der URL Ihrer Organisation im Backend entfernen:

CKAN URL einer Organisation
Frontend URL einer Organisation
Organisation im Frontend von opendata.swiss

Beispielansicht einer publizierten Organisation

Dataset im Frontend von opendata.swiss

Beispielansicht eines publizierten Datasets

Datasets veröffentlichen

Nach einer abschliessenden Prüfung Ihrer Datasets richten wir das Harvesting für Sie in der Produktionsumgebung ein. Kontaktieren Sie uns, um das Go-Live gemeinsam zu planen.

Support

Sie haben eine Frage zum Harvester? Schreiben Sie uns und wir helfen Ihnen gerne weiter.

Mehr zum Thema