Daten in Quelltabellen laden

Das Laden der Daten aus bereits angelegten Datenblobs (z.B. csv Dokumenten) in Quelltabellen ist der letzte Schritt des Rohdatenimports. Die Quelltabellen können dann für die Konvertierung herangezogen werden.

Wichtig

Wenn das Interface ein automatisches Laden (s.u.) anbietet, sollte diese genutzt werden. Ein genaues Bestimmen der tatsächlich relevanten Daten geschieht beim Konvertieren, denn dort wird entschieden, welche Spalten und Zellen der Quelltabelle tatsächlich in Entitäten des Simplex übertragen werden. Seien Sie beim Laden der Daten ruhig großzügig und sparen Sie ihre Energie für das Anlegen der Konvertierungen.

Wenn möglich, ist es sehr hilfreich, sich Vorschläge anbieten zu lassen:

  • Dort sind alle in den Daten vorhandenen Informationen aufgezählt.
  • Dort liegt eine lauffähige Vorlage vor, die mit sinnvollen Dokumentationen erweitert werden kann.

Import beschreiben

Wie auf der Seite zur Verwaltung der Importe geschrieben, stellt jede Quelltabelle gewissermaßen eine Interpretation der Daten dar. Der Datenblob repräsentiert möglichst unprätentiös die bereitgestellten Rohdaten, im Schritt des Ladens muss daraus nun eine geordnete, zweidimensionale Datenbanktabelle werden. Je nach Datenformat ist hier ein mehr oder weniger großer Interpretationsspielraum: CSV-Dateien lassen sich meist sehr eindeutig in Datenbanktabellen übertragen. Hier kann auch ein automatisches Laden durchgeführt werden. Andere Formate z.B. hierarchischen Strukturen wie XML oder JSON, können ohne weitere Interpretation nicht sinnvoll in eine zweidimensionale Tabelle übertragen werden.

Deswegen ist es sehr sinnvoll, die Felder zur Beschreibung der Quelltabelle zu nutzen, um zu formulieren, was für eine Interpretation der Daten die Quelltabelle darstellt.

Zwei Felder sind von inhaltlicher Bedeutung für das Laden:

  • encoding Beschreibt den Zeichensatz, in dem der Datenblob geöffnet werden soll. Auch hier unterbreitet der Importer Vorschläge (s.u.). Werden beispielsweise in der Quelltabelle bzw. in den konvertierten Entitäten deutsche Umlaute in Hieroglyphen verwandelt, ist höchstwahrscheinlich das encoding nicht korrekt gesetzt.
  • entity Wird nur für hierarchische Formate wie XML oder JSON  benötigt. Dort gibt er an, welches Element / Objekt im Datensatz eine Entität sein soll. Schließlich muss das Laden aus einer vertikal verschachtelten Struktur eine zweidimensionale, flache  Tabelle erzeugen. Das Feld "entity" legt fest, welches Element eine Zeile in der Quelltabelle werden soll. Bei geoJSON ist das i.d.R das "feature", bei GML häufig das <wfs:feature>- Element.

 

Spaltendefinitionen

Im Anschluss an die Felder zur Beschreibung der Quelltabelle folgen die Spalten der Quelltabelle. Jede Zeile beschreibt eine Spalte der Quelltabelle:

Feld Bedeutung Weitere Hinweise für sinnvolle Einträge
nam Name der Spalte in der Quelltabelle; wird auf postgres-konformität angepasst Möglichst kurze, griffige Bezeichnung der Spalte; keine Sonderzeichen, möglichst ASCII, etc.
key bestimmt, welche Daten aus dem Datenblob verwendet werden Dieses Feld sollte aus den automatischen Vorschlägen gewonnen und nicht angefasst werden. ist die Apsltze irrelevant, dann lieber gleich die ganze Zeile hier mittels "verwerfen" weglöschen.
typ Datentyp der einzuspielenden Spalte der Quelltabelle Muss ein PostgreSQL konformer Datentyp sein, in den sich die Rohdaten casten lassen.
dsc freies Beschreibungsfeld Hier ist Platz für eine relevante, inhaltsbezogene Dokumentation der Daten.
cmt freies Beschreibungsfeld Hier ist Platz für eine relevante, inhaltsbezogene Dokumentation der Daten.

 

Ergebnis in der Quelltabelle

Das Ergebnis eines erfolgreich durchgelaufenen Ladens ist eine Quelltabelle. Wie der folgende Ausschnitt zeigt, erscheinen dort exakt die als Felder definierten Spalten in den definierten Datentypen:

Vorschläge für Felder erhalten

Für manche Zugriffe und Datenformate kann Simplex4Data Vorschläge für fertige Importe machen. Ziel ist dabei, alles in die Quelltabelle einzuspielen, was an Daten aus dem Datenblob herauszuholen ist. Für CSV-Dateien bedeutet dies z.B. dass für jede Spalte des Dokuments eine Spalte definiert wird. Diese Vorschläge präsentieren sich als vorausgefüllte Formulare und sind eine gute Grundlagefür die Arbeit. Sie können flexibel angepasst werden.

Automatisches Laden

Noch bequemer ist das automatische Laden. Wird diese Option ausgewählt, werden die oben gezeigten Formulare zur Beschreibung der Quelltabelle sowie den Spaltendefinitionen automatisch ausgefüllt und eine entsprechende Quelltabelle erzeugt. Es entfällt der Zwischenschritt, der die Formulare als Vorschläge anzeigt.

Vorhandene Importe nutzen

Dieser Modus ist noch in einem Beta-Stadium und muss noch ausspezifiziert werden.