Daten in Quelltabellen laden
Das Laden der Daten aus bereits angelegten Datenblobs (z.B. csv Dokumenten) in Quelltabellen ist der letzte Schritt des Rohdatenimports. Die Quelltabellen können dann für die Konvertierung herangezogen werden.
Wichtig
Wenn das Interface ein automatisches Laden (s.u.) anbietet, sollte diese genutzt werden. Ein genaues Bestimmen der tatsächlich relevanten Daten geschieht beim Konvertieren, denn dort wird entschieden, welche Spalten und Zellen der Quelltabelle tatsächlich in Entitäten des Simplex übertragen werden. Seien Sie beim Laden der Daten ruhig großzügig und sparen Sie ihre Energie für das Anlegen der Konvertierungen.
Wenn möglich, ist es sehr hilfreich, sich Vorschläge anbieten zu lassen:
- Dort sind alle in den Daten vorhandenen Informationen aufgezählt.
- Dort liegt eine lauffähige Vorlage vor, die mit sinnvollen Dokumentationen erweitert werden kann.
Import beschreiben
Wie auf der Seite zur Verwaltung der Importe geschrieben, stellt jede Quelltabelle gewissermaßen eine Interpretation der Daten dar. Der Datenblob repräsentiert möglichst unprätentiös die bereitgestellten Rohdaten, im Schritt des Ladens muss daraus nun eine geordnete, zweidimensionale Datenbanktabelle werden. Je nach Datenformat ist hier ein mehr oder weniger großer Interpretationsspielraum: CSV-Dateien lassen sich meist sehr eindeutig in Datenbanktabellen übertragen. Hier kann auch ein automatisches Laden durchgeführt werden. Andere Formate z.B. hierarchischen Strukturen wie XML oder JSON, können ohne weitere Interpretation nicht sinnvoll in eine zweidimensionale Tabelle übertragen werden.
Deswegen ist es sehr sinnvoll, die Felder zur Beschreibung der Quelltabelle zu nutzen, um zu formulieren, was für eine Interpretation der Daten die Quelltabelle darstellt.
Zwei Felder sind von inhaltlicher Bedeutung für das Laden:
- encoding Beschreibt den Zeichensatz, in dem der Datenblob geöffnet werden soll. Auch hier unterbreitet der Importer Vorschläge (s.u.). Werden beispielsweise in der Quelltabelle bzw. in den konvertierten Entitäten deutsche Umlaute in Hieroglyphen verwandelt, ist höchstwahrscheinlich das encoding nicht korrekt gesetzt.
- entity Wird nur für hierarchische Formate wie XML oder JSON benötigt. Dort gibt er an, welches Element / Objekt im Datensatz eine Entität sein soll. Schließlich muss das Laden aus einer vertikal verschachtelten Struktur eine zweidimensionale, flache Tabelle erzeugen. Das Feld "entity" legt fest, welches Element eine Zeile in der Quelltabelle werden soll. Bei GeoJSON ist das i.d.R das "Feature", bei GML häufig das <wfs:feature>- Element.
Spaltendefinitionen
Im Anschluss an die Felder zur Beschreibung der Quelltabelle folgen die Spalten der Quelltabelle. Jede Zeile beschreibt eine Spalte der Quelltabelle:
Feld | Bedeutung | Weitere Hinweise für sinnvolle Einträge |
---|---|---|
nam | Name der Spalte in der Quelltabelle; wird auf postgres-konformität angepasst | Möglichst kurze, griffige Bezeichnung der Spalte; keine Sonderzeichen, möglichst ASCII, etc. |
key | bestimmt welche Daten aus dem Datenblob verwendet werden | Dieses Feld sollte aus den automatischen Vorschlägen gewonnen und nicht angefasst werden. |
typ | Datentyp der einzuspielenden Spalte der Quelltabelle | Muss ein PostgreSQL konformer Datentyp sein, in den sich die Rohdaten casten lassen. |
dsc | freies Beschreibungsfeld | Hier ist Platz für eine relevante, inhaltsbezogene Dokumentation der Daten. |
cmt | freies Beschreibungsfeld | Hier ist Platz für eine relevante, inhaltsbezogene Dokumentation der Daten. |
Ergebnis in der Quelltabelle
Das Ergebnis eines erfolgreich durchgelaufenen Ladens ist eine Quelltabelle. Wie der folgende Ausschnitt zeigt, erscheinen dort exakt die als Felder definierten Spalten in den definierten Datentypen:
Vorschläge für Felder erhalten
Für manche Zugriffe und Datenformate kann Simplex4Data Vorschläge für fertige Importe machen. Ziel ist dabei, alles in die Quelltabelle einzuspielen, was an Daten aus dem Datenblob herauszuholen ist. Für CSV-Dateien bedeutet dies z.B. dass für jede Spalte des Dokuments eine Spalte definiert wird. Diese Vorschläge präsentieren sich als vorausgefüllte Formulare und sind eine gute Grundlage für die Arbeit. Sie können flexibel angepasst werden.
Automatisches Laden
Noch bequemer ist das automatische Laden. Wird diese Option ausgewählt, werden die oben gezeigten Formulare zur Beschreibung der Quelltabelle sowie den Spaltendefinitionen automatisch ausgefüllt und eine entsprechende Quelltabelle erzeugt. Es entfällt der Zwischenschritt, der die Formulare als Vorschläge anzeigt.
Vorhandene Importe nutzen
Dieser Modus ist noch in einem Beta-Stadium und muss noch ausspezifiziert werden.