Programmierschnittstellen (API)
von Wortgeschichte digital
WGd-Startseite
Die Lemmaliste führt alle von Wortgeschichte digital bereits publizierten Lemmata auf und ordnet sie der passenden URL zu.
In den Artikeln von Wortgeschichte digital wird zwischen Haupt- und Nebenlemmata unterschieden. Nebenlemmata sind Lemmata, die in einem Artikel kursorisch mitbehandelt werden. Die Artikellemmata werden alle im Kopf des jeweiligen Artikels aufgeführt. Es gibt unterschiedliche Artikeltypen:
- Artikel zu einem einzigen Lemma (z. B. Elite),
- Artikel zu mehreren Hauptlemmata (z. B. Beaumonde · die schöne Welt),
- Artikel mit Nebenlemmata (z. B. Masse mit den Nebenlemmata Massenpsychose und Massenhysterie),
- Wortfeldartikel, die zusätzlich zu Einzelartikeln mehrere Stichwörter in einem Überblicksartikel behandeln (z. B. Lebensformen).
Die einzelnen Lemmata können verschiedene Schreibungen haben (z. B. Soiree/Soirée). In der Lemmaliste werden alle Schreibungen separat aufgeführt.
Nebenlemmata sind immer mit einer Artikelposition verknüpft. In der Lemmaliste sind diese Lemmata an URLs erkennbar, die einen Hash haben. Z. B. Hippietum im Artikel Hippie:
https://www.zdl.org/wb/wortgeschichten/Hippie#Hippietum
Der Hash kann ruhig entfernt werden; man erreicht trotzdem den Artikel mit dem Nebenlemma. Nach dem Aufruf wird der Artikel dann allerdings nicht zur passenden Position gescrollt.
Wortfeldartikel sind an einem dem Artikelnamen vorgestellten Wortfeld- erkennbar. Z. B. Lebensformen:
https://www.zdl.org/wb/wortgeschichten/Wortfeld-Lebensformen
Beim XML-Download handelt es sich um eine ZIP-Datei, die alle von Wortgeschichte digital bereits publizierten Artikel im Format TEI P5 enthält.
Die XML-Dateien sind unter Creative Commons BY-SA 4.0 lizenziert. In die Artikel eingebundene Bilder, die i. d. R. unter einer anderen Lizenz stehen, finden sich nicht in der ZIP-Datei. Genauere Informationen zur Lizenz finden Sie im Footer der Artikel (z. B. in Elite). Diese Informationen sind in allen Artikeln identisch.
Dort, im Footer, finden Sie auch einen Link, um gezielt einzelne XML-Dateien herunterzuladen. Die Download-URL ist identisch mit der Artikel-URL, die nur um die Dateiendung .xml
ergänzt werden muss. Auf diese Weise könnten Sie mithilfe der Lemmaliste systematisch alle XML-Dateien herunterladen, was jedoch nicht ratsam ist, da es viele Artikel gibt, in denen mehr als ein Lemma zugleich behandelt wird, Sie auf diese Weise also ein und dieselbe Datei mehrfach herunterladen würden.
Zusammenfassung (JSON)
Mit dieser API kann die Zusammenfassung einer Wortgeschichte abgerufen werden, und zwar nach diesem Schema:
https://www.zdl.org/wb/wgd/api/summary/LEMMA
Für das Lemma Masse z. B. sähe die Anfrage dann so aus:
https://www.zdl.org/wb/wgd/api/summary/Masse
Bei Wortfeldartikeln weicht das Schema leicht ab:
https://www.zdl.org/wb/wgd/api/summary/Wortfeld-TITEL
Für den Artikel Lebensformen ergibt sich entsprechend diese Anfrage:
https://www.zdl.org/wb/wgd/api/summary/Wortfeld-Lebensformen
Eine Liste der bereits behandelten Lemmata erhalten Sie über die oben beschriebene Abfrage.
Bei der Zusammenfassung handelt es sich um denselben Text, der unter der Überschrift Kurz gefasst der jeweiligen Wortgeschichte vorangestellt ist. Dementsprechend sind die Zusammenfassungen ebenso wie die Wortgeschichten unter Creative Commons BY-SA 4.0 lizenziert. Neben der Zusammenfassung finden sich im JSON-Snippet einige Metadaten des Artikels:
authors |
Array |
Autoren und Autorinnen |
domains |
Array |
Themenfelder |
lemmas |
Array |
Lemmata (gefüllt mit Objects) |
lemma |
Array |
Schreibungen dieses Lemmas Gibt es variierende Schreibungen, hat das Array eine Länge von > 1. |
type |
String |
Lemmatyp |
publication |
String |
Publikationsdatum Datumsangabe im ISO 8601-Format: YYYY-MM-DD . |
summary |
String |
Zusammenfassung
Der Inhalt des Strings ist HTML. Es werden nur Standardtags verwendet; daneben gibt es zwei Besonderheiten (empfohlene Darstellungsweise in beiden Fällen kursiv):
span.wgd-ez = objektsprachlicher Begriff;
span.wgd-stichwort = Artikelstichwort, also eines der Lemmata, die im Artikel behandelt werden.
|
url |
String |
URL zum Artikel |
Die Datendatei enthält diverse Metainformationen zu den einzelnen Artikeln und das Berechnungsergebnis der automatisch erstellten WGd-Verweiscluster. Die Metainformationen können – zumeist – auch direkt aus den XML-Dateien ausgelesen werden.
Die Datendatei ist größenoptimiert. Deswegen handelt es sich bei den Werten in den Schlüsseln articles
und clusters
häufig nur um Indizes, die einen Wert unterhalb von values
referenzieren.
articles |
Object |
Metainformationen zu den Artikeln |
[ID] |
Object |
Artikel-IDDie ID ist identisch mit der ID der XML-Dateien ( /TEI/@xml:id ). |
au |
Array |
Autorinnen und Autoren (gefüllt mit Indizes) Die Indizes i zeigen auf values.au[i] . |
ds |
Array |
diasystematische Angaben (gefüllt mit 2- oder 3-Slot-Arrays) Jedes Array steht für einen diasystematischen Wert. Der 1. Slot i zeigt auf die Kategorie values.ds[i] . Der 2. Slot j zeigt auf den diasystematischen Wert values.ds[i][Kategorie][j] . Der 3. Slot ist ein Array oder undefined. Er ist nur in Mehrwortartikeln gefüllt und enthält Indizes der Lemmata, auf die der diasystematische Wert zutrifft. Diese Indizes k zeigen auf le[k] . |
eb |
Array |
Jahr des frühesten Belegs eines Lemmas (gefüllt mit Indizes) Die Indizes i zeigen auf values.eb[i] . Die Indizes korrespondieren mit le[i] , allerdings müssen Lemmata mit mehreren Schreibungen zunächst gesplittet werden. Ein Beispiel: In WGd-Ghetto-1 hat eb die Länge 2, aber le nur die Länge 1. Das ist deswegen so, weil die Werte in eb die beiden Schreibungen des Lemmas Ghetto/Getto separat adressieren: eb[0] verweist auf Ghetto und eb[1] auf Getto . |
le |
Array |
Lemmata (gefüllt mit Indizes) Die Indizes i zeigen auf values.le[i] . Manche Lemmata haben mehrere Schreibungen, die durch / voneinander getrennt sind. |
on |
Number |
Publikationsdatum (Index) Der Index i zeigt auf values.on[i] . |
se |
Array |
semantische Typisierung (gefüllt mit Arrays)
Die Arrays können zwei oder mehr Slots lang sein. Der Index i des 1. Slots zeigt auf values.le[i] . Die Indizes j der folgenden Slots zeigen auf values.se[j] .
(Artikel können mehrere Hauptlemmata haben, die sich in je unterschiedlicher Weise auf ein anderes Lemma beziehen. Insofern kann auch mehr als eine semantische Typisierung pro Bezugslemma vorliegen. Die Arrays sind dann entsprechend länger. Vgl. die je unterschiedliche Bezugname der Lemmata Großbürger/Kleinbürger auf Bourgeois.)
|
tf |
Array |
Themenfelder (gefüllt mit Indizes) Die Indizes i zeigen auf values.tf[i] . |
wa |
Number |
Wortfeldartikel 1 = Dieser Artikel ist ein Wortfeldartikel.
0 = Dieser Artikel ist kein Wortfeldartikel.
|
clusters |
Object |
Verweiscluster |
[Themenfeld] |
Array |
Cluster zu einem Themenfeld
Jedes Cluster besteht aus drei Objects, den Clusterkreisen: z (Zentrum), s (Saum) und u (Umfeld). Clusterkreise können leer sein; z ist niemals leer. Die Nummer n , die Teil des Schlüssels ist und der ein _ voransteht, ist ein Index, der auf values.le[n] verweist. Er steht also für das Lemma. Jeder Schlüssel hat einen Wert vom Typ Number (Integer oder Float), der für die Gewichtung des Lemmas im jeweiligen Clusterkreis steht. Die Lemmata sind bereits nach ihrer Gewichtung sortiert.
In der Artikelübersicht finden Sie eine knappe, allgemein verständliche Erläuterung zu den Clustern.
Eine detaillierte Beschreibung der Konstruktionsprinzipien bietet Nico Dorn: An Automated Cluster Constructor for a Narrated Dictionary (PDF).
|
z |
Object |
Zentrum |
[_n] |
Number |
Lemma und Gewichtung Die Nummer n im Schlüssel zeigt auf das Lemma in values.le[n] . Der Wert gibt die Gewichtung des Lemmas an. Diese Struktur ist in allen Clusterkreisen identisch. |
s |
Object |
Saum |
... |
Number |
s. o. |
u |
Object |
Umfeld |
... |
Number |
s. o. |
values |
Object |
ausgeschriebene Werte |
au |
Array |
Autorinnen und Autoren |
ds |
Array |
diasystematische Angaben (gefüllt mit Objekten) |
[Kategorie] |
Array |
Kategorie (gefüllt mit Werten)Das Array der Kategorie Sachgebiet kann z. B. die Werte Biologie, Medizin usw. enthalten. |
eb |
Array |
Jahre der frühesten Belege |
le |
Array |
Lemmata Manche Lemmata haben mehrere Schreibungen, die durch / voneinander getrennt sind. |
nl |
Object |
NebenlemmataDie Schlüssel n sind nummerisch und korrespondieren mit values.le[n] , bezeichnen also das Lemma. Der Wert steht für ein @xml:id in der jeweiligen XML-Datei. Er verknüpft das Nebenlemma also mit einer bestimmten Position im Artikel. Gibt es in values.nl keinen Schlüssel, der dem Index i aus values.le[i] entspricht, handelt es sich bei dem Lemma in values.le um ein Hauptlemma. |
on |
Array |
Publikationsdaten |
re |
Array |
RessourcenDas Array enthält Informationen, ob zu einem Lemma weitere Internetressourcen zur Verfügung stehen. Die Indizes korrespondieren mit values.le . Hat ein Lemma mehrere Schreibungen, sind die Informationen zu den Ressourcen (genauso wie in values.le ) durch einen / voneinander getrennt. Die Buchstaben bedeuten:
d = Lemma im DWDS
k = Lemma im Wiktionary mit Rückverlinkung auf zdl.org
n = Lemma im Wörterbuchnetz
w = weiterführende Literatur zum Lemma in der Wortforschungs-Datenbank |
se |
Array |
semantische Typen |
tf |
Array |
Themenfelder |
wf |
Object |
Wortfelder |
[Themenfeld] |
Object |
|
[Name] |
Array |
Bezeichnung des Wortfelds (gefüllt mit Indizes) Die Indizes i verweisen auf values.le[i] , stehen also für die Lemmata, die zu einem Feld gehören. |
Die Datendatei enthält Registerwörter (mitbehandelte Wörter und Wortverbindungen), die in den Artikeln systematisch aufgeführt, aber nur sehr grundlegend behandelt werden. Deswegen haben sie im Gegensatz zu den Haupt- und Nebenlemmata keinen Lemmastatus.
Die Registerwörter werden in den Artikeln im Bereich Wortinformationen aufgeführt. Allerdings wurde sichergestellt, dass die in die Datendatei aufgenommenen Wörter nicht zugleich WGd-Lemmata (mit eigenem Artikel) sind und definitiv im Fließtext der Wortgeschichte genannt werden, weswegen die Wortlisten nicht einfach aus den XML-Dateien ausgelesen werden können. Vgl. die Erläuterungen zu den Registerwörtern.
tf |
Object |
Themenfelder |
[Themenfeld] |
Object |
Wortliste zum Themenfeld |
[Wort] |
Array |
Registerwort (gefüllt mit Objects)
Schlüssel und Werte:
id = Integer (Artikel-ID; der Index i zeigt auf id[i] )
ty = Integer (Typisierung; der Index i zeigt auf ty[i] )
|
id |
Array |
Artikel-IDs |
ty |
Array |
Typisierungen |
Die Datendatei enthält den kompletten Text des terminologischen Kerninventars in strukturierter Form. Die Erläuterungstexte sind unter Creative Commons BY-SA 4.0 lizenziert.
Die Datendatei wird beim Aufruf der Wortgeschichten nachgeladen. Findet sich im Autorentext der Wortgeschichte ein Terminus, der auf einen der in der Datendatei aufgeführten regulären Ausdrücke passt, wird der Terminus verlinkt. Auf Klick wird ein Fenster mit einer Kurzfassung der Erläuterung angezeigt (s. z. B. die Auszeichnung von Spezialisierung im Abschnitt Kurz gefasst von Art. Masse).
Termini |
Object |
terminologisches Kerninventar |
[Terminus] |
Object |
1. Objektform: vollständige Erläuterung |
reg |
String |
regulärer Ausdruck Abstrakte Formulierung, welche realisierten Wortformen diese Erläuterung abdeckt. |
auch |
Array |
alternative Bezeichnungen |
ober |
Array |
Oberbegriffe Für die genannten Oberbegriffe gibt es eigene Erläuterungen, die sich unter Termini[ober[i]] finden. |
unter |
Array |
Unterbegriffe Für die genannten Unterbegriffe gibt es eigene Erläuterungen, die sich unter Termini[unter[i]] finden. |
sauch |
Array |
Verweise (siehe auch) Für die genannten Termini gibt es eigene Erläuterungen, die sich unter Termini[sauch[i]] finden. |
autor |
Array |
Autorinnen und Autoren |
revision |
Array |
Revisionen Das erste Datum in der Reihe ist das Datum der Erstpublikation; die folgenden Daten stehen für Korrekturen/Ergänzungen/Änderungen. |
text |
Array |
Erläuterungstext (gefüllt mit Objects) |
typ |
String |
Abschnittstyp Mögliche Werte: txt-kurz | txt-lang | bsp-kurz | bsp-lang . In den Erläuterungsfenstern der Artikel werden nur die als *-kurz markierten Abschnitte angezeigt. Auf der Übersichtsseite finden sich die Texte aller Abschnitte. bsp-* sind Beispiele, txt-* normaler Fließtext. |
html |
String |
Textabschnitt (HTML) |
lit |
Array |
Literaturhinweise (gefüllt mit Objects) |
sigle |
String |
Sigle Die Sigle zeigt auf Literatur[sigle] , wo der vollständige Literaturtitel zu finden ist. |
seite |
String |
Seitenangabe (HTML) |
[Terminus] |
Object |
2. Objektform: Verweis |
reg |
String |
regulärer Ausdruck |
siehe |
String |
Terminus Die vollständige Erläuterung findet man unter Termini[siehe] (1. Objektform). |
Literatur |
Object |
zitierte Literatur |
[Sigle] |
Object |
Literaturtitel |
ppn |
String |
Pica-Produktionsnummer (falls bekannt) |
titel |
String |
Zitierform (HTML) |