Das Projekt Digitales Wörterbuch
Das "Digitale Wörterbuch" ist ein Projekt der BBAW.
Ziel ist die Erstellung eines digitalen Wörterbuchsystems auf der
Grundlage sehr großer und ausgewogener elektronischer Corpora.
Ausgangslage
Es
gibt kein Wörterbuch der deutschen Sprache, das den Wortschatz des
20./21. Jahrhunderts befriedigend darstellt. Im Vergleich mit den
Kultursprachen Französisch und Englisch wird dieses Defizit besonders
deutlich. Das DWDS will diesen Zustand mit Hilfe der neuen Datentechnik
schrittweise überwinden. Das Ergebnis wird kein gedrucktes Wörterbuch,
sondern ein Digitales Wörterbuchsystem sein, aus dem Informationen
gezielt 'online' abgefragt werden können.
Phasen
Das Projekt soll in
drei aufeinanderfolgenden Etappen realisiert werden: der Textcorpuserstellung, der computerlinguistischen
Erschließung sowie der anschließenden lexikographischen Arbeit.
1. Textcorpuserstellung
Der
derzeitige Stand umfasst eine XML-kodierte und linguistisch
aufbereitete Corpus-Datenbank, die aus einem über die Dekaden und
Textsorten ausgewogenen 'Kerncorpus' (80.000 Dokumente) und einem
'Ergänzungscorpus' (2,5 Millionen Dokumente) besteht. Mit dem
DWDS-Kerncorpus steht der Sprachforschung und allen
Sprachinteressierten zum ersten Mal ein dem British National Corpus
(BNC) in Auswahl und Erschließung zumindest ebenbürtiges
deutschsprachiges Textcorpus zur Verfügung.
2. Computerlinguistische Erschließung der Texte
Die
vom Projekt betriebene computerlinguistische Erschließung der Texte hat
zur Entwicklung einer linguistischen Suchmaschine geführt, die weit
über den internen Projektnutzen hinaus Anwendung gefunden hat. Im
kostenfreien, aber anmeldungspflichtigen Internetcorpus des DWDS
recherchieren derzeit (Stand 29.11.2005) mehr als 6.000 Nutzer regelmäßig, wobei die
Anzahl seit Start des Angebots stetig wächst. Desweiteren hat sich
auch die Zeitung Die ZEIT im Rahmen einer Technologiepartnerschaft
dafür entschieden, ihr on-line Archiv mit der linguistischen
Suchmaschine des DWDS durchsuchbar zu machen. Hierdurch werden
Suchmöglichkeiten eröffnet, die über das hinausgehen, was
Standard-Suchmaschinen wie google oder yahoo liefern.
3. Wörterbucherstellung
Die
eigentliche Wörterbucherstellung kann nur modular erfolgen. Als
Ausgangsbasis des zukünftigen elektronischen Wörterbuchsystems wurde
das zwischen 1952 und 1977 an der Akademie der Wissenschaften
erarbeitete sechsbändige "Wörterbuch der deutschen Gegenwartssprache"
(WDG) digitalisiert, strukturiert und liegt bereits in Teilen einer
Wissensbasis aufbereitet. Ein Projekt deutet die zukünftige Richtung
und Arbeitsweise der Wörterbucharbeit innerhalb des DWDS an. Das
Projekt "Kollokationen im Wörterbuch", das unter der Leitung von
Christiane Fellbaum (Princeton) in enger Kooperation mit dem DWDS
durchgeführt wird, erarbeitet datenbankbasiert Beschreibungen
idiomatischer Wendungen, die in das Digitale Wörterbuch eingehen
werden.