Aktuelles
5. Februar 2007
Es ist soweit: Am 5. Februar sind erstmals mehr als 10.000 Nutzer für die Corpora des DWDS angemeldet!
1. Februar 2007
Freischaltung des Berliner Wendekorpus (282.000 tokens):
Im Projekt Berliner Wendecorpus wurden 39 Informanten aus dem Osten und 38 Informanten aus dem Westen Berlins im Rahmen eines narrativen Interviews zum Ereignis 9. November und zu anderen persönlichen Wendeereignissen befragt. Das Projekt wurde, unterstützt von der DFG, an der Freien Universität Berlin unter der Leitung von Norbert Dittmar, durchgeführt. In einem Kooperationsprojekt zwischen der FU-Berlin und dem DWDS wurden im Sommer 2006 alle Dialoge normalisiert. Aus den Textdokumenten wurden ferner xml/tei-Dokumente erstellt, in welchen normalisierte und transkribierte Fassung aligniert sind. Die normalisierte Fassung ist darüber hinaus lemmatisiert und mit Part-of-Speech Tags versehen. Somit kann im Wendecorpus wie in anderen Corpora des DWDS gesucht werden. Darüber hinaus kann sowohl in der normalisierten als auch in der transkribierten Fassung gesucht werden.
Weitere Informationen zum Wendekorpus.
23. Dezember 2006
Freischaltung einer neuen Kollokationssuche. Diese erfolgt lemmabasiert und erfasst alle lemmatisierten Kollokate in einem Abstand von 5 Wörtern. In Fällen, in denen Kollokate oder das Kollokat das gesamte Flexionsparadigma umfasst, liefert die lemmabasierte Suche bessere Ergebnisse. Ein Beispiel hierfür stellt das Verb hegen dar, bei dem die Formen hegt, hegte, hegtest, hegten und hegen ausgewertet werden.
28. November 2006
Freischaltung des Corpus Berliner Zeitung; es enthält alle online erschienenen Artikel der Berliner Zeitung zwischen 3.1.1994 und 31.12.2005 und hat einen Umfang von 252 Millionen Textwörtern (tokens) in 869.000 Artikeln.
31. Oktober 2006
Das DWDS-Kerncorpus überschreitet die Marke von 9000 angemeldeten Nutzern.
12. Oktober 2006
Freischaltung eines Corpus der gesprochenen Sprache mit ca. 2,5 Millionen tokens. Es handelt sich dabei überwiegend um nicht spontan gesprochene Sprache bzw. um redaktionell überarbeitete Texte gesprochener Sprache. Das Corpus umfasst Transkripte aus dem gesamten 20. Jahrhundert.
21. August 2006
Freischaltung des "Juilland-D"-Corpus. Es entspricht in Umfang, Gewichtung der Textsorten sowie der zeitlichen Verteilung den Frequenzwörterbüchern von Juilland et al. für das Französische (1970) und das Italienische (1973).
18. Mai 2006
Das DWDS-Kerncorpus überschreitet die Marke von 7500 angemeldeten Nutzern.
13. Mai 2006
Die Corpussuche wird übersichtlicher gestaltet: alle Optionen sind nun über Aktenreiter erreichbar. Diese Umstellung hat auch eine Neugestaltung der Startseite zur Folge. Das derzeit verwendete Logo ist temporär.
Vor allem aber stehen eine ganze Reihe neuer Optionen zur Verfügung, die von unseren Nutzern seit längerer Zeit gewünscht wurden. Diese sind über Aktenreiter nach Ankreuzen des Häkchens Corpussuche erreichbar:
- Filter nach Autor, Titel, Textsorte und tagesgenaues Datum.
- Sortierung nach Datum, Relevanz und unsortiert, d.h. mit Zufallsauswahl,
- Anzeigeoptionen: Neu hinzugekommen ist die Ansicht von nur einem Treffer pro Dokument.
- Statistik: Berechnung von Kollokationen (d.h. häufig zusammen auftretende Wörter).
- Explizite Corpusauswahl über einen Aktenreiter.
- Exportfunktion: Die Ergebnisse können in verschiedenen Ansichten exportiert werden.
11. Mai 2006
Nach längerer Zeit mit Serverproblemen bei der WDG-Abfrage mit der xml-Datenbank eXist sind wir zu einer einfachen MySQL-Abfrage des DWDS zurückgekehrt. Aufgrund der Umstellung ist derzeit ein Teil der Einträge noch nicht über das Web-Interface sichtbar (ca. 2%). Diese werden wir im Laufe der nächsten Woche integrieren.
20. Februar 2006
Freischaltung eines DDR-Corpus mit einem Gesamtumfang von 9 Millionen tokens in 1150 Dokumenten. Das DDR-Corpus umfasst Texte aus der Zeit von 1949 bis 1990, die in der DDR erschienen sind, bzw. von DDR-Schriftstellern geschrieben und in der Bundesrepublik veröffentlicht wurden. Die Texte stammen aus den Textsorten Belletristik (ca. 3,5 Millionen Textwörter), Zeitung (ca. 0,5 Millionen), Wissenschaft (ca. 1,5 Millionen), Gebrauchstexte (ca. 3,5 Millionen) und gesprochene Sprache (ca. 20.000).
Das DDR-Corpus wird in Zusammenarbeit mit der Humboldt-Universität zu Berlin weiter ausgebaut.
31. Januar 2006
Freischaltung einer Volltextsuche von Texten jüdischer Periodika in Kooperation mit dem Projekt Compactmemory. Alle Fundstellen sind mit den Bildquellen auf der Compactmemory-Website seitengenau verknüpft. Recherchierbar sind derzeit folgende Zeitschriften mit einem Gesamtumfang von 26.247.390 tokens:
- Altneuland
- Der Jude
- Der Morgen
- Mitteilungen des Gesamtarchivs der deutschen Juden
- Neue jüdische Monatshefte
- Ost und West
- Palästina
- Zeitschrift für die Geschichte der Juden in Deutschland
Es ist beabsichtigt, die Volltextsuche auf alle im Archiv enthaltenen Zeitschriften auszuweiten.
6. Dezember 2005
Freischaltung eines Prototypen zur Text/Bild-Verknüpfung.
- Recherchieren Sie in den Volltexten von über 20.000 historische Zeitungsartikeln aus dem Berliner Tageblatt 1902-1933 und der Vossischen Zeitung 1903-1934 und lesen Sie den ganzen Artikel in den elektronischen Bildoriginalen (über 5.000 Graustufen-Images).
- Ferner können Sie in einem Aufsatz Albert Einsteins über die Relativitätstheorie recherchieren und in den Bildoriginalen blättern. [Einstein, Albert, Über die spezielle und die allgemeine Relativitätstheorie (Gemeinverständlich), Braunschweig: Vieweg 1917 (70 Seiten).]
2. Dezember 2005
Die Startseite von dwds.de bekommt ein neues Aussehen. In der neuen Ansicht sind die drei online abfragbaren Ressourcen graphisch unterlegt: 1. Corpora 2. Wörterbuch 3. Wortinformation
|
|
30. November 2005
Das DWDS-Kerncorpus überschreitet die Marke von 6000 angemeldeten Nutzern und verdoppelt sich somit gegenüber November 2004.
02. November 2005
Freischaltung eines Demonstrationscorpus zur Anonymisierung von Eigennamen. Mit der Technik der Anonymisierung sollen urheberrechtlich geschützte Texte für sprachwissenschaftliche Forschung zugänglich gemacht werden: einerseits sind in dem Demonstrationscorpus Eigennamen nicht recherchierbar, damit wird die Konkurrenz zu kommerziellen Angeboten vermieden; andererseits sind die Ergebniskontexte vollständig, d.h. Eigennamen werden bei der Trefferanzeige angezeigt.
Diese Technik basiert auf der TAGH-Morphologie und dem moot-Tagger. Da es sich hierbei um ein statistisches Verfahren handelt, werden die Eigennamen nicht in allen Kontexten ausgeblendet. In jedem Fall aber wird verhindert, dass sich der Nutzer durch die Anfrage ein Dossier zu einem Eigennamen zusammenstellen kann.
31. Okober 2005
Freischaltung weiterer Corpora. Mit dem Tagesspiegel und den Potsdamer Neuesten Nachrichten konnten Vereinbarungen über die Aufnahme dieser Corpora in das DWDS-Corpus getroffen werden. Es stehen für die Recherche zur Verfügung.
5. September 2005
Freischaltung der DWDS-Wortinformation(Beta). Die DWDS-Wortinformation ergänzt die bestehenden Ressourcen, d.h. das Wörterbuch und die Corpora, um zwei automatisch extrahierte Informationstypen zum Wort:
- Extraktion von Synonymen, Ober- und Unterbegriffen aus dem WDG.
- Extraktion von Kollokationen, d.h. besonders häufig mit dem Suchwort gemeinsam auftretende Wörter.
30. August 2005
Das elektronische Archiv der Wochenzeitung Die ZEIT ist nun als Corpus auf den DWDS-Seiten durchsuchbar. Es ist, wie die anderen Corpora des DWDS, linguistisch voranalysiert, d.h. lemmatisiert und bezüglich der Wortarten disambiguiert. Eine Besonderheit dieses Corpus ist, dass es wöchentlich mit dem Erscheinen der neuen ZEIT-Ausgabe aktualisiert wird.
25. August 2005
Autovervollständigung der Stichwörter des Wörterbuch der deutschen Gegenwartssprache (WDG). Für die Anregungen bei der Implementierung geht ein besonderer Dank an Thomas Pfuhl und für die Implementierung selbst an Michael Brandt.
15. August 2005
Pressemitteilung DWDS und ZEIT-online: ZEIT online bietet mit Hilfe computerlinguistischer Technologie zu allen neuen Artikeln eine Auswahl verwandter Texte aus dem reichhaltigen ZEIT Archiv. Auf diese Weise stehen dem Nutzer zu jedem Thema deutlich mehr Hintergrundinformationen als bisher zur Verfügung. Die eingesetzte Technik beruht aus einer Kombination von statistischen Verfahren (Latent Semantic Indexing) und der im DWDS eingesetzten TAGH-Morphologie. Zur Pressemitteilung vom 12.8.
10. August 2005
1956 Einträge (Derivationen, wie z.B. Radikalität <- radikal) des elektronischen WDG wurden annotiert und sind somit abfragbar. Zusätzlich wurden 3765 derivierte Einträge mit ihren Simplizia verknüpft und sind damit einheitlich abfragbar, z.B. Raffinierung und raffinieren. Die Freischaltung erfolgt zum 18.8.
28. Juli 2005
Das DWDS-Kerncorpus überschreitet die Marke von 5000 angemeldeten Nutzern.
7. Juli 2005
Zope-basierter Relaunch der Web-Site. Ebenso wurde das Abfrage-Interface erneuert: Die angezeigte Kontextlänge der Corpusbelege ist abhängig von den Rechtvereinbarungen mit den Verlagen. Sie beträgt minimal 7 Wörter, maximal 3 Sätze.
15. Juni 2005
Das gesamte Kerncorpus wurde neu annotiert mit der TAGH-Morphologie. Ferner wurde das gesamte Kerncorpus PoS-getaggt mit dem moot-Tagger. Somit ist es erstmals möglich, mit der linguistischen Suchmaschine DDC nach PoS-Kategorien (STTS-Tagset) zu suchen.
2. Juni 2005
Ergänzung des Kerncorpus um neue Texte aus Wissenschaft (Jahresberichte für deutsche Geschichte), insgesamt 3,22 Millionen tokens, 14 Bände) und Gebrauchsliteratur (Autobiographien: 5,9 Millionen tokens, 64 Werke und Benimmbücher: 1,02 Millionen tokens, 50 teilweise kleinere Werke).
31.Mai 2005
Annotierung der "dazu"-Komposita des WDG. Die Anzahl der online abfragbaren Stichwörter erhöht sich dadurch um rund 40.000 auf insgesamt knapp 130.000 Stichwörter.
2. April 2005
Im Rahmen des Projekts PoM der Akademie wurde das Quellenverzeichnis des WDG (ca. 1000 Werke) digital erfaßt. Darüber hinaus wurde eine Verknüpfung aller Siglen im Wörterbuch mit dem Quellenverzeichnis vorgenommen. Es ist dadurch möglich, von allen Beispielssätzen (mit Sigle) direkt zur entsprechenden Quellenangabe zu springen. ... mehr
13. November 2004
11 Monate nach der Freischaltung hat das DWDS 3000 angemeldete Nutzer für das Kerncorpus.
31. Oktober 2004
Erweiterung der bisherigen Suchmodi um einen Kollokationsgraphen. Die bei der statistischen Abfrage ermittelten Kollokationskandidaten werden grafisch dargestellt. Bei Klick auf einen Begriff im Graphen werden dessen Kollokationskandidaten angezeigt. u.s.w. (Screenshot)
15. September 2004
Der millionste Zugriff auf das Wörterbuch der deutschen Gegenwartssprache (WDG) ist erfolgt. Zur aktuellen Statistik.
2. April 2004
Erweiterung des online abfragbaren WDG um das DWDS-Wortinformationssystem. Zusätzlich zu dem Wörterbucheintrag werden automatisch ermittelte Synomyme, Hyperonyme und Hyponyme angezeigt. Des Weiteren werden die ermittelten Kollokatoren mit ihrem statistischen Kollokationsmaß angegeben, sowie maximal fünf Belege aus dem DWDS-Corpus.
23. März 2004
Erweiterung der bisherigen Suchmodi um eine statistische Abfragefunktion. Anhand von statistischen Werten (MI, t-score) können Kollokationskandidaten ermittelt werden.
23. Dezember 2003
Freischaltung einer ersten Version der neuen Corpus-Seiten des DWDS www.dwdscorpus.de. Die neue Domain ist vor allem für corpuslinguistisch interessierte Nutzer konzipiert, die einen schnellen und direkten Zugriff auf die Texte sowie die bibliographischen Daten benötigen. Die bibliographische Datenbank des DWDS-Login-Corpus ist auch auf den DWDS-Seiten zur Recherche freigeschaltet.
15. Dezember 2003
Freischaltung der neuen linguistischen Abfragemaske. Die Rechercheergebnisse werden in KWIC-Zeilen angezeigt und sind nach linkem und rechtem Kontext sortierbar. Den Treffern ist die bibliographische Angabe des Zitats zugeordnet. Die Seite bietet umfangreiche Anpassungsmöglichkeiten (z.B. Seiten- und Kontextlänge). Die Treffermenge ist einstellbar und ist derzeit auf maximal 500 Treffer beschränkt. Die Beschränkung der Recherchen auf einzelne Dekaden ist möglich.
Seit Anfang Oktober 2003
Beginn der Sprachaufnahmen für ein Modul Aussprache des DWDS am Zentrum für Allgemeine Sprachwissenschaft ZAS. Es ist vorgesehen, alle Stichwörter des WDG sowie mehrere hochfrequente Wörter des DWDS-Corpus aufzunehmen, mit den Datenbankeinträgen zu verknüpfen und online zur Verfügung zu stellen.
23. Juni 2003
Viele neue Textquellen insbesondere der zweiten Jahrhunderthälfte, für die das DWDS das Recht zur wissenschaftlichen Nutzung hat, werden hinter einer Anmelde-Maske für die Recherche freigeschaltet. Im neuen Corpus besteht Zugriff auf 100 Millionen laufende Textwörter. Gleichzeitig wird die "erweiterte Suche" auf der Grundlage der am DWDS entwickelten linguistische Suchmaschine DDC möglich.
6. Juni 2003
Kooperation mit dem Projekt »Online-Unterricht in der Wissenschaftssprache Deutsch - Deutschkurse für ausländische Studierende: "uni-deutsch.de"« der Ludwig-Maximilians Universität München www.uni-deutsch.de
15. Mai 2003
Das DWDS-Team nahm im November 2002 an der Ausschreibung der DFG zur Einrichtung von "Leistungszentren der Forschungsinformation" teil und erhält Mittel bewiligt zur Erarbeitung eines Antrags für ein Deutsches Textarchiv.
14. Mai 2003
Das WDG wird als deutsches Referenzwörterbuch mit eigener Abfragemaske in das Angebot des elektronischen dt.-engl. Wörterbuchs LEO.ORG eingebaut.
11. April 2003
ZEIT-Online und die Berlin-Brandenburgische Akademie der Wissenschaften kooperieren. Die vom DWDS digitalisierten historischen Ausgaben der Wochenzeitung DIE ZEIT (1946-1988) werden freigeschaltet. Ein eigener WDG-Zugriff wird in die online-Präsentation der ZEIT eingebaut.
5. März 2003
Verknüpfung des DWDS-Corpus mit der elektronischen Fassung des sechsbändigen Wörterbuchs der deutschen Gegenwartssprache (WDG). Beginn des Testbetriebs. Damit werden zum ersten Mal Wörterbucheinträge mit Corpusbelegen verknüpft.
2. Oktober 2002
Freischaltung weiterer Texte im öffentlich abfragbaren Corpus. Neu recherchierbar werden mehrere tausend Zeitungsartikel (z.B. Stichproben aus den Münchner Neuesten Nachrichten, dem Simplicissimus und div. Exilzeitungen), belletristische Werke (z.B. Feuchtwanger, Hauptmann, Kisch), wissenschaftliche Texte (Fachzeitschriftenaufsätze u.a. von S. Freud, O. Hahn) und Gebrauchsliteratur (Sammelbände zur Hygiene, Ratgeber).
11. Juni 2002
Aufnahme von Wissenschaftsliteratur, diversen Gebrauchstexten (z.B. Feldpostbriefe) und weiteren belletristischen Texten ins öffentlich abfragbare Corpus. Die Abfragemaske wurde entsprechend erweitert.
4. März 2002
Aufnahme von Gebrauchstexten (z.B. Ratgeberliteratur, Annoncen) ins öffentlich abfragbare Corpus. Die Abfragemaske wurde entsprechend erweitert.
28. Februar 2002
Die Recherchemodi wurden erweitert (z.B. Fuzzy- und Lemma-Suche). Eine erläuternde Hilfe-Funktion wurde in die Suchmaske integriert.
18. Dezember 2001
Beginn des Testbetriebs der "einfachen" Onlineabfragen: Zeitungstexte und einige belletristische Werke der Jahre 1900-1945 sind nach Belegstellen abfragbar. Der ausgegebene Kontext variiert je nach urheberrechtlichem Status der Textquellen.
November 2001
Stellenausschreibungen für das Projekt "Kollokationen im Wörterbuch".
Oktober 2001
Wolfgang-Paul-Preis für Christiane Fellbaum (Princeton) für ein gemeinsam mit dem DWDS entwickeltes Kooperationsprojekt an der Berlin-Brandenburgischen Akademie der Wissenschaften "Kollokationen im Wörterbuch".
März 2001
Trinationale Vereinbarung der Präsidenten der ÖAW, SAGW und BBAW über die Erstellung von elektronischen Textcorpora als Grundlage für ein Digitales Wörterbuch.
März 2000
Beginn der Förderung durch die Deutsche Forschungsgemeinschaft. Aufbau einer Arbeitsgruppe an der Berlin-Brandenburgischen Akademie der Wissenschaften.
Hauptseite von Aktuelles