Was tun wir in der Regel, wenn wir nach einem angemessenen Ausdruck suchen? Klassischerweise schlagen wir im Wörterbuch nach. Mehr und mehr nutzen wir heute aber auch die Ressourcen im Internet, seien es elektronische Wörterbücher wie Duden online oder dict.cc, automatische Übersetzungshilfen wie Google Übersetzer und DeepL oder Datenbanken mit übersetzten Texten wie Linguee.
Alle diese Quellen sind – vor allem wenn man sie kombiniert – durchaus sehr nützlich. Was sie aber nicht befriedigend leisten, sind gesicherte Aussagen über Typikalität auf der einen Seite und über die kleinen, aber feinen Unterschiede im Gebrauch eines Ausdrucks auf der anderen.
Sicherlich muss jemand, der beispielsweise beginnt, eine Fremdsprache zu lernen, noch nicht mit all diesen Feinheiten vertraut sein. Je höher sich die Sprachkompetenz aber entwickelt, desto mehr wächst das Bedürfnis, nicht nur Fehler zu vermeiden oder sich irgendwie verständlich auszudrücken, sondern nah am muttersprachlichen Gebrauch zu kommunizieren.
Das Maß des Verstehens dieses „gewissen Etwas“ macht einen kulturell angemessenen Sprachgebrauch aus. Hat man das Privileg, eine Fremdsprache in dem entsprechenden Land zu lernen oder zu vertiefen, erwirbt man solche Kontextsensibilität „by doing“. Man hört bestimmte Ausdrücke und Chunks immer wieder und kann sie irgendwann aufgrund der wiederkehrenden Situationen memorieren. Von außen gestaltet sich dieser Lernprozess jedoch ungleich schwieriger; und nicht immer können Lehrbücher und Wörterbücher diese Lücken füllen.
Korpora als elektronische Sammlungen von sprachlichen Massendaten simulieren wiederkehrende Kontextmuster in authentischer Sprache bis zu einem gewissen Grad (s. 4.1). Mithilfe quantitativer Auswertungen und statistischer Clusteringverfahren lassen sich neue Einsichten zu typischem Sprachgebrauch gewinnen. Typischer Sprachgebrauch manifestiert sich darin, dass viele Sprecher einer Sprachgemeinschaft verteilt über viele Texte und Zeitverläufe bestimmte sprachliche Einheiten auf dieselbe oder ähnliche Weise einsetzen.
Das neue Onlineformat PREPCONonline führt durch die Welt der Korpusdaten und zeigt, welchen Erklärungswert authentische Sprache, die von Experten aufbereitet ist, für die eigene sprachliche Kompetenz haben kann. Dieser Ansatz folgt der Überzeugung, dass vor allem auf einem gehobenen Kompetenzniveau reale Sprachausschnitte, die für einen Aspekt des Gebrauchs besonders typisch sind, möglichst unverfälscht abrufbar sein sollten, um Sprache, so wie sie wirklich verwendet wird, versteh- und anwendbar zu machen.
Fachhinweis:
Online-Einführung in die Korpuslinguistik mit Videos (Noah Bubenhofer)
Im Mittelpunkt von PREPCONonline steht ein in der Phraseologie bislang eher vernachlässigter Typ: Präposition-Nomen-Verbindungen mit rekurrenter Nullstelle (PNs) (nach Belieben, mit Genugtuung, nach Jahren). Wir betrachten diese Einheiten jedoch nicht aus der Perspektive grammatischer Regularitäten, sondern aus semantisch-holistischer Sicht. Viele dieser PNs sind durch Weglassen des Artikels oder Adjektivs vor dem Substantiv so verfestigt, dass sie als Präposition-Nomen-Kombinationen quasi wie ein Wort verwendet werden. Sie weisen zumeist schillernde Bedeutungen und Funktionen auf, was gerade für Fremdsprachenlerner eine große Barriere darstellt. Solche PNs müssen also als lexikalisierte, phraseologische Minimaleinheiten verstanden werden, die als Ganzes kognitiv verankert und dementsprechend auch als Lexeme zu lernen sind.
Gleichzeitig sind PNs in ein komplexes Netz von Kotextmustern eingebettet, die spezifische Gebrauchsaspekte und Restriktionen indizieren. Wir zeigen, dass korpusgesteuerte Clusteringverfahren und Auswertungen der lexikalischen Besetzung von Musterslots eine sehr feine Beschreibung des distinktiven Gebrauchs ermöglichen, letztlich mit dem Ziel, diese Einheiten kommunikativ adäquat in der Fremdsprache einsetzen zu können.
In PREPCONonline werden unterschiedliche PN-Typen mit unterschiedlichen Darstellungsformaten und Beschreibungstiefen aufbereitet und zwar sowohl mono- als auch trilingual.
PREPCONonline basiert auf langjährigen Forschungen des IDS-Vorhabens „Usuelle Wortverbindungen“ (UWV) (s. Steyer 2013) (s. Team) zu neuartigen datengeleiteten Präsentationsformen lexikalischer Strukturen. Als erste Pilotstudie entwickelte und publizierte das UWV-Projekt in den Nullerjahren so genannte „Wortverbindungsfelder“, in denen die Idee der Aufwertung authentischer Korpusdaten als Kern lexikografischer Artikel bereits exemplarisch getestet wurde (s. Steyer/Brunner 2009; Steyer 2020).
Dem Konzept eines modularen korpusgesteuerten Onlineformats liegt die Erkenntnis zugrunde, dass die lexikografische Erfassung von usuellen Wortverbindungen und von lexikalisch geprägten Mustern nicht nach einem fest gefügten Beschreibungsraster erfolgen kann, sondern dass nur eine datennahe und dynamisch-flexible Erfassung in unterschiedlichen Beschreibungstiefen der Komplexität dieser sprachlichen Phänomene gerecht wird. Datennah bedeutet, dass automatisch ermittelte Korpusausschnitte wie KWICs (s. 4.3), Kookkurrenzprofile (s. 4.6) und Lückenfüllertabellen (s. 4.7) ins Zentrum von lexikografischen Einträgen rücken. Der Nutzer soll in die Lage versetzt werden, anhand von linguistisch systematisierten und kommentierten, aber authentischen Sprachdaten Informationen zum usuellen Gebrauch abzuleiten.
Die ordnende Hand des Lexikografen bleibt jedoch unverzichtbar. Der Unterschied zu herkömmlichen lexikografischen Beschreibungen ist nur, dass die analytische Arbeit – wenn man so will – eher im Hintergrund abläuft, damit in großen Teilen implizit bleibt, und nicht (oder nur knapp) in Form von metasprachlichen Texten sichtbar wird. Eine solche Herangehensweise stellt insofern eine Herausforderung dar, als didaktisierte Zugänge zu entwickeln sind, die dem Nutzer diese neuen Formen der Aneignung sprachlichen Wissens überhaupt erst nahebringen (s. Steyer 2018, S. 256).
In PREPCONonline wird diese Vision erstmals für einen ganzen Wortschatzausschnitt umgesetzt und zwar für die Dokumentation des Gebrauchs von binären Präposition-Nomen-Verbindungen (PNs) des Deutschen.
Neben den (systematisierten) Korpusdaten in allen Modulen (s. 3.1; 3.2; 3.3) und den narrativen Beschreibungen in der kontrastiven Pilotstudie (s. 3.3) kommen den Informationstexten eine besondere Bedeutung zu. Sie sollen Nutzern den Erklärungswert der dokumentierten Korpusdaten als wichtigen heuristischen Zugang zu sprachlichem Wissen verdeutlichen. Diese Informationstexte sind auf zweifache Weise zugänglich:
Das PREPCONonline–Design vereint drei korpusgesteuert erarbeitete Darstellungsformate:
„PREPCONonline“ ist über die PREPCON-Webseite, die UWV-Webseite sowie als Rubrik in OWIDplus abrufbar. Bei OWIDplus handelt es sich um „eine experimentelle Plattform für multilinguale lexikalisch-lexikografische Daten, für quantitative lexikalische Auswertungen und für interaktive lexikalische Anwendungen“.
An der Erarbeitung von PREPCONonline waren aus IDS-Sicht beteiligt (externe Beteiligte „PREPCONonline kontrastiv“ s. 3.3):
Beteiligte studentische Hilfskräfte in chronologischer Reihenfolge seit 2014:
Gerrit Kleiböhmer, Martin Schönen, Oxana Bogatyrenko, Teemu Arola, Maria Steinfeld (auch als wiss. Hilfskraft), Maryna Charniuk, Julia Steinke, Jacqueline Wolfgang
PREPCONonline wurde ausnahmslos mithilfe sehr großer elektronischer Korpora erarbeitet – und zwar korpusgesteuert und bottom-up: für Deutsch mithilfe des virtuellen UWV-Korpus UWV11_2017 mit ca. 9 Mrd. Wortformen (ein Sample des W-Archivs des am Institut für Deutsche Sprache beheimateten Deutschen Referenzkorpus); für Spanisch und Slowakisch mithilfe der entsprechenden Webkorpora in Sketch Engine (s. 3.3).
Die empirische Ausgangsbasis für die linguistischen Untersuchungen und die gesamte Aufbereitung in den PREPCON-Modulen bildete eine von der UWV-Gruppe durchgeführte exhaustive Erhebung des Vorkommens von 80 deutschen Präpositionen mit ihren unmittelbar nachgestellten Nomina. Als Datenbasis diente hier zunächst das morphosyntaktisch annotierte Korpus TAGGED-T-gesamt (alle Korpora des Archivs TAGGED-T) (Release: DeReKo-2010-II) mit ca. 1,5 Milliarden Wörter. Es wurden COSMAS-II-Anfragen durchgeführt und zwar mit folgendem Suchmuster: Oberflächenform der jeweiligen Präposition (in Groß- und Kleinschreibung), unmittelbar gefolgt von der Kategorie NOMEN, z.B.
Die durch diese Suchen ermittelten KWICs (Zufallsauswahl 100.000) wurden in einem Datenarchiv inventarisiert, z. B. alle KWICs des PN-Musters [ohne|Ohne + NOMEN].
Für die Auswertung der Daten kam dann der von der UWV-Gruppe entwickelte „Lexical Pattern Analyzer“ (lexpan) zum Einsatz. Lexpan ist ein einzelsprachenunabhängiges Analysewerkzeug zur explorativen Untersuchung von Festigkeit, Varianz, Slotbesetzungen und kontextuellen Einbettungsmustern syntagmatischer Strukturen. Das Tool ermöglicht, aus Korpora exportierte Daten in einer eigenen Arbeitsumgebung weiter zu bearbeiten, zu strukturieren und zu kommentieren sowie die Ergebnisse in gesonderten Dateien darzustellen.
Um die Vorkommenshäufigkeiten der N-Füller für die jeweiligen PN-Muster zu ermitteln, wurden die KWICs in lexpan exportiert, die N-Slots für jede Präposition quantitativ ausgewertet und als Lückenfüllertabellen (s. 4.7) mit KWICs und in Frequenzlisten inventarisiert, z. B. [ohne + N]:
Lückenfüller | Anzahl | Prozentanteil |
Erfolg | 1807 | 1,81 |
Probleme | 1304 | 1,30 |
Grenzen | 1195 | 1,20 |
Zweifel | 1174 | 1,17 |
Niederlage | 1160 | 1,16 |
Sieg | 1056 | 1,06 |
Rücksicht | 917 | 0,92 |
Grund | 786 | 0,79 |
Altersbeschränkung | 782 | 0,78 |
(Die Frequenz der Nomina wurde – wie oben erwähnt – im relativ kleinen DeReKo-Korpus TAGGED-T-gesamt ermittelt, in den nicht annotierten Korpora liegt sie um ein Vielfaches höher.)
Diese PN-Listen und das Korpusdatenarchiv bildeten dann die Basis für die weitere automatischen Verarbeitung (vor allem in „PREPCONonline explorativ“) und für quantitativ-qualitativen Beschreibungen in „PREPCONonline temporal“ und „PREPCONonline kontrastiv“. Die Anreicherung von PN-Ausschnitten mit Korpusdaten und Untersuchung einzelner PN-Exemplare basierten dann auf weitergehenden Analysen im nicht-annotierten UWV-Korpus. Den wichtigsten Zugang zu Bedeutung und Gebrauch autonomer deutscher PNs (temporal, kontrastiv) lieferten dabei Kookkurrenzprofile (s. 4.6) die mithilfe der u.a. in CII integrierten Kookkurrenzanalyse (vgl. Belica 1995) erhoben und dann mit lexpan aufbereitet, inhaltlich annotiert, gruppiert und visualisiert wurden (für die temporalen PNs wie ohne Unterlass rein automatisch; für die vier Beispiel-PNs in „PREPCONonline kontrastiv“ sowohl automatisch als auch qualitativ in Satellitenfeldern gruppiert (s. 4.12)). Für Spanisch und Slowakisch verarbeitete lexpan Daten aus Sketch Engine (v.a. Feature: collocation analysis). Bezüglich der PN-Einbettungsmuster kam die automatische lexpan-Slotanalyse zum Einsatz (s. 4.7) Auch hier diente das Tool sowohl für die automatische Aufbereitung und Visualisierung als auch als Annotationswerkzeug zur inhaltlichen Systematisierung und Gruppierung von Slot-Füllern (s. 4.13) in allen drei Sprachen.
Die vollautomatische Datenbank „PREPCONonline explorativ“ erfüllt die Funktion einer exhaustiven Inventarisierung und Dokumentation eines Sprachausschnitts – und zwar von knapp 80.000 Präposition-Nomen-Verbindungen des Deutschen. Die Datenbank enthält sowohl PNs, die als Zweiwortverbindungen einen semantisch autonomen Status (s. 4.4) aufweisen und damit als lexikalisierte Einheiten, als usuelle Wortverbindungen, anzusehen sind (z.B. vor Ort, über Nacht, durch Zufall), als auch Kombinationen, die Komponenten anderer Konstruktionen sind, z.B. für Aufsehen sorgen; zu Gunsten von oder unter Führung des Internationalen Währungsfonds.
Zu den in die Datenbank aufgenommenen 68 Präpositionen sind alle Nomina abrufbar, die unmittelbar nachgestellt vorkommen. Parallel dazu ist es möglich, reziprok nach einem Nomen zu suchen und sich alle Präpositionen in unmittelbarer Voranstellung auflisten zu lassen. Diese Tabelle umfasst knapp 30.000 Nomina. Alle Angaben sind mit quantitativen Angaben und KWICs versehen.
PREPCONonline explorativ bietet nützliche Informationen zur Verbindbarkeit von Präpositionen und unmittelbar nachgestellten Nomina im Deutschen. Dies kann z.B. folgende Phänomene betreffen:
ums Leben | 48.663 |
seit Jahren | 24.186 |
bis Ende | 20.713 |
pro Jahr | 20.471 |
per E-Mail | 17.338 |
Des Weiteren kann diese Datenbank genutzt werden, um interessante Teilinventare für die weitere linguistische Forschung zu generieren, z.B. von
In die Datenbank wurden Präposition-Nomen-Verbindungen mit Mindestvorkommenshäufigkeit von 5 aufgenommen. Verbindungen mit geringeren Frequenzen gingen in die Berechnung relativer Frequenzen ein, sind jedoch nicht Teil der Datenbank. Abrufbare Informationen zu jeder Präposition-Nomen-Verbindung sind:
Da diese Datenbank auf den automatisch annotierten Texten in TAGGED-T-gesamt basiert, sind Fehler durch den TreeTagger (hier falsche Nomenzuordnung) nicht zu vermeiden. Die Datenbank wurde von systematisch falschen Einträgen bereinigt, die sich automatisch finden und entfernen ließen.
Temporale Präposition-Nomen-Verbindungen wurden sowohl in Phraseologie und Lexikografie als auch Fremdsprachvermittlung bis dato eher vernachlässigt, da sie auf den ersten Blick eher unspektakulär erscheinen (im Gegensatz zu modalen PNs wie auf Augenhöhe oder ohne Umschweife). Gerade aus phraseologischer und phraseo-konstruktioneller Sicht sind sie aber sehr interessant, weil viele dieser temporalen PNs potenziell zu starker Lexikalisierung neigen und daher als holistische Entitäten zu verstehen und – aus fremdsprachendidaktischer Perspektive – zu lernen sind (z.B. über Nacht; nach Jahren; im Moment). Des Weiteren sind viele Kontexte, in denen temporale PNs verwendet werden, „pragmatisch aufgeladen“. Daher stellen sie eine nicht zu unterschätzende Barriere für Nicht-Muttersprachler dar.
Die Untersuchungen im PREPCON-Projekt haben gezeigt, dass sich Sprecher fast immer zur ausgedrückten Zeitdauer (so direkt oder indirekt dieser Bezug auch ist) positionieren: Etwas wird als zu kurz oder zu lang, zu früh oder zu spät, erwartet oder unerwartet, angemessen oder unangemessen empfunden. Diese Kontextuierungen spiegeln sich in den Kookkurrenzprofilen und Slot-Füllern der semiabstrakten Muster mannigfach wider. Derartige usualisierte Kontextmuster konnten bei einer ersten Pilotstudie lokaler PNs nicht im selben Maße festgestellt werden. Es ist zu vermuten, dass Sprecher ein viel größeres Bedürfnis haben, eine Zeitdimension als eine Raumausdehnung zu bewerten. Ein Grund könnte sein, dass Zeit weniger konkret wahrnehmbar ist als Raum und daher größerer Interpretationsbedarf besteht. Des Weiteren ist Zeit ein zentrales Konzept des westlichen Kulturkreises in der Gegenwart.
„PREPCONonline temporal" dokumentiert PNs in zwei Teilmodulen:
Empirisches Vorgehen und Daten
In einem ersten qualitativen Analyseschritt wurden die automatisch erstellten Ausgangslisten (auf der Basis der getaggten Korpora und gerankt nach Häufigkeit der Nomina, s. 2.3) manuell durchgesehen, um Kandidaten für temporale PNs auszuwählen. Das Hauptkriterium war der Zeitbezug, den das Nomen einer PN obligatorisch aufweisen musste. Zusätzlich wurden PNs ausgewählt, die als Ganzes eine temporale Bedeutung aufweisen, obwohl sie kein Zeit-Nomen enthalten, z.B. auf Knopfdruck. In einem zweiten qualitativen Analyseschritt erfolgte die Unterscheidung zwischen reinen Zeitangaben-PNs (z.B. an Weihnachten; gegen Mittag; im Gesamtjahr) und semantisch fixen, autonomen PN-Einheiten, die quasi wie Einzelwörter mit Bedeutungen und kommunikativen Funktionen und somit als usuelle Wortverbindungen fungieren (z.B. über Nacht; nach Jahren; im Moment).
Die Zeitangaben-PNs wurden dann wiederum automatisch aufbereitet (Frequenzen und KWIC-Auswahl durch Verlinkung mit der Datenbank in PREPCONonline explorativ). Dieses „Inventar temporaler Zeitangabe-PNs“ beinhaltet alle PNs zu Abschnitten am Tag, in der Woche, im Jahr usw. sowie mit Eigennamen wie Wochentage, Monate, Feiertage (903 Einträge).
Die ausgewählten semantisch autonomen PN-Einheiten (224) wurde in einem weiteren Schritt im nicht-annotierten UWV-Sample des W-Archivs von DeReKo in Groß- und Kleinschreibung gesucht und ihre Frequenzen, KWICs sowie Kookkurrenzprofile inventarisiert. Des Weiteren wurden lexpan-Lückenfüllertabellen für interne Erweiterungen (1-4 Leerstellen zwischen P und N) und externe Erweiterungen (1 Leerstelle vor P; zwei Leerstellen nach N) erstellt.
Diese automatisch erstellten Korpusdaten bilden den Grundstock für die zweite Komponente von PREPCONonline temporal, die Kurzartikel.
In den Kurzartikeln werden folgende quantitative Informationen aufgeführt:
Ergebnisse der qualitativen Analyse münden aktuell in folgende Angaben:
Fachhinweis:
Steyer 2018 (Hg.); Steyer (2018); Steyer (2020) in Corpas Pastor & Colson (eds.) (2020); Steyer (2021 in print) in Mellado Blanco (ed.) (2021)
Bei „PREPCONonline kontrastiv“ handelt es sich um ein Kooperationsprojekt der UWV-Gruppe mit dem FRASESPAL-Projekt „Combinaciones fraseológicas del alemán de estructura [PREP. + SUST.]: patrones sintagmáticos, descripción lexicográfica y correspondencias en español“ (FFI2013-45769-P), drittmittelfinanziert durch das spanische Ministerium für Wirtschaft und Wettbewerbsfähigkeit (Leitung: Carmen Mellado Blanco; s. Team) und dem WICOL-Projekt (drittmittelfinanziert durch die Slowakische Forschungsagentur VEGA) der Universität der Heiligen Kyrill und Method Trnava (Leitung Peter Ďurčo; s. Team).
Mit der Anwendung des musterbasierten UWV-Modells auf andere Sprachen (Spanisch und Slowakisch) betritt das Projekt vor allem im Bereich der kontrastiven Phraseologie sowie in Bezug auf neue Darstellungsformen Neuland. Relevante Zielgruppen sind Deutschlerner auf mittlerem bis gehobenem Kompetenzniveau (B1 – C2), Deutschlehrende (Schule, Universität) sowie Übersetzer und professionelle Textproduzenten.
Im Mittelpunkt steht der korpusgesteuerte Vergleich von quantitativen Daten, Bedeutungs- und Gebrauchsaspekten sowie semi-abstrakten Mustern für die Sprachenpaare Deutsch – Spanisch und Deutsch – Slowakisch; ausgehend vom Deutschen. Beschrieben werden die PNs am Anfang; auf Anhieb; mit Genugtuung; nach Belieben und die prototypischen Äquivalente in Spanisch (al principio; de inmediato; con satisfacción; a su/... gusto) und Slowakisch (na začiatku; na prvý pokus; so zadosťučinením; podľa ľubovôle). Zur Problematik der Äquivalenzbestimmung und -beschreibung auf der Basis von Korpusdaten wird auf die umfassenden Publikationen der slowakischen und spanischen Projektpartner verwiesen (s.u.).
In diesem kontrastiven Format wird exemplarisch gezeigt, wie man Besonderheiten in einer Fremdsprache durch den Vergleich mit der eigenen Muttersprache mithilfe von authentischen Sprachdaten verstehen kann. Die Kontrastierung von Satellitenfeldern und Slotbesetzungen in Mustern ermöglicht eine sehr feine Beschreibung des distinktiven Gebrauchs in den drei Sprachen und differenziertere Einsichten in konvergente und divergente Phänomene, vor allem auf der pragmatisch-funktionalen Ebene.
Die neue Herangehensweise ist wie in PREPCONonline allgemein auch hier, dass die korpusgesteuert ermittelten Daten nicht nur als empirische Grundlage für die sprachvergleichende Beschreibung dienen, sondern wiederum selbst zu lexikografischen Angaben im Kontrast werden. „PREPCONonline kontrastiv“ ist als Pilotstudie zu verstehen, deren Vorgehensmodell für andere Korpusdaten und Sprachen anwendbar sein kann.
Empirisches Vorgehen und Daten
Die empirische Basis für Spanisch und Slowakisch in „PREPCONonline kontrastiv“ bildeten die Webkorpora esTenTen18 (ca. 17 Mrd. Wörter) bzw. skTenTen 11 (715 Mio. Wörter) in Sketch Engine; für Slowakisch des Weiteren das Slowakische Nationalkorpus (1,3 Mrd. Wortformen). Die Korpusvalidierung der prototypischen Äquivalenten erfolgte in Analogie zur Vorgehensweise mit COSMAS II mit dem Feature ‚Concordance‘ (Zeichenkettensuche). Die Ergebnisse ‚Häufigkeit‘ (s. 4.2) und ‚KWICs‘ (s. 4.3) sowie ‚Kookkurrenzprofile‘ (s. 4.6) (Features ‚Collocations‘; ‚Word Sketches‘) wurden inventarisiert und in lexpan importiert. Das einzelsprachenunabhängige UWV-Tool lexpan wurde dann für Spanisch und Slowakisch als zentrales Analyse- und Annotationswerkzeug eingesetzt (s. 2.3).
Die Startseite von „PREPCONonline kontrastiv“ bietet zwei Zugänge für die PN-Artikel an:
Der Nutzer wird immer erst auf den deutschen Artikel geführt und kann sich dann das jeweilige spanische oder slowakische Äquivalent hinzuschalten. Die Entscheidung, die Äquivalentartikel nur gemeinsam mit deutschen Ausgangsartikel anzuzeigen, ist der Tatsache geschuldet, dass dies die unilaterale Vorgehensweise mit der Ausgangssprache Deutsch bei der Erarbeitung der spanischen und slowakischen Artikel abbildet.
Der Kopf der Artikel in allen drei Sprachen ist identisch zu dem in „PREPCONonline temporal“:
Hinzu kommt die Angabe der jeweiligen Kernbedeutung bei allen PNs in den drei Sprachen (s. 4.10)
Im ersten Angabebereich ‚Quantitative Angaben‘ werden die automatisch erhobenen Daten in Analogie zu „PREPCONonline temporal“ für Deutsch, Spanisch, Slowakisch wie folgt aufgeführt:
Der kontrastive Angabebereich ‚Gebrauchsaspekte‘ (GAs) (s. 4.11) beschreibt Bedeutung und typische Verwendung der PNs im Vergleich (ausgehend vom Deutschen). Bei einer vorliegenden Konvergenz in Bezug auf einen Gebrauchsaspekt wird die deutsche Paraphrase auch in anderen Sprachen angeführt. Divergenzen (in Bezug auf den GA oder auf Teilaspekte) werden entsprechend kommentiert. Zur Illustration der jeweiligen GAs im Kontrast dienen inhaltlich gruppierte Satellitenfelder (s. 4.12) und Volltextbelege (s. 4.8).
Der kontrastive Angabebereich „Lexikalische Erweiterungen“ (s. 4.13) umfasst interne und externe lexikalische Erweiterungsmuster des jeweiligen PN-Kerns; sowohl verfestigte lexikalische Erweiterungsvarianten als auch semi-abstrakte Muster. Diese Muster werden in allen drei Sprachen zunächst unter einen Strukturknoten [X PN]; [P X N]; [PN X] gebündelt und dann weiter in Submustern nach Wortarten und semantischen Merkmalen der Füller gruppiert. Auch hier werden Konvergenzen und Divergenzen entsprechend dargestellt und kommentiert.
Konvergenzen und Divergenzen in den beiden letztgenannten Angabebereichen sind immer auch grafisch markiert
Abgerundet wird dieses kontrastive Modul mit einer Rubrik „Weitere Gebrauchsaspekte ohne Bezug zum Deutschen“, in der Besonderheiten im spanischen und/oder slowakischen Korpusgebrauch der entsprechenden PN erklärt werden, die im Deutschen nicht oder nur marginal zu beobachten sind.
Fachhinweis
Zentrale Publikationen des gesamten Projekts: Steyer 2018 (Hg.) (Teil II: PREPCON. Präposition-Nomen-Verbindungen im Kontext. Ein Blick in die Projektwerkstatt); Ďurčo/Tabačeková (2019)
Publikation der UWV-Gruppe; Publikationen der FRASESPAL-Gruppe; Publikationen der WICOL-Gruppe
Zu Sketch Engine s. Quick Start Guide
Korpora sind digitalisierte, maschinenlesbare Sammlungen authentischer Sprache, riesige Textdatenbanken also, die mithilfe automatischer Methoden durchsuchbar sind. Die Auswertung sprachlicher Massendaten verhilft zu einem sehr viel gesicherteren Urteil über typischen Sprachgebrauch als das mit der individuellen Sprachkompetenz auch nur annähernd möglich wäre.
Quantitative Auswertungen und statistische Clusteringverfahren führen zu neuen Einsichten darüber, auf welche Art und Weise viele Sprecher einer Sprachgemeinschaft verteilt über viele Texte und Zeitverläufe bestimmte sprachliche Einheiten auf dieselbe oder ähnliche Weise einsetzen.
Korpora sind – so groß sie auch sein mögen – trotzdem immer nur eine Stichprobe der Sprache. Man kann also nie sagen, dass ein sprachliches Phänomen nicht existiert, weil es im Korpus nicht nachweisbar war. Man kann sich aber, z.B. als Fremdsprachenlerner und -lehrer, an den Hinweisen einer Korpusanalyse zum Usus orientieren, z.B. zu besonders häufigen oder auch geringen Vorkommen sprachlicher Einheiten, zu verfestigten grammatischen Formen; zu aktuellen Bedeutungen, Situationsbezügen und Bewertungen oder zu Kombinationen zwischen Wörtern (Kollokationen) bzw. verfestigten Wendungen (Idiome, Sprichwörter usw.) u.v.a.m.
DeReKo; esTenTen; skTenTen; SNC
Frequenzen werden auf der Basis von Suchanfragen (queries) im Korpus berechnet. Dabei gibt es keine Häufigkeit in der Sprache an sich (z. B. die häufigsten PNs des Deutschen), sondern immer nur eine relative in Bezug auf die vorher formulierte Suchanfrage basierend auf der zu einem bestimmten Zeitpunkt ausgewählten Korpusbasis. Es geht also eher um Frequenzbereiche und Häufigkeitstrends bzw. -proportionen.
Die Suchfragen in PREPCONonline bedeuten:
automatisch (→ COSMAS II; Sketch Engine)
Wenn man eine Zeichenkette (z.B. ein Wort oder eine Wortgruppe) im Korpus sucht, bekommt man in der Regel Zeilen (Konkordanzen) angezeigt, in denen das Suchobjekt vorkommt, ergänzt durch ein wenig Text davor und danach. Es handelt sich um Textschnipsel, die nicht immer grammatisch vollständige Sätze sein müssen. Anhand solcher Konkordanzen lassen sich jedoch bereits wichtige Hinweise gewinnen, in welchen Satzzusammenhängen eine sprachliche Einheit häufig verwendet wird (typische Kontextmuster), z.B. häufig eingebettet in wörtliche Rede; mit Modalverben oder Negationswörtern verbunden. Bei Wortgruppen kann man bspw. erkennen, wie fest oder variabel sie sind.
Volltextstellen sind automatisch ermittelte größere Textausschnitte aus dem Korpus, die vor allem für die Erfassung von Gebrauchsnuancen einer sprachlichen Einheit gewinnbringend ausgewertet werden. Volltextstellen liefern des Weiteren Informationen zur Einbettung in aktuelle Diskurse oder zum sozio-kulturellen Hintergrund.
automatisch (→ COSMAS II; Sketch Engine)
Die Stichwörter in „Kurzartikel temporaler PN-Einheiten“ (in „PREPCONonline temporal“ und in „PREPCONonline kontrastiv“) müssen das Kriterium einer autonomen Einheit erfüllen, d. h. dass sie als Zweiwort-Kombination wie ein Einzelwort (z. B. als Adverb oder Partikel) verwendet werden und nicht Teil einer Wortgruppe sind.
Die Belegzeilen dokumentieren diesen autonomen Gebrauch. Die Auswahl erfolgte per Hand auf der Basis automatisch erstellter KWICs.
Beispielhändisch-intellektuell (Datenbasis: KWICs)
Hier werden Präposition und Nomen als gesonderte Komponenten aufgeführt und mit den Einträgen in elexiko verlinkt. Eine solche Auszeichnung dient dazu, dass man später über die Komponenten auf die PREPCON-Einträge (temporal; kontrastiv) zugreifen und sie danach ordnen kann. Des Weiteren lassen sich Informationen zum Gebrauch der Wortkomponenten in elexiko nachschlagen.
Für bestimmte Wortzusammensetzungen gibt es keinen elexiko-Eintrag. In solchen Fällen wurden die Bestandteile des Nomens als Komponenten angesetzt.
Beispielhändisch-intellektuell
Mithilfe statistischer Berechnungen (sog. Kookkurrenzanalysen) lassen sich besondere Anziehungskräfte (Cluster) zwischen Wörtern und Wortgruppen im Korpus ermitteln. Das bedeutet, dass bestimmte sprachliche Einheiten überproportional häufig in der Umgebung des Suchobjekts vorkommen. Dieser „Wort-Magnetismus“ spiegelt sich in Partnerwort-Profilen, deren Auswertung mittlerweile zu den wichtigsten Werkzeugen in der Wörterbucharbeit gehören.
DENN: Die Partnerwort-Cluster lenken den Blick u. a. auf typische Bedeutungen oder Bewertungen, die Sprecher mit einem Wort oder einer Wortgruppe in bestimmten wiederkehrenden Situationen, Diskursen, Domänen usw. verbinden. Solche Profile enthalten auch stark verfestigte Verbindungen, wie Kollokationen oder Redewendungen, die zentrale sprachliche Bausteine (z. B. beim Fremdsprachenerwerb) darstellen.
Neben den Profil-Listen lassen sich in PREPCONonline zusätzlich die den Clustern zugrunde liegenden KWICs abrufen.
BeispielEs kann auch Resultate geben, die falsch oder gar unsinnig erscheinen (z.B. das Zeichen & im am Ende-Profil). Aber der Computer „konstatiert“ nur blind jedwede statistische Auffälligkeit. Die Beurteilung der Aussagekraft von Daten muss der Mensch treffen. Beispiele für inhaltliche Gruppierungen von Partnerwörtern findet man in PREPCONonline kontrastiv (s. Typische Satelliten)
automatisch (→ Kookkurrenzanalyse s. Belica 1995; CA in Sketch Engine)
Präposition-Nomen-Verbindungen gehören als verfestigte Zweiwort-Kombinationen genauso zum Wortschatz wie Einzelwörter. Gleichzeitig werden im Gebrauch häufig bestimmte Wörter oder Wortgruppen zwischen Präposition und Nomen hinzugefügt.
In der Fachsprache spricht man davon, dass ein Slot eröffnet wird, der mit lexikalischen Füllern besetzt wird: [P X N]. Dies geschieht ebenso wenig zufällig wie Partnerwörter-Magnetismus, sondern weil viele Sprachteilhaber diese Slots auf vergleichbare Art und Weise füllen. Solche Schablonen aus festen Wortbestandteilen und Slots werden (semi-abstrakte) Muster genannt.
Neben internen Mustern gibt es auch direkt vor und nach der PN musterhafte Auffälligkeiten, die sich in externen Mustern bündeln. Derartige wiederkehrende Muster dienen dazu, bestimmte Aspekte des PN-Gebrauchs noch mehr zu betonen, Teilbedeutungen oder bestimmte Gebrauchsaspekte wie Bewertungen zu konkretisieren. Oft führen solche Erweiterungen aber auch zu neuen Verbindungen.
Als Datenbasis fungieren lexpan-Lückenfüllertabellen.
BeispielEs kann auch Resultate geben, die falsch oder gar unsinnig erscheinen (bei am X Ende z.B. solche internen X-Füller wie Sonntag zu / Freitag zu). Der Computer hat nur blind gezählt, welche Wörter wie oft in X vorkommen. Die Beurteilung, dass es sich hierbei nicht um eine Musterfüllung der PN am Ende handelt, sondern um eine andere Konstruktion, nämlich ging am Sonntag/Freitag zu Ende, kann nur der Mensch treffen. Beispiele für inhaltlichen Gruppierungen von Füllern findet man in PREPCONonline kontrastiv (s. Lexikalische Erweiterungen)
automatisch (→ lexpan: Lexical Pattern Analyzer)
Belege sind vom Lexikografen ausgewählte Textabschnitte auf der Basis von automatisch ermittelten Volltextstellen. Diese Auswahl ist eine herausfordernde Tätigkeit, da in der oft riesigen Anzahl automatischer Volltextstellen diejenigen Belege gefunden werden müssen, die die jeweiligen Gebrauchsaspekte treffsicher und anschaulich illustrieren. Diese Arbeit kann ein Computer nicht leisten.
Beispielhändisch-intellektuell (Datenbasis: Volltextstellen)
Autonome PNs zeichnen sich dadurch aus, dass sie wie ein Einzelwort (Adverb, Partikel) – als Satzglied – verwendet werden. Diese Angabe dokumentiert gebrauchsverwandte Wörter von temporalen PN-Einheiten (in einer Pilotstudie für die Präpositionen am und ohne „Kurzartikel“ in „PREPCONonline temporal“).
Die verwandten Wörter werden mithilfe einer Partnerwörterdatenbank (Kookkurrenzdatenbank) (CCDB s. Belica 2001) ermittelt, indem auf der Basis eines angesetzten Synonyms verwandte Wörter gesucht werden. Dafür wird das Feature „Semantische Nähen“ eingesetzt.
Des Weiteren erfolgt eine Verlinkung mit den jeweiligen Einträgen in elexiko. In vielen Fällen bietet elexiko einen Link zum Kookkurrenzprofil in der CCDB an. Es ist aber auch möglich, diese Kookkurrenzen direkt in der CCDB aufzurufen und mit jenen in „PREPCONonline temporal“ zu vergleichen.
Diese Querverbindungen dienen dazu, aufzuzeigen, in welchen Aspekten die PNs mit verwandten Wörtern synonym sind, wo es aber auch Gebrauchsunterschiede gibt.
Dieses Feature wird in Zukunft schrittweise für alle Einträge umgesetzt.
Beispielhändisch-intellektuell (Datenbasis: CCDB: Topographic Profile)
Die Kernbedeutung ist eine Abstraktion über Teilbedeutungen einer PN. Sie muss also in allen Vorkommen im Korpus einsetzbar sein. Aufgrund des „Wortstatus“ der PNs wird die Kernbedeutung mit einem Einwortäquivalent beschrieben, z. B. nach Belieben = ‚ungehindert‘.
händisch-intellektuell (Datenbasis: KWICs)
Gebrauchsaspekte umfassen sowohl Teilbedeutungen als auch Aspekte des typischen Gebrauchs. Es wird erklärt, was Sprecher neben der eigentlichen Bedeutung einer PN in bestimmten Zusammenhängen im Korpus noch ausdrücken z.B. Bewertungen, ob es auffällige Häufungen in bestimmten Textsorten oder Domänen gibt usw. Zur Illustration der einzelnen Gebrauchsaspekte werden typische Satelliten und Volltextbelege aufgeführt.
Gebrauchsaspekte sind die zentralen Angaben in „PREPCONonline kontrastiv“ und zwar in der Ausgangssprache Deutsch und den Kontrastsprachen Spanisch und Slowakisch.
Beispielhändisch-intellektuell (Datenbasis: Volltextstellen)
Als Satelliten werden nach bestimmten inhaltlichen Kriterien zusammengefasste Felder von Partnerwörtern bezeichnet. In „PREPCONonline kontrastiv“ findet man für die Ausgangssprache Deutsch und die Kontrastsprachen Spanisch und Slowakisch verbale Satellitenfelder unabhängig von Gebrauchsaspekten. Darüber hinaus werden typische Partnerwörter für die einzelnen Gebrauchsaspekte in Feldern zusammengefasst. Diese sind in der Regel nach Wortarten unterteilt. Es gibt aber auch Fälle, in denen keine Wortartenunterscheidung vorgenommen wurde.
Zu allen Satellitenfeldern können zum besseren Verständnis KWICs abgerufen werden.
Beispielhändisch-intellektuell (Datenbasis: Kookkurrenzprofile; Sortierung mit lexpan)
Bei dieser Angabe werden für die Ausgangssprache Deutsch und die Kontrastsprachen Spanisch und Slowakisch zum einen Erweiterungen aufgeführt, die selbst so häufig sind, dass sie eine eigenständige Wortverbindung darstellen. Zum anderen werden interne und externe Erweiterungen der PNs als Muster aufgeführt.
Der Unterschied zu Partnerwörtern ist, dass diese wie Satelliten um die PN „herumschweben“ und nicht unbedingt eng an die PN angedockt sein müssen (aus Sicht des Satzbaus, also syntaktisch). Muster hängen dagegen eng an der PN, sie sind quasi syntaktische Erweiterungen.
In dieser Angabe werden automatisch ermittelte Slotfüller inhaltlich gruppiert: nach Wortarten und in bestimmten Fälle nach semantischen Merkmalen.
Beispielhändisch-intellektuell (Datenbasis: lexpan-Lückenfüllertabellen)