PREPCON

Startseite Impressum Datenschutz

Sprachaneignung durch wiederkehrende Muster in Korpora
PREPCONonline

Gegenstand
Online-Präsentationsformat
Korpora, empirische Methoden und Daten

PREPCONonline: Module

PREPCONonline explorativ
PREPCONonline temporal
PREPCONonline kontrastiv

ANHANG: Kurze Infotexte

Korpora
Häufigkeit im Korpus (Frequenz)
KWICs (Keyword-in-Context: „Schlüsselwort im Kontext“)
Autonomie und Belegzeilen
Komponenten
Typische Partnerwörter (Kookkurrenz- profile)
Muster (Lückenfüller- tabellen)
Volltextbelege
Verwandte Wörter und Wortgruppen
Kernbedeutung
Gebrauchsaspekte
Typische Satelliten
Lexikalische Erweiterungen

PREPCON^online: Architektur, Methoden und Komponenten

1. Sprachaneignung durch wiederkehrende Muster in Korpora

Was tun wir in der Regel, wenn wir nach einem angemessenen Ausdruck suchen? Klassischerweise schlagen wir im Wörterbuch nach. Mehr und mehr nutzen wir heute aber auch die Ressourcen im Internet, seien es elektronische Wörterbücher wie Duden online oder dict.cc, automatische Übersetzungshilfen wie Google Übersetzer und DeepL oder Datenbanken mit übersetzten Texten wie Linguee.

Alle diese Quellen sind – vor allem wenn man sie kombiniert – durchaus sehr nützlich. Was sie aber nicht befriedigend leisten, sind gesicherte Aussagen über Typikalität auf der einen Seite und über die kleinen, aber feinen Unterschiede im Gebrauch eines Ausdrucks auf der anderen.

Sicherlich muss jemand, der beispielsweise beginnt, eine Fremdsprache zu lernen, noch nicht mit all diesen Feinheiten vertraut sein. Je höher sich die Sprachkompetenz aber entwickelt, desto mehr wächst das Bedürfnis, nicht nur Fehler zu vermeiden oder sich irgendwie verständlich auszudrücken, sondern nah am muttersprachlichen Gebrauch zu kommunizieren.

Das Maß des Verstehens dieses „gewissen Etwas“ macht einen kulturell angemessenen Sprachgebrauch aus. Hat man das Privileg, eine Fremdsprache in dem entsprechenden Land zu lernen oder zu vertiefen, erwirbt man solche Kontextsensibilität „by doing“. Man hört bestimmte Ausdrücke und Chunks immer wieder und kann sie irgendwann aufgrund der wiederkehrenden Situationen memorieren. Von außen gestaltet sich dieser Lernprozess jedoch ungleich schwieriger; und nicht immer können Lehrbücher und Wörterbücher diese Lücken füllen.

Korpora als elektronische Sammlungen von sprachlichen Massendaten simulieren wiederkehrende Kontextmuster in authentischer Sprache bis zu einem gewissen Grad (s. 4.1). Mithilfe quantitativer Auswertungen und statistischer Clusteringverfahren lassen sich neue Einsichten zu typischem Sprachgebrauch gewinnen. Typischer Sprachgebrauch manifestiert sich darin, dass viele Sprecher einer Sprachgemeinschaft verteilt über viele Texte und Zeitverläufe bestimmte sprachliche Einheiten auf dieselbe oder ähnliche Weise einsetzen.

Das neue Onlineformat PREPCON^online führt durch die Welt der Korpusdaten und zeigt, welchen Erklärungswert authentische Sprache, die von Experten aufbereitet ist, für die eigene sprachliche Kompetenz haben kann. Dieser Ansatz folgt der Überzeugung, dass vor allem auf einem gehobenen Kompetenzniveau reale Sprachausschnitte, die für einen Aspekt des Gebrauchs besonders typisch sind, möglichst unverfälscht abrufbar sein sollten, um Sprache, so wie sie wirklich verwendet wird, versteh- und anwendbar zu machen.

Fachhinweis:

Online-Einführung in die Korpuslinguistik mit Videos (Noah Bubenhofer)

2. PREPCON^online

2.1 Gegenstand

Nach der heftigen Explosion bot sich vor Ort ein Bild der totalen Zerstörung. (DeReKo: Berliner Zeitung, 19.05.2001, S. 7)

In Wien dürfen Uber-Fahrer nicht wie Taxis nach Belieben unterwegs Kunden aufnehmen und absetzen. (DeReKo: 07.12.2017)

Die Familie steht an Weihnachten hoch im Kurs. (DeReKo: Braunschweiger Zeitung, 08.12.2010)

Im Mittelpunkt von PREPCON^online steht ein in der Phraseologie bislang eher vernachlässigter Typ: Präposition-Nomen-Verbindungen mit rekurrenter Nullstelle (PNs) (nach Belieben, mit Genugtuung, nach Jahren). Wir betrachten diese Einheiten jedoch nicht aus der Perspektive grammatischer Regularitäten, sondern aus semantisch-holistischer Sicht. Viele dieser PNs sind durch Weglassen des Artikels oder Adjektivs vor dem Substantiv so verfestigt, dass sie als Präposition-Nomen-Kombinationen quasi wie ein Wort verwendet werden. Sie weisen zumeist schillernde Bedeutungen und Funktionen auf, was gerade für Fremdsprachenlerner eine große Barriere darstellt. Solche PNs müssen also als lexikalisierte, phraseologische Minimaleinheiten verstanden werden, die als Ganzes kognitiv verankert und dementsprechend auch als Lexeme zu lernen sind.

Gleichzeitig sind PNs in ein komplexes Netz von Kotextmustern eingebettet, die spezifische Gebrauchsaspekte und Restriktionen indizieren. Wir zeigen, dass korpusgesteuerte Clusteringverfahren und Auswertungen der lexikalischen Besetzung von Musterslots eine sehr feine Beschreibung des distinktiven Gebrauchs ermöglichen, letztlich mit dem Ziel, diese Einheiten kommunikativ adäquat in der Fremdsprache einsetzen zu können.

In PREPCON^online werden unterschiedliche PN-Typen mit unterschiedlichen Darstellungsformaten und Beschreibungstiefen aufbereitet und zwar sowohl mono- als auch trilingual.

2.2 Online-Präsentationsformat

PREPCON^online basiert auf langjährigen Forschungen des IDS-Vorhabens „Usuelle Wortverbindungen“ (UWV) (s. Steyer 2013) (s. Team) zu neuartigen datengeleiteten Präsentationsformen lexikalischer Strukturen. Als erste Pilotstudie entwickelte und publizierte das UWV-Projekt in den Nullerjahren so genannte „Wortverbindungsfelder“, in denen die Idee der Aufwertung authentischer Korpusdaten als Kern lexikografischer Artikel bereits exemplarisch getestet wurde (s. Steyer/Brunner 2009; Steyer 2020).

Dem Konzept eines modularen korpusgesteuerten Onlineformats liegt die Erkenntnis zugrunde, dass die lexikografische Erfassung von usuellen Wortverbindungen und von lexikalisch geprägten Mustern nicht nach einem fest gefügten Beschreibungsraster erfolgen kann, sondern dass nur eine datennahe und dynamisch-flexible Erfassung in unterschiedlichen Beschreibungstiefen der Komplexität dieser sprachlichen Phänomene gerecht wird. Datennah bedeutet, dass automatisch ermittelte Korpusausschnitte wie KWICs (s. 4.3), Kookkurrenzprofile (s. 4.6) und Lückenfüllertabellen (s. 4.7) ins Zentrum von lexikografischen Einträgen rücken. Der Nutzer soll in die Lage versetzt werden, anhand von linguistisch systematisierten und kommentierten, aber authentischen Sprachdaten Informationen zum usuellen Gebrauch abzuleiten.

Die ordnende Hand des Lexikografen bleibt jedoch unverzichtbar. Der Unterschied zu herkömmlichen lexikografischen Beschreibungen ist nur, dass die analytische Arbeit – wenn man so will – eher im Hintergrund abläuft, damit in großen Teilen implizit bleibt, und nicht (oder nur knapp) in Form von metasprachlichen Texten sichtbar wird. Eine solche Herangehensweise stellt insofern eine Herausforderung dar, als didaktisierte Zugänge zu entwickeln sind, die dem Nutzer diese neuen Formen der Aneignung sprachlichen Wissens überhaupt erst nahebringen (s. Steyer 2018, S. 256).

In PREPCON^online wird diese Vision erstmals für einen ganzen Wortschatzausschnitt umgesetzt und zwar für die Dokumentation des Gebrauchs von binären Präposition-Nomen-Verbindungen (PNs) des Deutschen.

Neben den (systematisierten) Korpusdaten in allen Modulen (s. 3.1; 3.2; 3.3) und den narrativen Beschreibungen in der kontrastiven Pilotstudie (s. 3.3) kommen den Informationstexten eine besondere Bedeutung zu. Sie sollen Nutzern den Erklärungswert der dokumentierten Korpusdaten als wichtigen heuristischen Zugang zu sprachlichem Wissen verdeutlichen. Diese Informationstexte sind auf zweifache Weise zugänglich:

kurze allgemeinverständliche Informationskästchen in den jeweiligen Angaben (als Infokästchen anklickbar)

Inhalt: kurzer Erklärungstext, Beispiel zum Aufklappen, Information zur Art des methodischen Zugangs (automatisch, händisch-intellektuell)

vertiefende, eher fachbezogene Hintergrundtexte in dieser Gesamtdokumentation

Das PREPCON^online–Design vereint drei korpusgesteuert erarbeitete Darstellungsformate:

vollautomatische Datenbank der häufigsten Präposition-Nomen-Verbindungen im Deutschen (PREPCON^online explorativ, s. 3.1)
semiautomatische Dokumentation der temporalen Präposition-Nomen-Verbindungen im Deutschen (PREPCON^online temporal, s. 3.2)
kontrastive, datengesteuerte Pilotstudie DEUTSCH – SPANISCH – SLOWAKISCH (PREPCON^online kontrastiv, s. 3.3)

„PREPCON^online“ ist über die PREPCON-Webseite, die UWV-Webseite sowie als Rubrik in OWID^plus abrufbar. Bei OWID^plus handelt es sich um „eine experimentelle Plattform für multilinguale lexikalisch-lexikografische Daten, für quantitative lexikalische Auswertungen und für interaktive lexikalische Anwendungen“.

An der Erarbeitung von PREPCON^online waren aus IDS-Sicht beteiligt (externe Beteiligte „PREPCON^online kontrastiv“ s. 3.3):

Kathrin Steyer:

Gesamtleitung
Gesamtkonzeption für Modularchitektur, methodisches Vorgehen, linguistischen PN-Ansatz/temporale PNs
Entwicklung der Online-Darstellungsformate
inhaltliche Auswahl temporaler PNs und Erarbeitung der Kurzartikel in „PREPCON^online temporal“ sowie der deutschen Artikel in „PREPCON^online kontrastiv“
Zusammenarbeit mit spanischen und slowakischen Partnern

Annelen Brunner:

Konzept, Entwicklung und Implementierung der PN-Datenbank in „PREPCON^online explorativ“
technische Umsetzung und Visualisierung aller Module
Entwicklung des Editors für sprachkontrastive Beschreibung
Entwicklung der Online-Darstellungsformate
Zusammenarbeit mit spanischen und slowakischen Partnern

Katrin Hein:

inhaltliche Auswahl temporaler PNs
Erarbeitung der Kurzartikel „PREPCON^online temporal“ sowie der deutschen Artikel in „PREPCON^online kontrastiv“
Zusammenarbeit mit spanischen und slowakischen Partnern

Beteiligte studentische Hilfskräfte in chronologischer Reihenfolge seit 2014:

Gerrit Kleiböhmer, Martin Schönen, Oxana Bogatyrenko, Teemu Arola, Maria Steinfeld (auch als wiss. Hilfskraft), Maryna Charniuk, Julia Steinke, Jacqueline Wolfgang

2.3 Korpora, empirische Methoden und Daten

PREPCON^online wurde ausnahmslos mithilfe sehr großer elektronischer Korpora erarbeitet – und zwar korpusgesteuert und bottom-up: für Deutsch mithilfe des virtuellen UWV-Korpus UWV11_2017 mit ca. 9 Mrd. Wortformen (ein Sample des W-Archivs des am Institut für Deutsche Sprache beheimateten Deutschen Referenzkorpus); für Spanisch und Slowakisch mithilfe der entsprechenden Webkorpora in Sketch Engine (s. 3.3).

Die empirische Ausgangsbasis für die linguistischen Untersuchungen und die gesamte Aufbereitung in den PREPCON-Modulen bildete eine von der UWV-Gruppe durchgeführte exhaustive Erhebung des Vorkommens von 80 deutschen Präpositionen mit ihren unmittelbar nachgestellten Nomina. Als Datenbasis diente hier zunächst das morphosyntaktisch annotierte Korpus TAGGED-T-gesamt (alle Korpora des Archivs TAGGED-T) (Release: DeReKo-2010-II) mit ca. 1,5 Milliarden Wörter. Es wurden COSMAS-II-Anfragen durchgeführt und zwar mit folgendem Suchmuster: Oberflächenform der jeweiligen Präposition (in Groß- und Kleinschreibung), unmittelbar gefolgt von der Kategorie NOMEN, z.B.

$ohne /+w1:1 MORPH(N nn)

Die durch diese Suchen ermittelten KWICs (Zufallsauswahl 100.000) wurden in einem Datenarchiv inventarisiert, z. B. alle KWICs des PN-Musters [ohne|Ohne + NOMEN].

Für die Auswertung der Daten kam dann der von der UWV-Gruppe entwickelte „Lexical Pattern Analyzer“ (lexpan) zum Einsatz. Lexpan ist ein einzelsprachenunabhängiges Analysewerkzeug zur explorativen Untersuchung von Festigkeit, Varianz, Slotbesetzungen und kontextuellen Einbettungsmustern syntagmatischer Strukturen. Das Tool ermöglicht, aus Korpora exportierte Daten in einer eigenen Arbeitsumgebung weiter zu bearbeiten, zu strukturieren und zu kommentieren sowie die Ergebnisse in gesonderten Dateien darzustellen.

Um die Vorkommenshäufigkeiten der N-Füller für die jeweiligen PN-Muster zu ermitteln, wurden die KWICs in lexpan exportiert, die N-Slots für jede Präposition quantitativ ausgewertet und als Lückenfüllertabellen (s. 4.7) mit KWICs und in Frequenzlisten inventarisiert, z. B. [ohne + N]:

Lückenfüller	Anzahl	Prozentanteil
Erfolg	1807	1,81
Probleme	1304	1,30
Grenzen	1195	1,20
Zweifel	1174	1,17
Niederlage	1160	1,16
Sieg	1056	1,06
Rücksicht	917	0,92
Grund	786	0,79
Altersbeschränkung	782	0,78

(Die Frequenz der Nomina wurde – wie oben erwähnt – im relativ kleinen DeReKo-Korpus TAGGED-T-gesamt ermittelt, in den nicht annotierten Korpora liegt sie um ein Vielfaches höher.)

Diese PN-Listen und das Korpusdatenarchiv bildeten dann die Basis für die weitere automatischen Verarbeitung (vor allem in „PREPCON^online explorativ“) und für quantitativ-qualitativen Beschreibungen in „PREPCON^online temporal“ und „PREPCON^online kontrastiv“. Die Anreicherung von PN-Ausschnitten mit Korpusdaten und Untersuchung einzelner PN-Exemplare basierten dann auf weitergehenden Analysen im nicht-annotierten UWV-Korpus. Den wichtigsten Zugang zu Bedeutung und Gebrauch autonomer deutscher PNs (temporal, kontrastiv) lieferten dabei Kookkurrenzprofile (s. 4.6) die mithilfe der u.a. in CII integrierten Kookkurrenzanalyse (vgl. Belica 1995) erhoben und dann mit lexpan aufbereitet, inhaltlich annotiert, gruppiert und visualisiert wurden (für die temporalen PNs wie ohne Unterlass rein automatisch; für die vier Beispiel-PNs in „PREPCON^online kontrastiv“ sowohl automatisch als auch qualitativ in Satellitenfeldern gruppiert (s. 4.12)). Für Spanisch und Slowakisch verarbeitete lexpan Daten aus Sketch Engine (v.a. Feature: collocation analysis). Bezüglich der PN-Einbettungsmuster kam die automatische lexpan-Slotanalyse zum Einsatz (s. 4.7) Auch hier diente das Tool sowohl für die automatische Aufbereitung und Visualisierung als auch als Annotationswerkzeug zur inhaltlichen Systematisierung und Gruppierung von Slot-Füllern (s. 4.13) in allen drei Sprachen.

3. PREPCON^online: Module

3.1 Modul 1: PREPCON^online explorativ

Die vollautomatische Datenbank „PREPCON^online explorativ“ erfüllt die Funktion einer exhaustiven Inventarisierung und Dokumentation eines Sprachausschnitts – und zwar von knapp 80.000 Präposition-Nomen-Verbindungen des Deutschen. Die Datenbank enthält sowohl PNs, die als Zweiwortverbindungen einen semantisch autonomen Status (s. 4.4) aufweisen und damit als lexikalisierte Einheiten, als usuelle Wortverbindungen, anzusehen sind (z.B. vor Ort, über Nacht, durch Zufall), als auch Kombinationen, die Komponenten anderer Konstruktionen sind, z.B. für Aufsehen sorgen; zu Gunsten von oder unter Führung des Internationalen Währungsfonds.

Zu den in die Datenbank aufgenommenen 68 Präpositionen sind alle Nomina abrufbar, die unmittelbar nachgestellt vorkommen. Parallel dazu ist es möglich, reziprok nach einem Nomen zu suchen und sich alle Präpositionen in unmittelbarer Voranstellung auflisten zu lassen. Diese Tabelle umfasst knapp 30.000 Nomina. Alle Angaben sind mit quantitativen Angaben und KWICs versehen.

PREPCON^online explorativ bietet nützliche Informationen zur Verbindbarkeit von Präpositionen und unmittelbar nachgestellten Nomina im Deutschen. Dies kann z.B. folgende Phänomene betreffen:

Bestimmte Präposition-Nomen-Kombinationen weisen als Ganzes eine auffallend hohe Frequenz auf. Die häufigsten sind:

ums Leben
48.663

seit Jahren
24.186

bis Ende
20.713

pro Jahr
20.471

per E-Mail
17.338
Bei bestimmten Nomina liegt ein überproportional hoher Anteil an wenigen Präpositionen vor. So werden bei den Vorkommen des Nomen Belieben nur die Präpositionen nach und ins unmittelbar vorangestellt, wobei nach Belieben eine präpositionale UWV darstellt, während ins Belieben eine Komponente der verbalen UWV ins Belieben stellen ist.
Bestimmte Präpositionen unterliegen starken Einschränkungen bezüglich ihres nachgestellten Nomens. Der Präposition wider wird beispielsweise in 61,64 % der Vorkommen das Nomen Erwarten und in 33,78 % das Nomen Willen nachgestellt; beide decken also 95,42 % aller wider+N-Vorkommen ab. Die PN wider Erwarten fungiert als adverbiale Einheit in der Bedeutung ‚unerwartet, unvorhergesehen‘; wider Willen ist die adjektivische Komponente eines NP-Musters [N {Heirat/Braut/Held/Revolutionär} wider Willen] in der Bedeutung ‚nicht gewollt, nicht intendiert‘.

Des Weiteren kann diese Datenbank genutzt werden, um interessante Teilinventare für die weitere linguistische Forschung zu generieren, z.B. von

semantisch autonomen Zweiworteinheiten z.B.
- modale PNs wie mit Bedacht; mit Bravour; ohne Schnörkel; ohne Umschweife
- Verbindungen mit Verschmelzungen als Kopf, die häufig formelhaft verwendet werden wie aufs Schärfste/aufs Heftigste; fürs Erste; fürs Auge; fürs Grobe

verfestigten Verbindungen, bei denen die PN eine Komponente darstellt z.B.
- idiomatische Verbindungen ans Licht kommen; ans Herz gehen; ans Messer liefern
- Verbal-Konstruktionen wie unter Beweis stellen; auf Widerstand stoßen
- andere Konstruktionen wie Hand aufs Herz; nach Lust und Laune; über Jahre hinweg; von Grund auf

In die Datenbank wurden Präposition-Nomen-Verbindungen mit Mindestvorkommenshäufigkeit von 5 aufgenommen. Verbindungen mit geringeren Frequenzen gingen in die Berechnung relativer Frequenzen ein, sind jedoch nicht Teil der Datenbank. Abrufbare Informationen zu jeder Präposition-Nomen-Verbindung sind:

absolute und relative Frequenz
Rang in der Frequenzliste
5 bis 25 automatisch selektierte KWIC-Zeilen

Da diese Datenbank auf den automatisch annotierten Texten in TAGGED-T-gesamt basiert, sind Fehler durch den TreeTagger (hier falsche Nomenzuordnung) nicht zu vermeiden. Die Datenbank wurde von systematisch falschen Einträgen bereinigt, die sich automatisch finden und entfernen ließen.

3.2 Modul 2: PREPCON^online temporal

Temporale Präposition-Nomen-Verbindungen wurden sowohl in Phraseologie und Lexikografie als auch Fremdsprachvermittlung bis dato eher vernachlässigt, da sie auf den ersten Blick eher unspektakulär erscheinen (im Gegensatz zu modalen PNs wie auf Augenhöhe oder ohne Umschweife). Gerade aus phraseologischer und phraseo-konstruktioneller Sicht sind sie aber sehr interessant, weil viele dieser temporalen PNs potenziell zu starker Lexikalisierung neigen und daher als holistische Entitäten zu verstehen und – aus fremdsprachendidaktischer Perspektive – zu lernen sind (z.B. über Nacht; nach Jahren; im Moment). Des Weiteren sind viele Kontexte, in denen temporale PNs verwendet werden, „pragmatisch aufgeladen“. Daher stellen sie eine nicht zu unterschätzende Barriere für Nicht-Muttersprachler dar.

Die Untersuchungen im PREPCON-Projekt haben gezeigt, dass sich Sprecher fast immer zur ausgedrückten Zeitdauer (so direkt oder indirekt dieser Bezug auch ist) positionieren: Etwas wird als zu kurz oder zu lang, zu früh oder zu spät, erwartet oder unerwartet, angemessen oder unangemessen empfunden. Diese Kontextuierungen spiegeln sich in den Kookkurrenzprofilen und Slot-Füllern der semiabstrakten Muster mannigfach wider. Derartige usualisierte Kontextmuster konnten bei einer ersten Pilotstudie lokaler PNs nicht im selben Maße festgestellt werden. Es ist zu vermuten, dass Sprecher ein viel größeres Bedürfnis haben, eine Zeitdimension als eine Raumausdehnung zu bewerten. Ein Grund könnte sein, dass Zeit weniger konkret wahrnehmbar ist als Raum und daher größerer Interpretationsbedarf besteht. Des Weiteren ist Zeit ein zentrales Konzept des westlichen Kulturkreises in der Gegenwart.

„PREPCON^online temporal" dokumentiert PNs in zwei Teilmodulen:

Empirisches Vorgehen und Daten

In einem ersten qualitativen Analyseschritt wurden die automatisch erstellten Ausgangslisten (auf der Basis der getaggten Korpora und gerankt nach Häufigkeit der Nomina, s. 2.3) manuell durchgesehen, um Kandidaten für temporale PNs auszuwählen. Das Hauptkriterium war der Zeitbezug, den das Nomen einer PN obligatorisch aufweisen musste. Zusätzlich wurden PNs ausgewählt, die als Ganzes eine temporale Bedeutung aufweisen, obwohl sie kein Zeit-Nomen enthalten, z.B. auf Knopfdruck. In einem zweiten qualitativen Analyseschritt erfolgte die Unterscheidung zwischen reinen Zeitangaben-PNs (z.B. an Weihnachten; gegen Mittag; im Gesamtjahr) und semantisch fixen, autonomen PN-Einheiten, die quasi wie Einzelwörter mit Bedeutungen und kommunikativen Funktionen und somit als usuelle Wortverbindungen fungieren (z.B. über Nacht; nach Jahren; im Moment).

Die Zeitangaben-PNs wurden dann wiederum automatisch aufbereitet (Frequenzen und KWIC-Auswahl durch Verlinkung mit der Datenbank in PREPCON^online explorativ). Dieses „Inventar temporaler Zeitangabe-PNs“ beinhaltet alle PNs zu Abschnitten am Tag, in der Woche, im Jahr usw. sowie mit Eigennamen wie Wochentage, Monate, Feiertage (903 Einträge).

Die ausgewählten semantisch autonomen PN-Einheiten (224) wurde in einem weiteren Schritt im nicht-annotierten UWV-Sample des W-Archivs von DeReKo in Groß- und Kleinschreibung gesucht und ihre Frequenzen, KWICs sowie Kookkurrenzprofile inventarisiert. Des Weiteren wurden lexpan-Lückenfüllertabellen für interne Erweiterungen (1-4 Leerstellen zwischen P und N) und externe Erweiterungen (1 Leerstelle vor P; zwei Leerstellen nach N) erstellt.

Diese automatisch erstellten Korpusdaten bilden den Grundstock für die zweite Komponente von PREPCON^online temporal, die Kurzartikel.

In den Kurzartikeln werden folgende quantitative Informationen aufgeführt:

Suchanfragen und Frequenzen (s. 4.2) (angereichert mit einer automatischen KWIC-Auswahl; s. 4.3)
Kookkurrenzprofile (angereichert mit einer automatischen KWIC-Auswahl für die 100 Kookkurrenzpartner) (s. 4.6)
Lückenfüllertabellen (angereichert mit einer automatischen KWIC-Auswahl für die 100 Füller) (s. 4.7)

Ergebnisse der qualitativen Analyse münden aktuell in folgende Angaben:

Stichwort und typische Belegzeilen, die den autonomen Gebrauch der PN als Zweiwortverbindung illustrieren (s. 4.4)
Komponenten (s. 4.5)
Typische Volltextbelege (s. 4.8)
Verwandte Wörter und Wortgruppen, die nach semantischen Kriterien herausgesucht (als Pilotstudie für die Präpositionen am und ohne) (s. 4.9)

Fachhinweis:

Steyer 2018 (Hg.); Steyer (2018); Steyer (2020) in Corpas Pastor & Colson (eds.) (2020); Steyer (2021 in print) in Mellado Blanco (ed.) (2021)

3.3 Modul 3: PREPCON^online kontrastiv

Bei „PREPCON^online kontrastiv“ handelt es sich um ein Kooperationsprojekt der UWV-Gruppe mit dem FRASESPAL-Projekt „Combinaciones fraseológicas del alemán de estructura [PREP. + SUST.]: patrones sintagmáticos, descripción lexicográfica y correspondencias en español“ (FFI2013-45769-P), drittmittelfinanziert durch das spanische Ministerium für Wirtschaft und Wettbewerbsfähigkeit (Leitung: Carmen Mellado Blanco; s. Team) und dem WICOL-Projekt (drittmittelfinanziert durch die Slowakische Forschungsagentur VEGA) der Universität der Heiligen Kyrill und Method Trnava (Leitung Peter Ďurčo; s. Team).

Mit der Anwendung des musterbasierten UWV-Modells auf andere Sprachen (Spanisch und Slowakisch) betritt das Projekt vor allem im Bereich der kontrastiven Phraseologie sowie in Bezug auf neue Darstellungsformen Neuland. Relevante Zielgruppen sind Deutschlerner auf mittlerem bis gehobenem Kompetenzniveau (B1 – C2), Deutschlehrende (Schule, Universität) sowie Übersetzer und professionelle Textproduzenten.

Im Mittelpunkt steht der korpusgesteuerte Vergleich von quantitativen Daten, Bedeutungs- und Gebrauchsaspekten sowie semi-abstrakten Mustern für die Sprachenpaare Deutsch – Spanisch und Deutsch – Slowakisch; ausgehend vom Deutschen. Beschrieben werden die PNs am Anfang; auf Anhieb; mit Genugtuung; nach Belieben und die prototypischen Äquivalente in Spanisch (al principio; de inmediato; con satisfacción; a su/... gusto) und Slowakisch (na začiatku; na prvý pokus; so zadosťučinením; podľa ľubovôle). Zur Problematik der Äquivalenzbestimmung und -beschreibung auf der Basis von Korpusdaten wird auf die umfassenden Publikationen der slowakischen und spanischen Projektpartner verwiesen (s.u.).

In diesem kontrastiven Format wird exemplarisch gezeigt, wie man Besonderheiten in einer Fremdsprache durch den Vergleich mit der eigenen Muttersprache mithilfe von authentischen Sprachdaten verstehen kann. Die Kontrastierung von Satellitenfeldern und Slotbesetzungen in Mustern ermöglicht eine sehr feine Beschreibung des distinktiven Gebrauchs in den drei Sprachen und differenziertere Einsichten in konvergente und divergente Phänomene, vor allem auf der pragmatisch-funktionalen Ebene.

Die neue Herangehensweise ist wie in PREPCON^online allgemein auch hier, dass die korpusgesteuert ermittelten Daten nicht nur als empirische Grundlage für die sprachvergleichende Beschreibung dienen, sondern wiederum selbst zu lexikografischen Angaben im Kontrast werden. „PREPCON^online kontrastiv“ ist als Pilotstudie zu verstehen, deren Vorgehensmodell für andere Korpusdaten und Sprachen anwendbar sein kann.

Empirisches Vorgehen und Daten

Die empirische Basis für Spanisch und Slowakisch in „PREPCON^online kontrastiv“ bildeten die Webkorpora esTenTen18 (ca. 17 Mrd. Wörter) bzw. skTenTen 11 (715 Mio. Wörter) in Sketch Engine; für Slowakisch des Weiteren das Slowakische Nationalkorpus (1,3 Mrd. Wortformen). Die Korpusvalidierung der prototypischen Äquivalenten erfolgte in Analogie zur Vorgehensweise mit COSMAS II mit dem Feature ‚Concordance‘ (Zeichenkettensuche). Die Ergebnisse ‚Häufigkeit‘ (s. 4.2) und ‚KWICs‘ (s. 4.3) sowie ‚Kookkurrenzprofile‘ (s. 4.6) (Features ‚Collocations‘; ‚Word Sketches‘) wurden inventarisiert und in lexpan importiert. Das einzelsprachenunabhängige UWV-Tool lexpan wurde dann für Spanisch und Slowakisch als zentrales Analyse- und Annotationswerkzeug eingesetzt (s. 2.3).

Die Startseite von „PREPCON^online kontrastiv“ bietet zwei Zugänge für die PN-Artikel an:

über die Buttons „Quantitative Daten“; „Gebrauchsaspekte“ (s. 4.11); „Lexikalische Erweiterungsmuster“ (s. 4.13)
über die Reiter mit den vier deutschen Artikelnamen

Der Nutzer wird immer erst auf den deutschen Artikel geführt und kann sich dann das jeweilige spanische oder slowakische Äquivalent hinzuschalten. Die Entscheidung, die Äquivalentartikel nur gemeinsam mit deutschen Ausgangsartikel anzuzeigen, ist der Tatsache geschuldet, dass dies die unilaterale Vorgehensweise mit der Ausgangssprache Deutsch bei der Erarbeitung der spanischen und slowakischen Artikel abbildet.

Der Kopf der Artikel in allen drei Sprachen ist identisch zu dem in „PREPCON^online temporal“:

Stichwort und typische Belegzeilen (s. 4.4)
Komponenten (Verlinkung zu elexiko, Diccionario de la lengua española, Slovníkový portál Jazykovedného ústavu Ľ. Štúra SAV) (s. 4.5)

Hinzu kommt die Angabe der jeweiligen Kernbedeutung bei allen PNs in den drei Sprachen (s. 4.10)

Im ersten Angabebereich ‚Quantitative Angaben‘ werden die automatisch erhobenen Daten in Analogie zu „PREPCON^online temporal“ für Deutsch, Spanisch, Slowakisch wie folgt aufgeführt:

Suchanfragen und Frequenzen (s. 4.2) (angereichert mit einer automatischen KWIC-Auswahl; s. 4.3)
Kookkurrenzprofile (in Deutsch mit einer automatischen KWIC-Auswahl für die ersten 100 Partnerwörter, in Spanisch und Slowakisch ohne KWICs, da ein Export von Konkordanzen von Kookkurrenzclustern in Sketch Engine nicht vorgesehen ist) (s. 4.6)
lexpan-Lückenfüllertabellen (angereichert mit einer automatischen KWIC-Auswahl für die 100 Füller) (s. 4.7)

Der kontrastive Angabebereich ‚Gebrauchsaspekte‘ (GAs) (s. 4.11) beschreibt Bedeutung und typische Verwendung der PNs im Vergleich (ausgehend vom Deutschen). Bei einer vorliegenden Konvergenz in Bezug auf einen Gebrauchsaspekt wird die deutsche Paraphrase auch in anderen Sprachen angeführt. Divergenzen (in Bezug auf den GA oder auf Teilaspekte) werden entsprechend kommentiert. Zur Illustration der jeweiligen GAs im Kontrast dienen inhaltlich gruppierte Satellitenfelder (s. 4.12) und Volltextbelege (s. 4.8).

Der kontrastive Angabebereich „Lexikalische Erweiterungen“ (s. 4.13) umfasst interne und externe lexikalische Erweiterungsmuster des jeweiligen PN-Kerns; sowohl verfestigte lexikalische Erweiterungsvarianten als auch semi-abstrakte Muster. Diese Muster werden in allen drei Sprachen zunächst unter einen Strukturknoten [X PN]; [P X N]; [PN X] gebündelt und dann weiter in Submustern nach Wortarten und semantischen Merkmalen der Füller gruppiert. Auch hier werden Konvergenzen und Divergenzen entsprechend dargestellt und kommentiert.

Konvergenzen und Divergenzen in den beiden letztgenannten Angabebereichen sind immer auch grafisch markiert

grünes Feld = konvergent in beiden Vergleichssprachen
grün schraffiertes Feld = in der Vergleichssprache in Teilaspekten oder mit abweichender Typik vorhanden
grau schraffiertes Feld = in der Vergleichssprache nicht vorhanden

Abgerundet wird dieses kontrastive Modul mit einer Rubrik „Weitere Gebrauchsaspekte ohne Bezug zum Deutschen“, in der Besonderheiten im spanischen und/oder slowakischen Korpusgebrauch der entsprechenden PN erklärt werden, die im Deutschen nicht oder nur marginal zu beobachten sind.

Fachhinweis

Zentrale Publikationen des gesamten Projekts: Steyer 2018 (Hg.) (Teil II: PREPCON. Präposition-Nomen-Verbindungen im Kontext. Ein Blick in die Projektwerkstatt); Ďurčo/Tabačeková (2019)

Publikation der UWV-Gruppe; Publikationen der FRASESPAL-Gruppe; Publikationen der WICOL-Gruppe

Zu Sketch Engine s. Quick Start Guide

ANHANG: Kurze Infotexte

4.1 Korpora

Korpora sind digitalisierte, maschinenlesbare Sammlungen authentischer Sprache, riesige Textdatenbanken also, die mithilfe automatischer Methoden durchsuchbar sind. Die Auswertung sprachlicher Massendaten verhilft zu einem sehr viel gesicherteren Urteil über typischen Sprachgebrauch als das mit der individuellen Sprachkompetenz auch nur annähernd möglich wäre.

Quantitative Auswertungen und statistische Clusteringverfahren führen zu neuen Einsichten darüber, auf welche Art und Weise viele Sprecher einer Sprachgemeinschaft verteilt über viele Texte und Zeitverläufe bestimmte sprachliche Einheiten auf dieselbe oder ähnliche Weise einsetzen.

Korpora sind – so groß sie auch sein mögen – trotzdem immer nur eine Stichprobe der Sprache. Man kann also nie sagen, dass ein sprachliches Phänomen nicht existiert, weil es im Korpus nicht nachweisbar war. Man kann sich aber, z.B. als Fremdsprachenlerner und -lehrer, an den Hinweisen einer Korpusanalyse zum Usus orientieren, z.B. zu besonders häufigen oder auch geringen Vorkommen sprachlicher Einheiten, zu verfestigten grammatischen Formen; zu aktuellen Bedeutungen, Situationsbezügen und Bewertungen oder zu Kombinationen zwischen Wörtern (Kollokationen) bzw. verfestigten Wendungen (Idiome, Sprichwörter usw.) u.v.a.m.

DeReKo; esTenTen; skTenTen; SNC

4.2 Häufigkeit im Korpus (Frequenz)

Frequenzen werden auf der Basis von Suchanfragen (queries) im Korpus berechnet. Dabei gibt es keine Häufigkeit in der Sprache an sich (z. B. die häufigsten PNs des Deutschen), sondern immer nur eine relative in Bezug auf die vorher formulierte Suchanfrage basierend auf der zu einem bestimmten Zeitpunkt ausgewählten Korpusbasis. Es geht also eher um Frequenzbereiche und Häufigkeitstrends bzw. -proportionen.

Die Suchfragen in PREPCON^online bedeuten:

$unter /+w1:1 Zeitdruck: Suche die Präposition unter in Groß- und Kleinschreibung unmittelbar gefolgt vom Nomen Zeitdruck (ohne Leerstelle)
unter /+w1:1 Zeitdruck: Suche die Präposition unter in Kleinschreibung unmittelbar gefolgt vom Nomen Zeitdruck (ohne Leerstelle)
Unter /+w1:1 Zeitdruck: Suche die Präposition unter in Großschreibung unmittelbar gefolgt vom Nomen Zeitdruck (ohne Leerstelle)

automatisch (→ COSMAS II; Sketch Engine)

4.3 KWICs (Keyword-in-Context: „Schlüsselwort im Kontext“)

Wenn man eine Zeichenkette (z.B. ein Wort oder eine Wortgruppe) im Korpus sucht, bekommt man in der Regel Zeilen (Konkordanzen) angezeigt, in denen das Suchobjekt vorkommt, ergänzt durch ein wenig Text davor und danach. Es handelt sich um Textschnipsel, die nicht immer grammatisch vollständige Sätze sein müssen. Anhand solcher Konkordanzen lassen sich jedoch bereits wichtige Hinweise gewinnen, in welchen Satzzusammenhängen eine sprachliche Einheit häufig verwendet wird (typische Kontextmuster), z.B. häufig eingebettet in wörtliche Rede; mit Modalverben oder Negationswörtern verbunden. Bei Wortgruppen kann man bspw. erkennen, wie fest oder variabel sie sind.

Volltextstellen sind automatisch ermittelte größere Textausschnitte aus dem Korpus, die vor allem für die Erfassung von Gebrauchsnuancen einer sprachlichen Einheit gewinnbringend ausgewertet werden. Volltextstellen liefern des Weiteren Informationen zur Einbettung in aktuelle Diskurse oder zum sozio-kulturellen Hintergrund.

automatisch (→ COSMAS II; Sketch Engine)

4.4 Autonomie und Belegzeilen

Die Stichwörter in „Kurzartikel temporaler PN-Einheiten“ (in „PREPCON^online temporal“ und in „PREPCON^online kontrastiv“) müssen das Kriterium einer autonomen Einheit erfüllen, d. h. dass sie als Zweiwort-Kombination wie ein Einzelwort (z. B. als Adverb oder Partikel) verwendet werden und nicht Teil einer Wortgruppe sind.

Die Belegzeilen dokumentieren diesen autonomen Gebrauch. Die Auswahl erfolgte per Hand auf der Basis automatisch erstellter KWICs.

Beispiel

händisch-intellektuell (Datenbasis: KWICs)

4.5 Komponenten

Hier werden Präposition und Nomen als gesonderte Komponenten aufgeführt und mit den Einträgen in elexiko verlinkt. Eine solche Auszeichnung dient dazu, dass man später über die Komponenten auf die PREPCON-Einträge (temporal; kontrastiv) zugreifen und sie danach ordnen kann. Des Weiteren lassen sich Informationen zum Gebrauch der Wortkomponenten in elexiko nachschlagen.

Für bestimmte Wortzusammensetzungen gibt es keinen elexiko-Eintrag. In solchen Fällen wurden die Bestandteile des Nomens als Komponenten angesetzt.

Beispiel

händisch-intellektuell

4.6 Typische Partnerwörter (Kookkurrenzprofile)

Mithilfe statistischer Berechnungen (sog. Kookkurrenzanalysen) lassen sich besondere Anziehungskräfte (Cluster) zwischen Wörtern und Wortgruppen im Korpus ermitteln. Das bedeutet, dass bestimmte sprachliche Einheiten überproportional häufig in der Umgebung des Suchobjekts vorkommen. Dieser „Wort-Magnetismus“ spiegelt sich in Partnerwort-Profilen, deren Auswertung mittlerweile zu den wichtigsten Werkzeugen in der Wörterbucharbeit gehören.

DENN: Die Partnerwort-Cluster lenken den Blick u. a. auf typische Bedeutungen oder Bewertungen, die Sprecher mit einem Wort oder einer Wortgruppe in bestimmten wiederkehrenden Situationen, Diskursen, Domänen usw. verbinden. Solche Profile enthalten auch stark verfestigte Verbindungen, wie Kollokationen oder Redewendungen, die zentrale sprachliche Bausteine (z. B. beim Fremdsprachenerwerb) darstellen.

Neben den Profil-Listen lassen sich in PREPCON^online zusätzlich die den Clustern zugrunde liegenden KWICs abrufen.

Beispiel

Es kann auch Resultate geben, die falsch oder gar unsinnig erscheinen (z.B. das Zeichen & im am Ende-Profil). Aber der Computer „konstatiert“ nur blind jedwede statistische Auffälligkeit. Die Beurteilung der Aussagekraft von Daten muss der Mensch treffen. Beispiele für inhaltliche Gruppierungen von Partnerwörtern findet man in PREPCON^online kontrastiv (s. Typische Satelliten)

automatisch (→ Kookkurrenzanalyse s. Belica 1995; CA in Sketch Engine)

4.7 Muster (Lückenfüllertabellen)

Präposition-Nomen-Verbindungen gehören als verfestigte Zweiwort-Kombinationen genauso zum Wortschatz wie Einzelwörter. Gleichzeitig werden im Gebrauch häufig bestimmte Wörter oder Wortgruppen zwischen Präposition und Nomen hinzugefügt.

In der Fachsprache spricht man davon, dass ein Slot eröffnet wird, der mit lexikalischen Füllern besetzt wird: [P X N]. Dies geschieht ebenso wenig zufällig wie Partnerwörter-Magnetismus, sondern weil viele Sprachteilhaber diese Slots auf vergleichbare Art und Weise füllen. Solche Schablonen aus festen Wortbestandteilen und Slots werden (semi-abstrakte) Muster genannt.

Neben internen Mustern gibt es auch direkt vor und nach der PN musterhafte Auffälligkeiten, die sich in externen Mustern bündeln. Derartige wiederkehrende Muster dienen dazu, bestimmte Aspekte des PN-Gebrauchs noch mehr zu betonen, Teilbedeutungen oder bestimmte Gebrauchsaspekte wie Bewertungen zu konkretisieren. Oft führen solche Erweiterungen aber auch zu neuen Verbindungen.

Als Datenbasis fungieren lexpan-Lückenfüllertabellen.

Beispiel

Es kann auch Resultate geben, die falsch oder gar unsinnig erscheinen (bei am X Ende z.B. solche internen X-Füller wie Sonntag zu / Freitag zu). Der Computer hat nur blind gezählt, welche Wörter wie oft in X vorkommen. Die Beurteilung, dass es sich hierbei nicht um eine Musterfüllung der PN am Ende handelt, sondern um eine andere Konstruktion, nämlich ging am Sonntag/Freitag zu Ende, kann nur der Mensch treffen. Beispiele für inhaltlichen Gruppierungen von Füllern findet man in PREPCON^online kontrastiv (s. Lexikalische Erweiterungen)

automatisch (→ lexpan: Lexical Pattern Analyzer)

4.8 Volltextbelege

Belege sind vom Lexikografen ausgewählte Textabschnitte auf der Basis von automatisch ermittelten Volltextstellen. Diese Auswahl ist eine herausfordernde Tätigkeit, da in der oft riesigen Anzahl automatischer Volltextstellen diejenigen Belege gefunden werden müssen, die die jeweiligen Gebrauchsaspekte treffsicher und anschaulich illustrieren. Diese Arbeit kann ein Computer nicht leisten.

Beispiel

händisch-intellektuell (Datenbasis: Volltextstellen)

4.9 Verwandte Wörter und Wortgruppen

Autonome PNs zeichnen sich dadurch aus, dass sie wie ein Einzelwort (Adverb, Partikel) – als Satzglied – verwendet werden. Diese Angabe dokumentiert gebrauchsverwandte Wörter von temporalen PN-Einheiten (in einer Pilotstudie für die Präpositionen am und ohne „Kurzartikel“ in „PREPCON^online temporal“).

Die verwandten Wörter werden mithilfe einer Partnerwörterdatenbank (Kookkurrenzdatenbank) (CCDB s. Belica 2001) ermittelt, indem auf der Basis eines angesetzten Synonyms verwandte Wörter gesucht werden. Dafür wird das Feature „Semantische Nähen“ eingesetzt.

Des Weiteren erfolgt eine Verlinkung mit den jeweiligen Einträgen in elexiko. In vielen Fällen bietet elexiko einen Link zum Kookkurrenzprofil in der CCDB an. Es ist aber auch möglich, diese Kookkurrenzen direkt in der CCDB aufzurufen und mit jenen in „PREPCON^online temporal“ zu vergleichen.

Diese Querverbindungen dienen dazu, aufzuzeigen, in welchen Aspekten die PNs mit verwandten Wörtern synonym sind, wo es aber auch Gebrauchsunterschiede gibt.

Dieses Feature wird in Zukunft schrittweise für alle Einträge umgesetzt.

Beispiel

händisch-intellektuell (Datenbasis: CCDB: Topographic Profile)

4.10 Kernbedeutung

Die Kernbedeutung ist eine Abstraktion über Teilbedeutungen einer PN. Sie muss also in allen Vorkommen im Korpus einsetzbar sein. Aufgrund des „Wortstatus“ der PNs wird die Kernbedeutung mit einem Einwortäquivalent beschrieben, z. B. nach Belieben = ‚ungehindert‘.

händisch-intellektuell (Datenbasis: KWICs)

4.11 Gebrauchsaspekte

Gebrauchsaspekte umfassen sowohl Teilbedeutungen als auch Aspekte des typischen Gebrauchs. Es wird erklärt, was Sprecher neben der eigentlichen Bedeutung einer PN in bestimmten Zusammenhängen im Korpus noch ausdrücken z.B. Bewertungen, ob es auffällige Häufungen in bestimmten Textsorten oder Domänen gibt usw. Zur Illustration der einzelnen Gebrauchsaspekte werden typische Satelliten und Volltextbelege aufgeführt.

Gebrauchsaspekte sind die zentralen Angaben in „PREPCON^online kontrastiv“ und zwar in der Ausgangssprache Deutsch und den Kontrastsprachen Spanisch und Slowakisch.

Beispiel

händisch-intellektuell (Datenbasis: Volltextstellen)

4.12 Typische Satelliten

Als Satelliten werden nach bestimmten inhaltlichen Kriterien zusammengefasste Felder von Partnerwörtern bezeichnet. In „PREPCON^online kontrastiv“ findet man für die Ausgangssprache Deutsch und die Kontrastsprachen Spanisch und Slowakisch verbale Satellitenfelder unabhängig von Gebrauchsaspekten. Darüber hinaus werden typische Partnerwörter für die einzelnen Gebrauchsaspekte in Feldern zusammengefasst. Diese sind in der Regel nach Wortarten unterteilt. Es gibt aber auch Fälle, in denen keine Wortartenunterscheidung vorgenommen wurde.

Zu allen Satellitenfeldern können zum besseren Verständnis KWICs abgerufen werden.

Beispiel

händisch-intellektuell (Datenbasis: Kookkurrenzprofile; Sortierung mit lexpan)

4.13 Lexikalische Erweiterungen

Bei dieser Angabe werden für die Ausgangssprache Deutsch und die Kontrastsprachen Spanisch und Slowakisch zum einen Erweiterungen aufgeführt, die selbst so häufig sind, dass sie eine eigenständige Wortverbindung darstellen. Zum anderen werden interne und externe Erweiterungen der PNs als Muster aufgeführt.

Der Unterschied zu Partnerwörtern ist, dass diese wie Satelliten um die PN „herumschweben“ und nicht unbedingt eng an die PN angedockt sein müssen (aus Sicht des Satzbaus, also syntaktisch). Muster hängen dagegen eng an der PN, sie sind quasi syntaktische Erweiterungen.

In dieser Angabe werden automatisch ermittelte Slotfüller inhaltlich gruppiert: nach Wortarten und in bestimmten Fälle nach semantischen Merkmalen.

Beispiel

händisch-intellektuell (Datenbasis: lexpan-Lückenfüllertabellen)

Akzeptieren

Diese Website verwendet Cookies. Durch die Nutzung dieser Webseite erklären Sie sich damit einverstanden, dass Cookies gesetzt werden. Datenschutzerklärung

ums Leben	48.663
seit Jahren	24.186
bis Ende	20.713
pro Jahr	20.471
per E-Mail	17.338

PREPCONonline: Architektur, Methoden und Komponenten

PREPCON^online: Architektur, Methoden und Komponenten