HomeWissenschaftUnterrichtÜbersetzungProjekteBlogSportMusikLinks
 

Ohne Klarheit in der Sprache ist der Mensch nur ein Gartenzwerg. Studie zur Textverständlichkeit romantischer russischsprachiger Literatur am Beispiel von Lermontovs Geroj našego vremeni und Puškins Kapitanskaja dočka

Einleitung

Kann man die Schwierigkeit von Texten mathematisch erforschen? Seit Jahrzehnten beschäftigen sich Wissenschafter aus mehreren Disziplinen (Linguisten, Literaturwissenschafter, Pädagogen, ...) mit dieser Frage. Dennoch ist die Textverständlichkeitsforschung auch innerhalb der oben genannten Disziplinen ein wenig in Vergessenheit geraten. Dabei gibt es einige interessante Ansätze und Methoden, wie man Textverständlichkeit berechnen kann.

Die meiste Forschung im Gebiet der Textverständlichkeit kommt aus dem angloamerikanischen Raum, es gibt aber auch nennenswerte Forschungen, die sich auch mit der deutschen, russischen und serbischen Sprache auseinandersetzen. Es wurden einige Formeln zur Berechnung der Textschwierigkeit entwickelt, die meisten von ihnen sind jedoch nur auf eine bestimmte Sprache bzw. bestimmte Sprachen anwendbar.

In dieser Arbeiten werden einige dieser Formeln sowie einige Textschwierigkeitsforschungen mit slawischen Sprachen vorgestellt. Anschließend wird versucht, geeignete Formeln auf Lermontovs \textit{Geroj na\v{s}ego vremeni} und Pu\v{s}kins \textit{Kapitanskaja do\v{c}ka} anzuwenden.

Allgemeines zur Textschwierigkeitsforschung

Was ist Lesbarkeit?

In den Literaturen über Textverständlichkeitsforschung erscheinen immer wieder gewisse Begriffe, die oft verwechselt werden: Textverständnis, Textverständlichkeit, Lesbarkeit, Textschwierigkeit. Diese Unklarheiten sollen hier beseitigt werden.

Textverständnis

Das Textverständnis bezieht sich darauf, wie verständlich ein Text ist. Nach Groeben (1982: 15) ist das Textverständnis eine Relation zwischen Text und Leser. Dabei unterscheidet Groeben hier zwischen den Begriffen Textverständnis und Textverständlichkeit. Ersterer bezeichnet die "`Anpassung des Lesers an den Text"'.

Textverständlichkeit

Auch der Begriff Textverständlichkeit ist als ein relationaler Begriff zu verstehen. Er "`bezeichnet ein Textmerkmal hinsichtlich einer Person, des Leser"', also die "`Anpassung des Textes an den Leser"' (Groeben 1982: 15, 148). Die Forschung, die sich ausschließlich mit der Erforschung der Verständlichkeit von Texten ohne Relation auf den Leser -- also nur mit der Oberflächenstruktur von Texten -- beschäftigt, nennt man Lesbarkeitsforschung. In der vorliegenden Analyse wird Lesbarkeitsforschung betrieben. Textverständlichkeit wird im Englischen als \textit{reading ease} bezeichnet.

Lesbarkeit (readability/legibility)}

Im Englischen sowie im Russischen wird zwischen zwei Arten von Lesbarkeit unterschieden, \textit{legibility/\v{c}itaemost'} und \textit{readability/\v{c}itabel'nost}. Unter \textit{legibility/ \v{c}itaemost'} wird hauptsächlich die Form und das Layout eines Textes untersucht. Es handelt sich also bei legibility um einen Begriff der Typographie. Im Deutschen entpricht dieser Begriffe ungefähr der Leserlichkeit.

Der Begriff \textit{readability/\v{c}itabel'nost} untersucht die Struktur eines Textes.

Textschwierigkeit

Die Textschwierigkeit ist das Ergebnis aus den verschiedenen Textverständlichkeitsformeln. Dieses Ergebnis ist zumeist eine abstrakte Zahl. Nach einem vorgegebenen Schema können dadurch Texte in Relation bezüglich ihrer Schwierigkeit gesetzt werden.

Methoden der Textverständlichkeitsforschung

Seit den 20er-Jahren des 20. Jahrhunderts wird kontinuierlich an der Entwicklung von Formeln gearbeitet, die dazu dienen, die Verständlichkeit bzw. Schwierigkeit von Texten mathematisch zu berechnen. In den 80er-Jahren gab es bereits über 200 dieser Formeln und über 1000 Studien zum Thema der Textverständlichkeit (DuBay 2004: 2).

Im Folgenden werden einige der wichtigsten Formeln der Textschwierigkeitsberechnung vorgestellt.

Reading-Ease nach Flesch

Der Österreicher Rudolf Flesch war einer der Pioniere der Textverständlichkeitsforschung und war einer der Wegbereiter der Plain-English-Bewegung.

Nach erfolgreichem Jus-Studium in Österreich wanderte er in die USA aus, wo er an der New Yorker Columbia University seinen Doktor in Anglistik absolvierte. Von da an beschäftigte er sich intensiv mit der Entwicklung von Methoden und Formeln zur Bestimmung der Textschwierigkeit englischsprachiger Texte. Die Mehrheit seiner Publikationen beschäftigen sich mit Lesbarkeit, Einfachheit und Verstehbarkeit von Texten, was ein kleiner Auszug aus seiner Bibliographie verdeutlicht: \textit{How to Test Readability} (1951), \textit{How to Write Better} (1951), \textit{The Art of Plain Talk} (1946), \textit{The Art of Readable Writing} (1949), \textit{The ABC of Style: A Guide to Plain English} (1964), \textit{Rudolf Flesch on Business Communications: How to Say What You Mean in Plain English} (1972).

Das Kernstück der Forschung von Flesch ist die \textit{Flesch Reading Ease}-Formel (im Folgenden FRE genannt). Dafür sind zwei Faktoren ausschlaggebend, die mittlere Satzlänge (ASL) und die mittlere Anzahl der Silben pro Wort (ASW). Die ASL erhält man, indem man die Anzahl der Wörter durch die Anzahl der Sätze teilt, die ASW durch Division der Anzahl der Silben durch die Anzahl der Wörter.

\begin{center}\textbf{FRE = 206.835 - (1.015 * ASL) - (84.6 * ASW)}\end{center}

Die Ergebnisse dieser Formel sind Zahlen von 1-100, wobei eine höhere Zahl eine besserer Textverständlichkeit anzeigt. Die FRE gilt als verlässlich. Sie wurde jedoch nur für die englische Sprache entwickelt.

\begin{center} \begin{tabular}{|l|l|l|l|} \hline \textbf{Reading} + \textbf{Style} + \textbf{Estimated} + \textbf{Estimated Percent}\\ \textbf{Ease Score} + \textbf{Descritpion} + \textbf{Reading Grade} + \textbf{of U.S. Adults (1949)}\\ \hline 0 to 30: + Very Difficult + College graduate + 4.5\\ 30 to 40: + Difficult + 13th to 16th grade + 33\\ 50 to 60: + Fairly Difficult + 10 to 12 grade + 54\\ 60 to 70: + Standard + 8th and 9th grade + 83\\ 70 to 80: + Fairly Easy + 7th grade + 88\\ 80 to 90: + Easy + 6th grade + 91\\ 90 to 100: + Very Easy + 5th grade + 93\\ \hline \end{tabular}\end{center}

Anhand der FRE wurden viele andere Lesbarkeitsformeln abgewandelt, wie z.B. die \textit{New Reading Ease}-Formel (NRE) von Farr, Jenkins und Paterson. Für die NRE benötigt man die Anzahl der einsilbigen Wörter pro 100 Wörter (NOSW) und die mittlere Satzlänge in Wörtern (SL).

\begin{center}\textbf{NRE = 1.599 NOSW - 1.015 SL - 31.517}\end{center}

Reading-Ease nach Amstad

Eine weitere Formel, die von der FRE abgeleitet wurde und sich etabliert hat, ist die FRE für die deutsche Sprache von Amstad:

\begin{center} \textbf{$FRE^{ger}$ = 180 - ASL - ASW * 58.5} \end{center}

Die Abkürzungen der Faktoren sind dieselben wie in der FRE. Toni Amstad hat diese Formel in seiner Dissertation \textit{Wie verständlich sind unsere Zeitungen?} (1978) vorgestellt. Die Ergebnisse dieser Formel sind Zahlen von 1-100, wobei eine höhere Zahl eine besserer Textverständlichkeit anzeigt.

Index der objektiven Textschwierigkeit

Weniger bekannt ist der Index der objektiven Textschwierigkeit (R) nach Juhan Tuldava. Der Index der objektiven Textschwierigkeit hat "`\textit{eine Reihe potentieller Vorteile (insbesondere die Tatsache, dass er ohne sprachspezifische Konstanten auskommt)}"' (Grzybek 2010: 205). Daher kann diese Formel auf jede beliebige Sprache angewendet werden.

\begin{center}\textbf{R = \={i} * ln(\={j})} \end{center}

Die Faktoren sind hier die mittlere Wortlänge in Silben (\={i}) und die mittlere Satzlänge in Wörtern (\={j}). Die Ergebnisse liegen zwischen 5 und 7, wobei eine niedrigere Zahl eine bessere Textverständlichkeit anzeigt.

Wiener Sachtextformel

Eine weitere Formel, mit der man die Schwierigkeit von Texten berechnen kann, ist die Wiener Sachtextformel (WSTF). Entwickelt wurde sie von Richard Bamberger und Erich Vanecek. Die Wiener Sachtextformel gibt es in vier verschiedenen Varianten.

\hspace*{0.5cm} \textbf{WSTF = 0.1935 * MS + 0.1672 * SL + 0.1297 * IW - 0.0327 * ES - 0.875}

\hspace*{0.5cm} \textbf{WSTF = 0.2007 * MS + 0.1682 * SL + 0.1373 * IW - 2.779}

\hspace*{0.5cm} \textbf{WSTF = 0.2963 * MS + 0.1905 * SL - 1.1144}

\hspace*{0.5cm} \textbf{WSTF = 0.2656 * SL + 0.2744 * MS - 1.693}

Die benötigten Faktoren ist der Prozentanteil der Wörter mit drei oder mehr Silben (MS), die mittlere Satzlänge in der Anzahl der Wörter (SL), der Prozentanteil der Wörter mehr als sechs Buchstaben (IW) und der Prozentanteil der einsilbigen Wörter (ES). Diese Formeln gehen somit tiefer in die Textstruktur als die oben genannten.

Die Ergebnisse werden wie folgt kategorisiert (Vögtli-Bossart 2005: 14):

\begin{center} \begin{tabular}{|c|l|} \hline Wert + Textschwierigkeit\\ \hline 4 + sehr leichter Text (Anfang Lesealter)\\ 7-8 + mittlerer Bereich (Jugendliche, mittleres Leseniveau)\\ 10-12 + höheres Niveau eines Lesenden, Fokus Mittelstufe\\ 15 + ausserordentlich schwieriger Test (akademischer Text)\\ \hline \end{tabular}\end{center}

Lix-Lesbarkeitsindex nach Björnsson

Der Lix wurde 1968 vom schwedischen Pädagogikforscher Carl-Hugo Björnsson entwickelt. Lix verdient Beachtung, da er nicht nur mit der mittleren Satzlänge und der mittleren Wortlänge auskommt und so -- ebenso wie die Wiener Sachtextformel -- tiefer in die Textstruktur eindringt.

\begin{center}\textbf{Lix = SL + LW/GW * 100}\end{center}

Um den Lix zu berechnen, benötigt man die mittlere Satzlänge (SL) und die Anzahl der Wörter, die aus mehr als sechs Graphemen bestehen.

Die Ergebnisse sind Zahlen zwischen 20 und 70 (Klöster 2005: 37):

\begin{small}\begin{tabular}{|l|c|c|c|c|c|c|c|c|c|c|c|} \hline Textarten + KJL + + + + \multicolumn{2}{|c}{} Belletristik + \multicolumn{2}{|c}{} Sachliteratur + \multicolumn{3}{|c}{} Fachliteratur\\ \hline Lix + 20 + 25 + 30 + 35 + 40 + 45 + 50 + 55 + 60 + 65 + 70\\ \hline Textschwierigkeit + \multicolumn{3}{|c}{} sehr leicht + \multicolumn{2}{|c}{} leicht + \multicolumn{2}{|c}{} mittelschwer + \multicolumn{2}{|c}{} schwierig + \multicolumn{2}{|c}{} sehr schwierig\\ \hline \end{tabular}\end{small}

Forschungsvorhaben

Die Epoche der russischen Romantik ist vor allem durch zwei Autoren geprägt -- Aleksander Pu\v{s}kin und Michail Lermontov. Ihre Biographien weisen einige Gemeinsamkeiten auf: Beide waren Offiziere, beide widmeten ihr Leben und Schaffen der Liebe, beide starben sehr jung durch ein Duell.

In der vorliegenden Arbeit soll ein Vergleich in der Textschwierigkeit zwischen Pu\v{s}kins letztem Prosawerk \textit{Kapitanskaja do\v{c}ka} (1836) und Lermontovs einzigem vollständigen Prosawerk \textit{Geroj na\v{s}ego vremeni} (1840) vorgenommen werden.

Warum wurden nun diese beiden Werke ausgewählt? Beide Titel behandeln eine ähnliche Thematik (Offiziersleben, Liebe), wurden fast zur selben Zeit verfasst und zählen zu den bekanntesten und besten Werken der russischen Romantik. Der Schreibstil der beiden Autoren ist jedoch sehr verschieden. Beide Werke sind Prosa. In \textit{Geroj na\v{s}ego vremeni} wechselt im Laufe der Handlung die Textsorte von einem Roman zu einem Tagebuch. Unter der Annahme, dass ein Tagebuch für die meisten Menschen einfacher zu lesen ist, da der Indentifikationsfaktor des Lesers bei einer Ich-Erzählerperspektive höher ist, als bei einer neutralen Erzählerfigur, die zuvor in Erscheinung tritt, müsste in jenen Passagen auch die statistische Textschwierigkeit niedriger sein. In \textit{Kapitanskaja do\v{c}ka} erzählt der Hauptprotagonist aus der Ich-Erzählperspektive.

Die beiden Werke sollen kapitelweise mit verschiedenen Lesbarkeitsindices analysiert werden. Daran soll auch gezeigt werden, welche Lesbarkeitsformeln auf das Russische anwendbar sind und welche nicht. Es wurden vier der oben genannten Lesbarkeitsindices für die Analyse ausgewählt: Reading-Ease nach Flesch, Reading-Ease nach Amstad, Index der objektiven Textschwierigkeit nach Tuldava und Lix nach Björnsson (im Folgenden Flesch, Amstad, Tuldava und Lix genannt).

Technische Voraussetzungen

In diesem Kapitel soll erläutert werden, wie man das Material, welches man für die Umsetzung der geplanten Textschwierigkeitsforschung braucht, kommt.

Alle technischen Schritte werden unter Linux umgesetzt, und zwar mit der Ubuntu-Distribution 10.04 LTS, Codename \textit{Lucid Lynx}.

Primärtexte

Oftmals nimmt die Digitalisierung von Texten den größten Teil eines Forschungsvorhabens in jenen linguistischen Disziplinen, in denen Daten mittels eines Computers verarbeitet werden (z.B. Textschwierigkeitsforschung oder Korpuslinguistik) ein.

Der Vorteil der ausgewählten Texte liegt vor allem darin, dass es kein Copyright mehr auf sie gibt und daher frei publiziert werden können. Es gibt bereits viele digitale Onlinebibliotheken, in denen ganze Bücher verfügbar sind. Die vollständigen Texte für \textit{Kapitanskaja do\v{c}ka} und \textit{Geroj na\v{s}ego vremeni} wurden auf der Seite \underline{http://lib.ru} gefunden. \textit{lib.ru} gilt als verlässliche Quelle für Literaturen. Bücher mit abgelaufenem Copyright werden dort ungekürzt veröffentlicht.

Editor

Es existiert ein breites Spektrum an Zeichenkodierungen im IT-Bereich. Verwenden die untersuchten Sprachen einen anderen Zeichensatz, oder gar eine andere Schrift, als das Englische, treten mit großer Wahrscheinlichkeit früher oder später Probleme auf. Werden die Texte falsch kodiert, kann es unter Umständen zu Zeichensatzproblemen kommen, Zeichen werden als unleserliche Sonderzeichen oder Fragezeichen dargestellt.

Daher ist es wichtig, ein Programm zu verwenden, welches mit den verschiedenen Zeichensätzen umgehen kann. Nicht jeder Editor hat diese Funktion implementiert. Für die vorliegende Arbeit fiel die Wahl auf das Programm \textit{jEdit}. Dieses ist kostenlos im Internet unter \underline{http://jedit.org} verfügbar. Da es auf der Programmiersprache Java basiert, ist es plattformunabhängig, funktioniert also problemlos auf den gängigsten Betriebssystemen, wie Linux, Windows und Mac OS X.\\ jEdit ist ein Editor mit sehr großem Funktionsumfang. Es kann durch verschiedene Plugins erweitert werden. Im Menüpunkt \textit{File} gibt eine Option \textit{Reload with Encoding}, in dem man aus mehr als 160 Zeichensätzen auswählen kann.\\ Ein Plugin, welches für das Forschungsvorhaben sehr hilfreich ist, ist ein Befehlszeilenpromt. Dieses lässt sich einfach im Menüpunkt \textit{Plugins} nachinstallieren.

Scripts

Um aus den Primärtexten für die Textschwierigkeitsforschung relevante Informationen zu extrahieren, gibt es zwei Möglichkeiten: Man bringt sehr viel Geduld und Genauigkeit auf und zählt Sätze, Wörter und Silben der Texte, oder man arbeitet mit automatisierten Scripts. Die im Folgenden verwendeten Scripts wurden vom Lehrveranstaltungsvortragenden Peter Grzybek zur Verfügung gestellt. Diese Scripts wurden in der Programmiersprache Perl geschrieben und sind für mehrere Sprachen verfügbar, darunter auch für das Russische.

Perl

Damit die Scripts ausgeführt werden können, muss auf dem Computer Perl installiert sein. Auch Perl ist kostenlos im Internet verfügbar. Auf der Seite \underline{http://perl.org} kann man die aktuelle Version herunterladen (für Windows, Linux, Mac OS X).

Umsetzung

Im folgenden Kapitel wird die Umsetzung der geplanten Forschung dokumentiert.

Die Primärtexte von \textit{lib.ru} sind mit dem Zeichensatz KOI8-R codiert, ein Zeichensatz, der noch häufig im Internet für das Russische verwendet wird. Die vorhandenen Scripts funktionieren jedoch nur mit Texten mit Zeichensätzen der Gruppe \textit{windows}. Für die kyrillische Schrift ist der Zeichensatz \textit{windows-1251} geeignet. Die Texte werden in \textit{jEdit} kopiert und mit der Option \textit{Reload with Encoding} konvertiert und danach abgespeichert.

Die Textschwierigkeit der untersuchten Werke soll nach Kapiteln untersucht werden. Daher werden die Kapitel einzeln in txt-Dateien abgespeichert (siehe Tab.1).

\begin{center} \begin{small} \begin{tabular}{|l|l|} \hline \textit{\textbf{Geroj na\v{s}ego vremeni}} + \textbf{\textit{Kapitanskaja do\v{c}ka}} \\ \hline \textit{\textbf{Predislovie}} + \textit{Glava I - Ser\v{z}ant Gvardii}\\ \textit{\textbf{\v{C}ast' pervaja}} + \textit{Glava II - Vo\v{z}aty}\\ ... 1. \textit{Bela} + \textit{Glava III - Krepost'}\\ ... 2. \textit{Maksim Maksimy\v{c}} + \textit{Glava IV - Poedinok}\\ \textit{\textbf{\v{Z}urnal Pe\v{c}orina}} + \textit{Glava V - Ljubov'}\\ ... \textit{Predislovie} + \textit{Glava VI - Puga\v{c}ev\v{s}\v{c}ina}\\ ... 1. \textit{Taman'} + \textit{Glava VII - Pristup}\\ \textit{\textbf{\v{C}ast' vtoraja}} + \textit{Glava VIII - Nezvanyj gost}\\ ... 2. \textit{Knja\v{z}na meri} + \textit{Glava IX - Razluka}\\ ... 3. \textit{Fatalist} + \textit{Glava X - Osada goroda}\\ + \textit{Glava XI - Mjate\v{z}naja sloboda}\\ + \textit{Glava XII - Sirota}\\ + \textit{Glava XIII - Arest}\\ + \textit{Glava XIV - Sud}\\ + \textit{Prilo{z}enie}\\ \hline \end{tabular} \end{small} \begin{small}Tab.1 - Kapitelübersicht\end{small}\end{center}

Nun wird jedes Kapitel mit dem Script für Russisch untersucht. Zuerst muss das Plugin \textit{Console} aufgerufen werden. Dieses findet man unter Plugins > Console > Console. Dort gibt man folgenden Befehl in die Kommandozeile ein:

\begin{footnotesize}\texttt{>perl /\{scripts\}/sawol\_td.pl rus \%f}\end{footnotesize}

Mit diesem Befehl wird über \textit{Perl} das Script \textit{sawol\_td.pl} für die russische Sprache (Attribut: rus) auf das aktuelle Dokument (Attribut: \%f) angewendet.

Bestätigt man diese Eingabe mit der Enter-Taste, wird das Script ausgeführt. Es erscheint eine längere Ausgabe der Textanalyse. In erster Linie sind hier drei Informationen von Relevanz: Die Anzahl der Sätze, die Anzahl der Wörter und die Anzahl der Silben des jeweiligen Kapitels. Diese befinden sich im Abschnitt Textstatistik, der z.B. für die Einleitung zu \textit{Geroj na\v{s}ego vremeni} folgendermaßen aussieht:

\begin{footnotesize}\texttt{===== Es folgt Zusammenfassung der Textstatistik =====} \texttt{Anzahl der Saetze im Text: 23}\\ \texttt{ Anzahl der Woerter im Text: 395}\\ \texttt{ Anzahl der Silben im Text: 939}\\ \texttt{ Anzahl der Grapheme im Text: 2149} \texttt{=== Ende der Textstatistik ===}\end{footnotesize}

Alle ausgegebenen Statistik werden auch in einer Textdatei gespeichert, damit die Ergebnisse später bei Bedarf überprüft werden können und um potentielle\"a weiterführende Forschung zu erleichtern.

Analyse

Diese Werte aus den oben genannten Auswertungen werden in ein Spreadsheet-Programm übertragen. Hier wurde das Programm \textit{IBM Lotus Symphony} für Linux verwendet. In diesem Programm werden die mittlere Satzlänge (ASL), mittlere Wortlänge (AWL), Flesch, Amstad und Tuldava berechnet.

Die Berechnung des Lix erweist sich als schwieriger, da wir hierfür die Anzahl der Wörter, die aus mehr als sechs Graphemen bestehen, brauchen. Glücklicherweise bietet das Script \textit{sawol\_td.pl} auch eine Statistik über die Grapheme per Wort. Die Graphemstatistiken werden in das Statistikprogramm \textit{SPSS} übertragen. Mit der implementierten Frequenzanalyse wird pro Kapitel die Summe der Wörter mit mehr als sechs Graphemen gebildet.

\begin{center} \includegraphics{../forschung/auswertung_lermontov.pdf} % auswertung_lermontov.pdf: 0x0 pixel, 300dpi, 0.00x0.00 cm, bb= \begin{small}Tab.2a -- Auswertung Lermontov\end{small} \end{center} \begin{center} \includegraphics{../forschung/auswertung_puskin.pdf} % auswertung_lermontov.pdf: 0x0 pixel, 300dpi, 0.00x0.00 cm, bb= \begin{small}Tab.2b -- Auswertung Pu\v{s}kin\end{small} \end{center}

Die Ergebnisse, welche wir bis jetzt ermittelt haben, sind in den Tabellen 2a und 2b dargestellt. Bei näherer Betrachtung der Ergebnisse gibt es einige Faktoren, die auffallen. Manche Flesch-Werte sind negativ, obwohl eine Zahl zwischen 1 und 100 erwartet wird. Somit haben wir dasselbe Problem, welches bereits Mikk in seiner Studie \textit{Primenenie formul \v{c}itabel'nosti k russkomu tekstu} (1975) hatte, nachdem er die Flesch-Formel auf russische Texte angewendet hatte. Mikk ließ in seiner Studie die Minusse einfach weg. Hier sollen sie jedoch beibehalten werden. Der Flesch-Wert liegt in der vorliegenden Untersuchung zwischen -16,06 und 13,15.

\begin{center} \begin{tabular}{|c|c|c|c|c|} \hline + \textbf{Flesch} + \textbf{Amstad} + \textbf{Tuldava} + \textbf{Lix}\\ \hline schwer + 0 + 0 + 7 + 70\\ leicht + 100 + 100 + 5 + 20\\ \hline \end{tabular} \begin{small}Tab.3 -- Erwartete Ergebnisse\end{small} \end{center}

In Tabelle 3 sind die erwarteten Ergebnisse der vier Indices noch einmal zusammengefasst. Im Vergleich mit unseren Werten sehen wir, dass nur Amstad und Lix im erwarteten Bereich liegen. Auch bei Mikk sind die Tuldavawerte niedriger als 5. Flesch und Amstad sind jeweils für eine gewisse Sprache entwickelt worden, wodurch die abweichenden Ergebnisse nicht unerwartet sind. Tuldava und Lix kommen ohne sprachspezifische Konstanten aus.

\begin{center}\begin{small}\begin{tabular}{|l|r|r|r|r|} \hline + \textbf{Flesch} + \textbf{Amstad} + \textbf{Tuldava} + \textbf{Lix}\\ \hline min + -16,06 + 20,17 + 5,50 + 41,65\\ max + 13,15 + 41,67 + 7,10 + 54,42\\ range + 29,21 + 21,50 + 1,60 + 12,77\\ \hline \end{tabular} \end{small} \begin{small}Tab.4a -- Spanne Lermontov\end{small} \begin{small}\begin{tabular}{|l|r|r|r|r|} \hline + \textbf{Flesch} + \textbf{Amstad} + \textbf{Tuldava} + \textbf{Lix}\\ \hline min + -10,26 + 26,15 + 4,79 + 39,99 \\ max + 10,35 + 41,22 + 6,11 + 50,18\\ range + 20,61 + 15,07 + 1,31 + 10,19\\ \hline \end{tabular}\end{small} \begin{small}Tab.4b -- Spanne Pu\v{s}kin\end{small} \end{center}

Bei genauerer Betrachtung der Tabellen 4a und 4b ist bemerkenswert, dass die range bei Lermontov größer ist, als bei Pu\v{s}kin. Dies mag vor allem auch daran liegen, dass Lermontov mitten im Roman die Textsorte wechselt.

Die Kapitel \textit{1. Bela} und \textit{2. Maksim Maksimy\v{c}} bei Lermontov (Romanteil) scheinen nach Flesch, Amstad, Tuldava und Lix am leichtesten lesbar zu sein, die beiden Vorworte (\textit{Predislovie}) hingegen am schwierigsten. Die restlichen Kapitel, \textit{1. Taman'}, \textit{2. Knja\v{z}na meri} und \textit{3. Fatalist}, welche das Tagebuch Pe\v{c}orins darstellen, sind entgegen der Erwartung nach Flesch, Amstad, Tuldava und Lix schwieriger zu lesen als der Romanteil.

Laut Lix-Kategorisierung sind beide Werke leicht bis mittelschwer zu lesen. Da es sich bei beiden Werken um kein Sachbuch handelt, kann man den Schluss ziehen, dass sie in die Kategorie anspruchsvollere Belletristik fallen.

Aus diesen Beobachtungen lassen sich folgende Schlüsse ziehen:

\begin{itemize} \item Die Vorworte haben eine höhere Textschwierigkeit \item Lermontovs Tagebuchteil ist in der Textschwierigkeit schwieriger als sein Romanteil \item Pu\v{s}kin schreibt konstanter als Lermontov \item Flesch, Amstad, Tuldava und Lix sagen dasselbe über die Textschwierigkeit der beiden Roman aus \item Lermontov ist in der Textschwierigkeit nach Flesch, Amstad, Tuldava und Lix im Schnitt schwieriger als Pu\v{s}kin \end{itemize}

\begin{center} \includegraphics[width=300px]{../forschung/difficulty0.png} % difficulty0.png: 627x502 pixel, 72dpi, 22.12x17.71 cm, bb=0 0 627 502 Graph 1 -- Textschwierigkeit im Vergleich \end{center}

Die Ergebnisse des Lix regen zu einigen Überlegungen an. Das Russische ist eine stark flektierende Sprache. Durch die Flexionsendungen können Wörter durchaus länger werden. Auch werden das Hart- und Weichzeichen mitgerechnet. Dies heißt aber nicht automatisch, dass diese Wörter für russische Muttersprachler schwieriger zu lesen sind, bloß weil sie länger als sechs Grapheme sind. Eventuell müsste der Lix für das Russische neu geeicht werden, neu definiert werden, ab wann ein Wort lang ist. Hier wäre weiterführende Forschungsarbeit (eventuell in Zusammenhang mit der Korpuslinguistik) interessant und wünschenswert.

Da der Lix durch andere Faktoren berechnet wird, als die anderen drei Lesbarkeitsindices, wollen wir uns den Zusammenhang zwischen ihnen noch einmal genauer unter die Lupe nehmen.

\begin{center} \begin{tabular}{cc} \includegraphics[width=200px]{../forschung/lix_amstad.png} + \includegraphics[width=200px]{../forschung/lix_flesch.png} \\ Graph 2a + Graph 2b \end{tabular} \end{center} \begin{center} \begin{tabular}{cc} \includegraphics[width=200px]{../forschung/lix_tuldava.png} + \includegraphics[width=200px]{../forschung/lix_tuldavainvert.png} \\ Graph 2c + Graph 2d \end{tabular} \end{center}

Betrachtet man den Zusammenhang zwischen dem Lix und den anderen Lesbarkeitsindices in einem Streudiagramm (Graph 2a-d), lässt sich eine gewisse Kausalität ablesen (da Tuldava anders gerichtet ist als Flesch und Amstad, wurde der Wert durch die Formel \textbf{7 -- Tuldava} invertiert, hier als \textit{Tuldavainvert} bezeichnet).

Um genau zu bestimmen, inwiefern die vier Indices dasselbe aussagen, wird geprüft, wie die vier Indices miteinander korrelieren. Da auch der Lix anders gerichtet ist als Flesch und Amstad, wird dieser ebenfall invertiert (\textbf{50 -- Lix} = Lixinvert).

\begin{small}\begin{center} \begin{tabular}{|ll|llll|} \hline + + \textbf{Flesch} + \textbf{Amstad} + \textbf{Tuldavainvert} + \textbf{Lixinvert}\\ \hline Flesch + Pearson Correlation + 1,000 + ,993** + ,733** + ,947**\\ + Sig. (2-tailed) + + ,000 + ,000 + ,000\\ + N + 22,000 + 22 + 22 + 22\\ \hline Amstad + Pearson Correlation + ,993** + 1,000 + ,809**+ ,960**\\ + Sig. (2-tailed) + ,000 + + ,000 + ,000\\ + N + 22 + 22,000 + 22 + 22\\ \hline Tuldavainvert + Pearson Correlation + ,733** + ,809** + 1,000 + ,813**\\ + Sig. (2-tailed) + ,000 + ,000 + + ,000\\ + N + 22 + 22 + 22,000 + 22\\ \hline Lixinvert + Pearson Correlation + ,947**+ ,960**+ ,813** + 1,000\\ + Sig. (2-tailed) + ,000 + ,000 + ,000 + \\ + N + 22 + 22 + 22 + 22,000\\ \hline \end{tabular} \end{center}**. Correlation is significant at the 0.01 level (2-tailed).\end{small} \begin{center} \begin{center} Tab.5 -- Korrelationen\end{center}\end{center}

Tabelle 5 ist die Ausgabe der Korrelationsanalyse in SPSS. Wie hier zu sehen ist, sind alle Werte größer als 0,6. Dies besagt, dass die Indices in hohem Maße korrelieren und nicht zufällig dasselbe aussagen.

Zusammenfassung

In dieser Arbeit wurden Lermontovs \textit{Geroj na\v{s}ego vremeni} und Pu\v{s}kins \textit{Kapitanskaja do\v{c}ka}, zwei Standardwerke der russischen Romantik, hinsichtlich ihrer Textverständlichkeit analysiert und verglichen.

Vier verschiedene Formeln wurden zur statistischen Bestimmung der Textschwierigkeit angewendet, die Flesch-Reading-Ease, die Reading-Ease-Formel nach Amstad, der Index der objektiven Textschwierigkeit nach Tuldava und der Lix-Index von Björnsson. Die ersten beiden Formeln werden mit sprachspezifische Konstanten berechnet (Flesch für das Englische, Amstad für das Deutsche), die Formeln nach Tuldava und Björnsson sollten auf alle Sprachen anwendbar sein.

Es wurde untersucht, ob diese vier Formeln brauchbare Ergebnisse liefern, wenn man sie auf die russische Sprache anwendet. Es wurde bestätigt, dass alle Formeln die gleichen Ergebnisse zur Textschwierigkeit der beiden Werke liefern. Daran ist abzulesen, dass Pu\v{s}kins \textit{Kapitanskaja do\v{c}ka} schwieriger zu verstehen ist als Lermontovs \textit{Geroj na\v{s}ego vremeni}.

Zwar lieferten nicht alle Formeln die erwarteten Ergebnisse (Flesch, Tuldava), weswegen eventuell die Skalen für das Russische neu definiert werden müssen.

Alle vier Formeln korrelieren in hohem Maße. Dadurch lässt sich der Schluss ziehen, dass, wenn bloß eine der angewendeten Formeln auf das Russische anwendbar ist, alle anderen drei ebenfalls anwendbar sind.

Quellenverzeichnis

\footnotesize Berndt, A., Kleppin, K. (Hrsg.)(2010): \textit{Sprachlehrforschung: Theorie und Empirie. Festschrift für Rüdiger Grotjahn}. Frankfurt/M.: Lang. Betts, E. (1977): \textit{Readability: Linguistic Factors}.\\ $$http://www.eric.ed.gov/ERICWebPortal/contentdelivery/servlet/ERICServlet?accn o=ED141744$$ (24.04.2010). DuBay, W. (2004): \textit{The Principles of Readability}.\\ $$http://www.impact-information.com/impactinfo/readability02.pdf$$ (13.01.2010). DuBay, W. (2006): \textit{Unlocking Language}. \textit{The Classic Readability Studies}. BookSurge. DuBay, W. (2007): \textit{Smart Language}. \textit{Readers, Readability, and the Grading of Text}. Costa Mesa: Impact Information. Groeben, N. (1982): \textit{Leserpsychologie. Textverständnis -- Textverständlichkeit}. Münster: Aschendorff. Grzybek, P. (2003): "`Quantitative Aspekte slawischer Texte (am Beispiel von Pu\v{s}kins 'Evgenij Onegin')"', in: \textit{Wiener Slawistisches Jahrbuch, Bd. 48}; 21-36. Grzybek, P., Chlosta, C. (2010): "`Überlegungen zur empirischen Validierung von Sprichwörter-Dummies"', in: \textit{Sprachlehrforschung: Theorie und Empirie. Festschrift für Rüdiger Grotjahn}; 197-209. Köster, J. (2005): "`Wodurch wird ein Text schwierig? Ein Test für die Fachkonferenz"', in: Zeitschrift Deutschunterricht 5/05 (2005): \textit{Standards: Lesekompetenz}, 34-39. McLaughlin, H. (1969): "`SMOG Grading - A New Readability Formula"', in: \textit{Journal of Reading 12 (8)}; 639-646.\\ $$http://www.harrymclaughlin.com/SMOG\_Readability\_Formula\_G.\_Harry\_McLaugh lin\_(1969).pdf$$ (14.04.2010). Mikk, J. (1975): \textit{Primenenie formul \v{c}itabel'nosti k russkomu tekstu}. Shedadeh, C., Strother, J. (1994): \textit{The use of computerized readability formulas: Bane or blessing?}. $$www.stc.org/confproceed/1994/PDFs/PG225227.PDF$$ (14.04.2010). Trollinger, W., Kaestle, C. (1986): \textit{Difficulty of Text as a Factor in the History of Reading. Program Report 86-13}. \\ $$http://eric.ed.gov/ERICWebPortal/contentdelivery/servlet/ERICServlet?accno=ED 312625$$ (24.04.2010). Universität Wien (2003): \textit{Wiener Slawistisches Jahrbuch, Bd. 48}. Wien: Verlag der Österreichischen Akademie der Wissenschaften. Vögtli-Bossart, R., Bohren Magoni, U. (2005): \textit{Das SAM-Schema als Bewertungsinstrument für edukative Materialien}. $$www.lernundenter.com/interaktion/newsletters/SAM\_Dez\_05.doc$$ (01.06.2010). Zeitschrift Deutschunterricht 5/05 (2005): \textit{Standards: Lesekompetenz}. Braunschweig: Westermann.