Obersorbisches Textkorpus

Reguläre Ausdrücke

Obwohl das Obersorbische wie jede Sprache aus tausenden verschiedenen Wörtern besteht, findet man trotzdem eine Menge regulärer Wiederholungen. So enden alle Formen wie čitajće, chwatajće, dawajće auf ‑ajće. Es wäre nicht möglich, alle diese Formen im Korpus zu finden, wenn die Suche für jedes Verb gesondert durchgeführt werden müsste. In solchen Fällen sind reguläre Ausdrücke eine große Hilfe. Die Verwendung derselben wird in der folgenden Tabelle erklärt.

Ausdruck Kurzerklärung Bedeutung Beispiel findet (z. B.)
. Der Punkt ersetzt jedwedes Zeichen. irgendein Zeichen .uby luby, zuby, ruby
[] In eckigen Klammern wird eine Auswahl gesuchter Zeichen definiert, von denen eines gefunden werden muss. irgendeines der in ihnen einge­schlos­senen Zeichen [dTR]om dom, Tom, Rom
[-] In eckigen Klammern kann auch ein Intervall definiert werden. Dies geschieht mit Hilfe des Bindestrichs. Buchstaben- bzw. Zahlen­intervall [a-z] irgendeinen Buchstaben von a bis z (ohne diakritische Zeichen)
[a-zčćěłńóřšžź] jeden os. Buchstaben
[0-9] 0, 1, 2, 3, 4, 5, 6, 7, 8, 9
[j-m]už juž, kuž, luž, muž (falls solche Formen im Korpus existieren)
[^] Das Dach (Zirkumflex) schließt Zeichen aus, die in eckigen Klammern stehen. keines dieser Zeichen [^dl]uby zuby, ruby usw., aber nicht duby, luby
[^0-9] irgendein Zeichen, das keine Ziffer ist
(|) In einfachen Klammern steht eine Liste alternativer Ausdrücke oder Zeichen, die durch den senkrechten Strich voneinander getrennt sind. Alternativen (D|d)om Dom, dom
([Ss]|[Tt])am Sam, sam, Tam, tam
\ Der umgekehrte Schrägstrich (Backslash) vor Zeichen, die in regulären Ausdrücken eine spezielle Bedeutung haben (etwa ?*+()[]{}. und auch der Backslash selbst), bewirkt, dass diese Zeichen als normale Texteinheiten interpretiert werden. die spezielle Bedeutung eines Zeichens ignorieren \.\.\.\? ...?
awtor\*ki awtor*ki
[j\-m]už juž, -už, muž (falls solche Formen im Korpus existieren)
\\ das Backslash-Zeichen \
Der umgekehrte Schrägstrich (Backslash) vor manchen Zeichen, die in regulären Ausdrücken keine spezielle Bedeutung haben (etwa gewöhnliche Buchstaben oder Zahlen), bewirkt, dass diese Zeichen eine spezielle Bedeutung annehmen. dem Zeichen eine spezielle Bedeutung geben \d eine Ziffer (engl. „digit“)
0, 1, 2, 3, 4, 5, 6, 7, 8, 9
\D etwas außer einer Ziffer
\w einen Buchstaben von a bis z (engl. „word character“)
\W etwas außer einem Buchstaben von a bis z
\s ein Leerraumzeichen wie Leerzeichen, Tabulator oder Zeilenumbruch (engl. „white space“)
\S etwas außer einem Leerraumzeichen
Wiederholungen (Quantifikatoren)
? Das vor dem Fragezeichen stehende Zeichen kommt null- oder einmal vor. 0-mal oder 1-mal za? z, za
* Das vor dem Sternchen (Asterisk) stehende Zeichen kommt beliebig oft (auch nullmal) vor. 0-mal oder beliebig oft hm* h, hm, hmm, hmmm
+ Das vor dem Plus stehende Zeichen kommt mindestens einmal vor. 1-mal oder öfter hm+ hm, hmm, hmmm
{n} Die in geschweiften Klammern eingeschlossene Zahl n gibt an, wie oft der davorstehende Ausdruck oder das Zeichen vorkommen muss. n-mal dom.{2} domom, domoj, domčk
{m,n} Die in geschweiften Klammern eingeschlossenen und mit Komma getrennten Zahlen m und n geben an, wie oft der davorstehende Ausdruck oder das Zeichen mindestens vorkommen muss und höchstens vorkommen darf. m- bis n-mal .{3,7} jede Zeichenkette, die aus drei bis sieben Zeichen besteht, z. B. jedes Wort mit drei bis sieben Buchstaben
hm{2,4} hmm, hmmm, hmmmm

Noch ein Hinweis: Wenn eine Suchabfrage mit kleinen Buchstaben geschrieben wird, so werden Formen mit Großbuchstaben in der Regel nicht gefunden. Falls beispielsweise die Form „ten“ gesucht wird, werden „Ten“ oder „TEN“ nicht gefunden. Um diese Unterscheidung zwischen Groß- und Kleinschreibung zu ignorieren, kann vor die gesuchte Form „(?i)“ geschrieben werden. So findet „(?i)dom“ die Formen Dom, dom, DOM usw.

Einige Suchbeispiele

dom.*
findet alle Wörter, die mit dom- beginnen, z. B. dom, domašk, domoj, domowina usw.
dom[auy]*
findet dom, doma, domu, domy
dom[auy]+
findet doma, domu, domy
ru[kc][aieu]
findet ruka, ruki, ruce, ruku (aber auch: ruci, rucu usw.)
ru(ka|ki|ce|ku|komaj|kow)
findet ruka, ruki, ruce, ruku, rukomaj, rukow (aber nicht: ruk, rukom, rukam, rukami usw.)
.+ami.+
findet alle Wörter, bei denen in der Mitte (aber nicht am Anfang oder Ende) -ami- auftritt, z. B. ramik, dynamika, pyramida usw.
[zſ]a(s|ſſ|ß)o
findet zaso, ſaſſo, ſaßo (aber auch: zaſſo, zaßo, ſaso)
.*a[rŕ]ski
findet alle Wörter, die auf -arski oder -aŕski enden, z. B. pšosarski, pšosaŕski usw.
.*arskemu
findet alle Wörter, die auf -arskemu enden, z. B. wójarskemu, bergarskemu, pšosarskemu usw.
.*arske[hm][ou]
findet alle Wörter, die auf -arskeho, -arskemu, aber auch auf -arskehu, -arskemo enden
.*ow(eho|emu|oh|om)
findet alle Wörter, die auf -oweho, -owemu, -owoh, -owom enden