Reguläre Ausdrücke
Obwohl das Obersorbische wie jede Sprache aus tausenden verschiedenen Wörtern besteht, findet man trotzdem eine Menge regulärer Wiederholungen. So enden alle Formen wie čitajće, chwatajće, dawajće auf ‑ajće. Es wäre nicht möglich, alle diese Formen im Korpus zu finden, wenn die Suche für jedes Verb gesondert durchgeführt werden müsste. In solchen Fällen sind reguläre Ausdrücke eine große Hilfe. Die Verwendung derselben wird in der folgenden Tabelle erklärt.
| Ausdruck | Kurzerklärung | Bedeutung | Beispiel | findet (z. B.) |
|---|---|---|---|---|
. |
Der Punkt ersetzt jedwedes Zeichen. | irgendein Zeichen | .uby |
luby, zuby, ruby… |
[ ] |
In eckigen Klammern wird eine Auswahl gesuchter Zeichen definiert, von denen eines gefunden werden muss. | irgendeines der in ihnen eingeschlossenen Zeichen | [dTR]om |
dom, Tom, Rom |
[ - ] |
In eckigen Klammern kann auch ein Intervall definiert werden. Dies geschieht mit Hilfe des Bindestrichs. | Buchstaben- bzw. Zahlenintervall | [a-z] |
irgendeinen Buchstaben von a bis z (ohne diakritische Zeichen) |
[a-zčćěłńóřšžź] |
jeden os. Buchstaben | |||
[0-9] |
0, 1, 2, 3, 4, 5, 6, 7, 8, 9 | |||
[j-m]už |
juž, kuž, luž, muž (falls solche Formen im Korpus existieren) | |||
[^ ] |
Das Dach (Zirkumflex) schließt Zeichen aus, die in eckigen Klammern stehen. | keines dieser Zeichen | [^dl]uby |
zuby, ruby usw., aber nicht duby, luby |
[^0-9] |
irgendein Zeichen, das keine Ziffer ist | |||
( | ) |
In einfachen Klammern steht eine Liste alternativer Ausdrücke oder Zeichen, die durch den senkrechten Strich voneinander getrennt sind. | Alternativen | (D|d)om |
Dom, dom |
([Ss]|[Tt])am |
Sam, sam, Tam, tam | |||
\ |
Der umgekehrte Schrägstrich (Backslash) vor Zeichen, die in regulären Ausdrücken eine spezielle Bedeutung haben (etwa ?*+()[]{}. und auch der Backslash selbst), bewirkt, dass diese Zeichen als normale Texteinheiten interpretiert werden. |
die spezielle Bedeutung eines Zeichens ignorieren | \.\.\.\? |
...? |
awtor\*ki |
awtor*ki | |||
[j\-m]už |
juž, -už, muž (falls solche Formen im Korpus existieren) | |||
\\ |
das Backslash-Zeichen \ | |||
| Der umgekehrte Schrägstrich (Backslash) vor manchen Zeichen, die in regulären Ausdrücken keine spezielle Bedeutung haben (etwa gewöhnliche Buchstaben oder Zahlen), bewirkt, dass diese Zeichen eine spezielle Bedeutung annehmen. | dem Zeichen eine spezielle Bedeutung geben | \d |
eine Ziffer (engl. „digit“)
0, 1, 2, 3, 4, 5, 6, 7, 8, 9 |
|
\D |
etwas außer einer Ziffer | |||
\w |
einen Buchstaben von a bis z (engl. „word character“) | |||
\W |
etwas außer einem Buchstaben von a bis z | |||
\s |
ein Leerraumzeichen wie Leerzeichen, Tabulator oder Zeilenumbruch (engl. „white space“) | |||
\S |
etwas außer einem Leerraumzeichen | |||
| Wiederholungen (Quantifikatoren) | ||||
? |
Das vor dem Fragezeichen stehende Zeichen kommt null- oder einmal vor. | 0-mal oder 1-mal | za? |
z, za |
* |
Das vor dem Sternchen (Asterisk) stehende Zeichen kommt beliebig oft (auch nullmal) vor. | 0-mal oder beliebig oft | hm* |
h, hm, hmm, hmmm… |
+ |
Das vor dem Plus stehende Zeichen kommt mindestens einmal vor. | 1-mal oder öfter | hm+ |
hm, hmm, hmmm… |
{n} |
Die in geschweiften Klammern eingeschlossene Zahl n gibt an, wie oft der davorstehende Ausdruck oder das Zeichen vorkommen muss. | n-mal | dom.{2} |
domom, domoj, domčk… |
{m,n} |
Die in geschweiften Klammern eingeschlossenen und mit Komma getrennten Zahlen m und n geben an, wie oft der davorstehende Ausdruck oder das Zeichen mindestens vorkommen muss und höchstens vorkommen darf. | m- bis n-mal | .{3,7} |
jede Zeichenkette, die aus drei bis sieben Zeichen besteht, z. B. jedes Wort mit drei bis sieben Buchstaben |
hm{2,4} |
hmm, hmmm, hmmmm | |||
Einige Suchbeispiele
dom.*- findet alle Wörter, die mit dom- beginnen, z. B. dom, domašk, domoj, domowina usw.
dom[auy]*- findet dom, doma, domu, domy
dom[auy]+- findet doma, domu, domy
ru[kc][aieu]- findet ruka, ruki, ruce, ruku (aber auch: ruci, rucu usw.)
ru(ka|ki|ce|ku|komaj|kow)- findet ruka, ruki, ruce, ruku, rukomaj, rukow (aber nicht: ruk, rukom, rukam, rukami usw.)
.+ami.+- findet alle Wörter, bei denen in der Mitte (aber nicht am Anfang oder Ende) -ami- auftritt, z. B. ramik, dynamika, pyramida usw.
[zſ]a(s|ſſ|ß)o- findet zaso, ſaſſo, ſaßo (aber auch: zaſſo, zaßo, ſaso)
.*a[rŕ]ski- findet alle Wörter, die auf -arski oder -aŕski enden, z. B. pšosarski, pšosaŕski usw.
.*arskemu- findet alle Wörter, die auf -arskemu enden, z. B. wójarskemu, bergarskemu, pšosarskemu usw.
.*arske[hm][ou]- findet alle Wörter, die auf -arskeho, -arskemu, aber auch auf -arskehu, -arskemo enden
.*ow(eho|emu|oh|om)- findet alle Wörter, die auf -oweho, -owemu, -owoh, -owom enden