Arabisch und Syrisch in UnicodeDie Zeichen für das Arabische und Syrische befinden sich in Unicode in acht verschiedenen Unicode-Blöcken. Neben den einzelnen Zeichen definiert der Unicode-Standard auch eine Reihe von Algorithmen zur korrekten Darstellung arabischer und syrischer Texte. Kodierte ZeichenDie wichtigsten Zeichen für das Arabische liegen im Unicodeblock Arabisch. Neben den Buchstaben des arabischen Alphabets, die in Umfang und Anordnung ISO 8859-6 entsprechen, befinden sich hier auch Ziffern, einige Satzzeichen, die sich stark von denen unterscheiden, die mit lateinischer Schrift verwendet werden, und Sonderzeichen. Auch wenn ein Buchstabe je nach Position im Wort verschiedene Darstellungsformen besitzt, enthält dieser Block nur jeweils ein Zeichen für alle Varianten. Das arabische Alphabet wird auch in anderen Sprachen verwendet, die es um einige weitere Zeichen ergänzen. So gibt es etwa im persischen Alphabet vier zusätzliche Buchstaben. Solche Buchstaben befinden sich zusammen mit Zeichen, die nicht mehr in Gebrauch sind, in den Blöcken Arabisch, Ergänzung und Arabisch, erweitert-A. Die beiden Blöcke Arabische Präsentationsformen-A und Arabische Präsentationsformen-B enthalten – vor allem für Kompatibilität mit anderen Standards – Darstellungsvarianten und Ligaturen. Der Unicodeblock Arabische mathematische alphanumerische Symbole schließlich enthält arabische Buchstaben für den Gebrauch in mathematischen Formeln. Die Buchstaben des syrischen Alphabets liegen im Unicodeblock Syrisch. Anders als für das Arabische gibt es hier keine Zeichen, die in verschiedenen Darstellungsformen mehrfach kodiert sind. Neben diesen Zeichen spielen die bidirektionalen Steuerzeichen und der breitenlose Verbinder bzw. Nichtverbinder in der digitalen arabischen und syrischen Typografie eine Rolle. SchreibrichtungArabisch und Syrisch wird von rechts nach links geschrieben, nur Zahlen – unabhängig von den verwendeten Ziffern – schreibt man von links nach rechts. Einige Satzzeichen, etwa Klammern, werden gespiegelt zur gewöhnlichen Variante dargestellt. Für die korrekte Darstellung sieht der Unicode-Standard wie für andere linksläufige Schriften den Unicode-Bidi-Algorithmus vor. Kontextabhängige BuchstabenformenJe nach Stellung im Wort kann ein arabischer Buchstabe in bis zu vier verschiedenen Darstellungsformen auftreten: Als isolierter Buchstabe (etwa in Zeichentabellen), als Buchstabe am Wortanfang, wo er sich mit dem folgenden Buchstaben links verbindet, am Ende eines Wortes, wo er sich mit dem vorhergehenden Buchstaben rechts verbindet, und in der Wortmitte, wo er mit beiden Nachbarn verbunden ist. Eine Schriftart muss also für ein einziges Zeichen bis zu vier verschiedene Glyphen bereithalten. Um die je nach Kontext korrekte Glyphe auszuwählen, wird der folgende Algorithmus verwendet: Dazu weist Unicode jedem Zeichen eine
Mit dieser Eigenschaft wird nach einem Regelwerk bestimmt, in welcher Form ein Zeichen dargestellt werden soll: Zeichen vom Typ Für Zeichen vom Typ Trifft keine der Regeln zu, so wird das Zeichen in der unverbundenen Form dargestellt. Dieser Algorithmus wird auch für die syrische Schrift verwendet, wobei für den syrischen Buchstaben Olaf spezielle zusätzliche Regeln gelten. Weitere Schriftsysteme, in denen dieser Algorithmus Anwendung findet, sind N’Ko, Mongolisch, Phagpa, Manichäisch und Psalter-Pahlavi. LigaturenEine weitere Besonderheit im Arabischen und Syrischen sind bestimmte Ligaturen, die sich im Aussehen deutlich von den zusammengesetzten Einzelbuchstaben unterscheiden, aus denen sie bestehen. Für die korrekte Darstellung der Ligaturen enthält der Unicode-Standard eine weitere Eigenschaft Weitere BesonderheitenEinige Zeichen erfordern eine besondere Darstellung, beispielsweise U+06DD, Ende einer Āya. Dieses Zeichen umschließt alle direkt folgenden Ziffern. Um ein Zeichen als Ziffer zu erkennen, können Computersysteme auf die allgemeine Kategorie des Zeichens zurückgreifen. Ähnliches gilt für die Zeichen an den Codepunkten U+0600 bis U+0603, die allgemeine Zahlen, Jahre, Fußnoten und Seitenzahlen unterstreichen. Im Syrischen gibt es das syrische Abkürzungszeichen (U+070F), das den Beginn einer Abkürzung anzeigt, die dann mit einer übergesetzten Linie mit einzelnen Punkten markiert werden soll. Das nebenstehende Beispiel zeigt die ersten vier Buchstaben des syrischen Alphabets, von denen die letzten drei vom syrischen Abkürzungszeichen überspannt werden. Quellen
|