Christian Müller-Straten Anmerkungen zum Arbeiten mit Thesauri Im folgenden sollen einige Hinweise gegeben werden, die für das Arbeiten mit Baumstruktur-Thesauren unter Windows-Pro- grammen wie IMDAS-Pro gelten. Thesauri sind hierarchisch auf- gebaute Fachwortlisten, die, gegebenenfalls um Bildbeispiele, Hinweise, Verweise, Literatur und nicht zu verwendende Begriffe ergänzt, zur Eingabe und Suche bei der Dokumentation neben Wortlisten verwendet werden. Sie haben bei der EDV-Dokumentation wie Wortlisten die Aufgabe, gleiche Sachverhalte stets mit demselben Begriff abzu- bilden und suchen zu lassen. Welche Arten von Thesauri gibt es? In der neueren Diskussion werden zwei Formen von Thesauri unterschieden, nämlich monohierarchische und polyhierarchische Thesauri. Bei einem monohierarchischen Thesaurus hat ein zu verwendender Begriff („Deskriptor“) nur einen Oberbegriff, bei einem polyhierarchischem mehrere verschiedene, aus unter- schiedlichen Hierarchien stammende. In der Praxis existiert je- doch noch eine zusätzliche Form: die Auswahlliste monohierar- chischer Thesauri, welche den polyhierarchischen ersetzt. Ein Beispiel aus einem Ortsthesaurus: Nehmen wir an, in einer The- saurus-Datenbank befindet sich mehrfach der Ort „Dorfen“. In ei- nem monohierarchischen finden Sie ihn mehrfach, so z.B. unter dem Kreis Erding-Land. In einem polyhierarchischen finden Sie den direkten Aufweis zu mehreren Oberbegriffen wie Kreis Er- ding-Land, Kreis Ebersberg und Kreis Rosenheim, so daß Sie sich den richtigen Ort auswählen können. Dieselbe Auswahl ermöglicht jedoch auch die Auswahlliste bei monohierarchischen Thesauri, denn wenn Sie ein Wort in gleicher Schreibweise in mehreren hierarchischen Strukturen erfaßt haben, werden diese registriert und zur Auswahl vorgelegt. Insofern ist die polyhierar- chische Struktur von Thesauri kaum eine conditio sine qua non. Wie sollten Thesaurusinhalte aufgebaut sein? Um Thesauri sinnvoll einzusetzen, ist die Beachtung von Erstel- lungsregeln notwendig. Zunächst einmal gelten die Regeln der DIN 1463: Synonyme sollten möglichst umfassend erfaßt sein, aus ihnen sollte jedoch der Deskriptor ausgewählt und die Non- Deskriptoren als solche klar erkennbar aufgewiesen sein. Eine Nummer zur Identifikation des Deskriptors kann zusätzlich verge- ben werden. Auch Polyseme und Homonyne sollten gekenn- zeichnet werden (Mit diesen semantischen Begriffen sollte sich jeder, der mit Thesauri arbeitet, vertraut machen!). Man unter- scheidet somit folgende Begriffsarten: Oberbegriff, Unterbegriff, Deskriptor, Non-Deskriptor und verwandter Begriff. Zusätzlich sollte ein Thesaurus so aufgebaut sein, daß die Be- griffe im Singular angesetzt werden. Ein bei der britischen MBA begonnenen Projekt, Begriffe im Plural bzw. Singular und Plural gemischt anzusetzen, hat sich nicht bewährt. Pluralbildungen sollten nur bei den seltenen Pluraliatanta, also Begriffen, die aus- schließlich im Plural existieren, verwendet werden. Selbstver- ständlich sollten schwammige Begriffe, semantisch falsche Be- griffe oder höchst umstrittene Begriffe nicht zu Deskriptoren erklärt werden. Bei der Auswahl der Synonyme gilt die Regel, daß der Hochsprache der Vorzug zu geben ist, weiterhin der modernen Form der Hochsprache. Mundartliche Begriffe soll- ten nur dort angesetzt werden, wo ihnen eine ausschließlich re- gional vorkommende Realie entspricht und ein hochsprachlicher Begriff die Besonderheit dieser Realie nicht abdeckt. Bewährt hat sich in diesem Fall, den annähernden oder genauen Gültigkeits- raum in Klammern dahinter festzulegen. Übrigens: Auch Künstler mit Lebensdaten, Ziffernfolgen oder Formeln sind "Begriffe". Deutsche Sprache schwere Sprache Als besondere Probleme stellen sich hierbei die Rechtschreibre- form und die Frage der Kuppelung dar. Die Rechtschreibreform ist ja nicht als Ergebnis einer mittelfristigen Wandlung des Sprach- gebrauchs entstanden wie die bisherigen Duden-Veränderungen, sondern als behördliche Verordnung launiger Vereinfachungen der deutschen Sprache, um Kindern weniger Kopfarbeit abzuver- langen und ausländischen Zuwanderern das Erlernen von Deutsch leichter zu machen. Die Rechtschreibreform ist mittlerweile in vielen Punkten offiziell rückgängig gemacht worden, viele Verlage halten sich nicht an sie. Also bleiben wir zumindest als Fähnlein der sieben Aufrechten so lange wie möglich dabei, „Schiffahrt“ nur mit einem f zu schreiben. Wir will, kann das Neudeutsch der sog. Rechtschreibreform vor dem Import im alten Thesaurusbegriff selbsttätig abändern; solche Änderungen übertragen sich dann z.B. bei IMDAS- Pro in die einzelnen Datensätze hinein. Dies sollte v o r einem Import geschehen, Auch bei der Frage der Zusammensetzung von mehreren Hauptwörtern zu einem neuen Begriff, die schon Mark Twain zum Spott über Deutschland getrieben hatte, muß eine Regel gefun- den werden. Sonst „kuppelt“ der eine mit Bindestrich, der nächste nicht, und schon werden nicht alle Objekte in der Datenbank ge- funden. Bei unseren Thesauri gilt also die nachvollziehbare und selbständig wiederholbare Regel: Besteht bei einem zusammen- gesetzten Hauptwort ein Bestandteil aus mehr als zwei Silben, wird gekuppelt. Der Deskriptor lautet also nicht „Versicherungsvertreter“, sondern „Versicherungs-Vertreter“. Wie komme ich zu Thesauri? Zunächst ist eines grundsätzlich zu sagen: Kein vernünftiger Pro- grammanbieter dürfte die ausschließliche Verwendung eines The- saurus verpflichtend nahelegen. Oder andersherum ausgedrückt: Im Prinzip ist jedes Haus frei, sich für irgendeinen Thesaurus zu entscheiden. Zu bedenken ist jedoch: Wenn man in Richtung auf Datenaustausch und -abfrage denkt, vielleicht sogar eine landes- weite Datenbank hat oder anstrebt bzw. in Museumsverbünden arbeiten will, ist es auch notwendig, gemeinsam mit denselben Thesauri zu arbeiten. Zu den legalen Formen des Zuwachses an Thesauri gehört das Selbsterstellen, das Einlesen von Gratis- Thesauri und das Einlesen erworbener Thesauri. Raubkopieren ist auch hier verboten. Zu manchen Objektbereichen kann man selbst ganz schnell Thesauri eingeben, weil man hier nur eine geringe Wortzahl benötigt, wie z.B. bei einem Technikthesaurus innerhalb der Malerei. Wer hingegen als Restaurator einen Malereimate- rialthesaurus aufbauen will, wird es mit Hunderten von Begriffen, zu tun haben. Um hier nicht zuviel Zeit zu verlieren, wird man also danach Ausschau halten, solche Thesauri zu erwerben. Normdateien als Thesauri Gelegentlich ins Gespräch gebracht werden Schlagwortnormdatei (SND) und Personennormdatei (PND) der Deutschen Bibliothek. Diese sind für Bibliothekszwecke entwickelt worden, wachsen ständig weiter und beinhalten riesige Datenbestände. Grundsätz- lich ist diese Idee nicht abwegig, doch ist bislang noch kein Weg gefunden worden, diese gewaltigen Datenbestände verschlankt auf museale Zwecke zugänglich zu machen. Denn abgesehen von der Frage der Kompatibilität bedeuten riesige Datenmen- genextrem langsame Zugriffszeiten auf Begriffe; außerdem gibt es gerade im Bereich von Kunstmuseen vermutlich so viele Spezial- begriffe, daß damit die SND überfordert ist. Außerdem ist zu bedenken, daß die Kriterien der Aufnahme eines Begriffs in die SND eine völlig andere war als bei Museen! Da die PND jedoch die AKL-Daten des Saur-Verlags enthält, ist zu hoffen, daß in der Zukunft ein technischer und finanziell erträglicher Weg gefunden wird, Kunstmuseen diese Daten zur Verfügung zu stellen. Eingabe von Thesaurusbegriffen: in der Thesauruspflege oder von der Maske her? Von wenigen Ausnahmen abgesehen (Bibliothek), wird man zu- nächst Thesaurusbegriffe schaffen, um sie dann in Masken zu nutzen. Nur wenige Reste des Gesamtsprachschatzes eines The- saurus wird man nachträglich einfügen. Soweit die Theorie. In der Praxis gibt es aber immer noch Mitarbeiter, die ohne vorherige Erstellung eines hierarchischen Thesaurus arbeiten wollen und sich anschließend wundern, welchen insalada mista sie erzeugt haben. Hier hilft nur ständige Aufklärung oder ein Beschneiden der Rechte, weil das Anlegen von unstrukturierten Hilfsthesauri nicht der Sinn von Thesauri ist: Thesauri sind nun einmal keine Wortlisten. Verändern von Thesaurusbegriffen Wer immer ein EDV-Programm unter Windows mit Thesaurusbe- griffen betreibt, sollte auf zweierlei achten: 1. daß grundsätzlich Veränderungen am Thesaurusbestand in die entsprechenden Felder der existierenden Stammsätze hineingeschrieben werden (was dem „Suchen und Ersetzen“ der Textverarbeitung entspricht) und 2. daß dies nur Fachleute, also nicht jeder Anwender, tun kann. Solche Dinge müssen also über die Rechtevergabe gere- gelt sein. Dasselbe gilt für das Neueingeben von Thesaurusbe- griffen, Löschen oder Auslagern ganzer Thesaurusäste („strings“), Verschieben von Thesaurusbegriffen in andere Thesauri (z.B. von zwischengelagerten Begriffen in ein Thesaurus-Endlager). Menge und Ordnung der Thesauri Die Anlegung von Thesauri muß in unbegrenzter Menge möglich sein. Dasselbe gilt natürlich auch für Substrukturen. Verlangen darf man getrost auch eine hohe Zeichenzahl pro Thesaurusbe- griff. Doch wie sollen die Thesauri aufgebaut sein? Unlängst be- richtete ein Anwender, er habe ursprünglich einen politischen Ortsthesaurus aufbauen wollen, im Laufe der Zeit seien durch weitere Anwender allerdings auch geographische Begriffe (wie etwa „donauländisch“) hinzugekommen. Dies habe bei ihm gro- ßen Ärger ausgelöst, denn die Reinheit des Thesaurus sei dahin gewesen. Nachvollziehen läßt sich dies jedoch nur schwer, denn man muß sich doch immer fragen: Wozu das Ganze? Ebensowe- nig wie beim „Inventarisieren“ das Ziel die Eingabe ist (Pflichtvor- gaben pro Jahr verdrehen den Zusammenhang und beweisen, daß die Komplexität der wissenschaftlichen Dokumentation nicht begriffen wurde), sondern vielmehr die Abfrage unter konkreten museologischen Aufgabenstellungen, ist das Ziel der Thesaurus- erstellung nur bedingt die Reinheit des Thesaurus als solches (und der Hierarchieüberschrift schon gar nicht, man denke an den folgenreichen Umstand von Ortsteilen bei einem Ortsthesaurus), sondern die Übernahme genormter Begriffe in Eingabe oder Suchfelder. Bequeme Begriffsübernahme, Mehrfachbegriffe pro Feld, Freitextfelder Moderne Programme schaffen Einfügungen in Eingabefelder per Mausklicks oder drag and drop. Entscheidend ist dabei jedoch, daß sich zuvor nicht alle Thesauri öffnen, sondern nur der oder die gewünschten. Auch sollte wahlweise die Alphabetisierung des Thesaurus als Wortliste zur Verfügung stehen. Ganz wichtig auch, daß es die Programmierung erlauben muß, mehrere Begriffe in ein Eingabefeld zu übernehmen, z.B. um einen Ort näher einzu- grenzen oder eine historische Funktionsfolge zu dokumentieren. Thesauri können natürlich auch zur Eingabe in Freitextfelder be- nutzt werden. Suche nach Musealien mit bestimmten Thesaurusbegriffen Je mehr und größere Thesauri angelegt werden, desto stärker werden die Probleme „Wie finde ich einen Thesaurusbegriff“ und „Wie finde ich alle Objekte mit Unterbegriffen zu einem bestimm- ten Thesaurusbegriff“. Einen bestimmten Thesaurusbegriff findet man leicht in den entsprechenden Thesauri bzw. der alphabeti- sierten Liste eines Thesaurus, wenn die Thesauri selbst sorgfältig voneinander abgegrenzt und eindeutig bezeichnet aufgebaut wur- den. Alle verwendeten Unterbegriffe zu einem Deskriptor findet man bei besseren Programmen wie IMDAS-Pro mit der „Baumsu- che“, also alle Objekte aus der Oberpfalz. Durch weitere Zusätze kann das Suchergebnis noch eingeschränkt werden. Innerhalb der Thesaurusbaumstruktur findet man natürlich alle Unterbegriffe hierarchisch und alphabetisch geordnet. Multilinguale Thesauri Träumen darf man ja. Wir in Deutschland schaffen ja noch nicht einmal die Inventarisation der Museumsbestände in der von der Kultusministererkonferenz festgesetzten Menge und Zeit. Schon gar nicht in der notwendigen Qualität, Menge und Zeit, denn was nutzt es, wenn man unüberarbeitet Altdaten von 1870 übernimmt oder das Inventarisieren, wie unlängst in einer Veröffentlichung des Berliner Instituts für Museumskunde hervorgehoben, zu ei- nem gewaltigen Teil ehrenamtlichen Helfern oder Werkverträglern überläßt.* Dennoch läßt sich absehen, daß wegen zunehmender Vernet- zung und Ansprüche von Museen auch das Arbeiten mit multilin- gualen Thesauri in 5-15 Jahren kommen wird. Technisch ist das schon heute kein Problem, doch hapert es vielfach daran, daß – wie im Falle des Arts and Architectural Thesaurus (AAT) – die Wortbasis viel zu klein ist und bei der Erstellung so mancher in Zukunft auf uns zukommender multilingualer Thesauri eben nicht Fachleute, sondern Übersetzer am Werke waren. Und schließlich kommt ja auch hier noch dazu, daß in den Museen zur Kontrolle wiederum sprachkompetente Anwender sitzen müssen, bereits große Datenmengen erfaßt worden sein sollten und diese für den Kontakt nach draußen, zu anderen Museen und unbekannten An- fragern hin, geöffnet sind. Und da kann es passieren, daß eben nicht das Fachwort, auf das der Wissenschaftler so großen Wert legt, interessiert, sondern ein Begriff der Kunsthandels- oder Um- gangssprache, der dann auch noch, sozusagen auf mehreren Ebenen, multilingual angeboten werden müßte. * Staatliche Museen zu Berlin – Preußischer Kulturbesitz/Institut für Mu- seumskunde, Materialien aus dem Institut für Museumskunde Nr. 52, Statistische Gesamterhebung an den Museen der Bundesrepublik Deutschland für das Jahr 1998, S. 69: 2872 Museen (von 5376) machten überhaupt nur Angaben zu den Personen der EDV-Inventarisation. 1675 Museen erledigten dies durch eigene Kräfte. Ohne die Qualifikati- on von externen Kräften grundsätzlich als geringer einzustufen: in 1036 Museen (Mehrfachnennungen waren möglich) kamen die Inventarisierer aus AB-Maßnahmen bzw. waren Werkverträgler oder ehrenamtliche Helfer. Qualitätsfördernd ist dies grosso modo jedoch nicht. (aus: MUSEUM AKTUELL, März 2000)