qad_doc2xml - Tutorial 3: Konvertierung eines Word-Dokuments in XML/TEI

 

Vorlagedateien

Download der Vorlagedateien: files_tutorial3.zip (24k)


Word-Dokument

Bei dem Word-Dokument handelt es sich um ein mit Formatvorlagen ausgezeichnetes Drama Lessings (bzw. einem Ausschnitt):

Folgende Auszeichnung wurden verwendet:

Word Formatvorlage
Beschreibung
Beispiel
gewünschtes TEI-Tag(s)
Überschrift 1
Akt (Name)
"Erster Aufzug"
<div1 type="act"><head>...</head></div1>
Überschrift 2
Szene (Name/Nr)
"Erster Auftritt"
<div2 type="scene"><head>...</head></div1>
BAnweisung
Bühnenanweisung
"Die Szene, ein Kabinett des Prinzen"
<stage type="setting">...</stage>
Auftritt
Regieanweisung
"Conti. Der Prinz"
<stage type="persons">...</stage>
Standard
Personenrede
"Prinz, die Kunst geht nach Brot."
<l>...</l>
Person_Prinz
Person
"DER PRINZ."
<sp><speaker>DER PRINZ
</speaker><l>...</l></sp>
alle weitere Personen:
Person_XY
Person
"XY"
<sp><speaker>XY
</speaker><l>...</l></sp>

Zusätzlich wurden Regieanweisungen im Word-Dokument kursiv ausgezeichnet. Diese sollen in <stage>..</stage> Tags konvertiert werden.

Die Vorlagedateien können Sie hier downladen: files_tutorial3.zip (24k)


qad_doc2xml

Starten Sie qad_doc2xml (Wichtig: Bevor Sie qad_doc2xml starten, müssen Sie Word schließen, sonst erhalten Sie eine Fehlermeldung ) und wählen Sie das zu konvertierende Word-Dokument (Emilia_Galotti.doc) aus. Das Dokument wird analysiert und alle verwendeten Word-Absatzformatvorlagen (Paragraph-Styles) angezeigt.

Hinweis: Wenn Sie die Konvertierungsregeln nicht selbst eingeben möchten, klicken Sie auf die Schaltfläche "Load Ruleset" und laden Sie dann die Datei "rules_galotti.rul".


Zieldatei wählen

Geben Sie den Namen der Zieldatei an, z. B. "galotti.xml"


DTD laden

Um die Konvertierungsregeln besser eingeben zu können besteht in qad_doc2xml die Möglichkeit, die Liste alle möglichen Tags aus einer DTD zu laden. Klicken Sie dafür auf die Schaltfläche "Get Taglist from DTD" und wählen Sie dann die Datei "teixlight.dtd" aus.


Einfache Konvertierungsregeln

Geben Sie nun als erstes an, dass ein mit der Standard-Formatvorlage ausgezeichneter Text in das TEI-Tag <l> konvertiert werden soll (vgl. Tabelle oben).


Konvertierungsregeln und Attribute

Geben Sie nun die Regeln für Bühnen- (<stage type="setting">) und Regieanweisung (<stage type="persons") an. Um die Attribute zu setzen, klicken Sie einfach auf das weiße "Special" Feld.


Konvertierung in zwei XML-Tags ("Text in Child")

Die "Überschrift 1" kann nicht einfach wie hier in Beispiel (1) in ein XML-Tag konvertiert werden, da dies nach der TEI-DTD nicht zulässig ist.

Vielmehr muss der Text zwischen dem <head>-Tag stehen, so wie in Beispiel (2) gezeigt. "Überschrift 1" muss also in zwei XML-Tags konvertiert werden. Dies kann in qad_doc2xml unter "Text in Child" angeben werden. Klicken Sie dafür in der Zeile "Überschrift 1" auf das "Special"-Feld und geben Sie folgendes an:

Geben Sie dies auch für "Überschrift 2" (div2) an.


Erste Testkonvertierung

Geben Sie nun noch für alle Personen "sp", Text-in-Child "speaker" an und führen Sie eine erste Testkonvertierung durch, indem Sie auf "Convert" klicken.


Ergebnisse prüfen

Um sich sich das vorläufige Ergebnis in Ihrem Standard-Browser für XML-Dateien (in der Regel der Internet Explorer) anzusehen, klicken Sie auf "View XML". Alternativ können Sie sich auch den XML-Code direkt im Notepad ansehen, indem Sie auf "View Code" klicken.

Vorläufiges Ergebnis (Ansicht im Internet Explorer):


XML-Hierachie

Derzeit ist die Hierarchie der Tags noch wie in Beispiel (1) und noch nicht ganz optimal. Das <sp> Tag sollte wie in Beispiel (2) sowohl das <speaker> als auch das <l> Tag einklammern. Die Hierarchie können Sie durch Festlegen des "Levels" bestimmen (ähnlich wie in Word durch Überschrift 1,2,3 etc.). Nehmen Sie folgende Einstellungen vor:

Führen Sie erneut eine Konvertierung durch. Das Ergebnis müsste nun so aussehen:


"Harte" Formatierungen

Nun fehlen noch die Regieanweisungen, die in Word "hart" (ohne Formatvorlage) kursiv ausgezeichnet worden sind. Auch dafür können Sie Konvertierungsregeln wie dargestellt festlegen. Attribute können Sie hier direkt in das Feld schreiben. Achtung: Wenn Sie "harte Konvertierungen" verwenden, sollten Sie darauf achten, dass dieses Format (in diesem Beispiel kursiv) keine Eigenschaft von Formatvorlagen ist, da es sonst zu doppelten Tagzuweisungen kommt. In unserem Beispiel sollte deshalb auch das Feld von "Bold" leer sein.

Hinweis: Wenn Sie keine "harte Formatierungen" konvertieren möchten, sollten Sie das Kästchen "check and convert" deaktivieren, da dann die Konvertierung schneller durchgeführt wird..


Zeichenkonvertierung

Nun können Sie noch (Sonder-)zeichen in entsprechende Entities konvertieren, also z. B. "ü" in "&uuml;". Aktivieren Sie dafür die Checkbox use "char_conversion_table.txt" (diese Datei können Sie auch editieren wenn Sie Ihren Ansprüchen nicht genügt).


Templates

Wenn Sie bei der Konvertierung eine gültige TEI-XML Datei erzeugen wollen, müssen Sie noch einige Informationen (wie den Header etc.) ergänzen. Sie können dafür eine Vorlage-Datei (Template) verwenden. Sehen Sie sich diese Datei "tei_template.txt" mit einem Texteditor (z. B. dem Notepad) an. Sie können in diese Datei vor und nach der Zeile <!-- word text --> beliebige Änderungen durchführen -- nur genau in die Zeile mit dem Tag <!-- Word Text --> wird qad_doc2xml den konvertierten Inhalt der Word-Datei einfügen.

Klicken Sie in qad_doc2xml auf die Schaltfläche "Select Tmpl." um das Template "tei_template.txt" zu verwenden.

Das Ergebnis der Konvertierung ist dann ein wohlgeformtes, gültiges XML-Dokument (im Screenshot validiert mit MS-XML 4.0):

 


Regeln speichern

Sie können in qad_doc2xml die von Ihnen erstellten Konvertierungsregeln speichern (in Dateien mit der Endung .rul), um ähnliche Dokumente nach gleichem Muster zu konvertieren. Wählen Sie dafür die Schaltfläche "Save Ruleset"


siehe auch: XML-Tutorial

<<Zurück