www.medienpunkt.com

  • Schrift vergrößern
  • Standard Schriftgröße
  • Schriftgröße verkleinern
Home

XML Einführung

E-Mail Drucken

Die Abkürzung XML ist in jeder Munde. Alle Programme beherrschen den Export als XML. Doch was ist XML und was macht es so mächtig ?

Dieser Artikel beschreibt die Grundlagen von XML.

XML steht für extensible Markup Language und ist ebenso eine Markup Sprache wie HTML. XML wurde entwickelt, um Daten zu beschreiben. XML beschreibt nicht, was wann gemacht werden soll (wie z.B. C oder C++), sondern welche Daten definiert sind.
Das hat die folgenden Vorteile:

  • XML wird für einen einfachen Datenaustausch genutzt. Dabei benutzen Sender und Empfänger gleichermaßen XML. Durch die Tags werden Daten definiert und von den jeweilen Seiten interpretiert.
  • Viele Jahre lang wurden andere Systeme im Geschäftsalltag für den Datenaustausch genutzt. Diese Systeme waren meist teuer, da es sie eine festgelegte Kommunikationsstruktur nutzen. Die Definitionen der Daten sind unter anderem deswegen überhaupt nicht flexibel. Die Datenmodelle können bei solchen Systemen schlecht an die Daten angepasst werden.
    XML dagegen benutzt das eine zeichenorientierte Übertragung (wie sie z.B. bei dem Medium Internet möglich) ist als Übertragungsweg. Das Internet z.B. ist heutzutage weit verbreitet und dadurch günstig. Desweiteren ist das Protokoll flexibel.
  • XML ist flexibel und ermöglicht damit mehr Lösungen; man kann z.B. eigene Sprachen entwickeln. So wurde z.B. die Sprache WML (Wireless Markup Language) aus XML entwickelt. WML wird für WAP-Übertragungen genutzt. Dabei besteht WML lediglich aus definierten XML Tags, denen eine bestimmte Bedeutung zukommt.

XML: Generelle Struktur

XML ist eine Datenbeschreibungssprache, es wird immer einem Definitionspaar (Tag) ein Datum zugewiesen.

Bei der Beschreibung der Daten gibt es bei XML eine Besonderheit: seine einfacher Aufbau. Generell kennt XML nur die sog. Tag bzw. Elemente. Ein Tag wird durch ein Anfangs-Tag und ein End-Tag beschrieben. Innerhalb der beiden Markierungen stehen die Daten. Die Bezeichner der Tags sind bei XML nicht definiert frie wählbar. der Benutzer muss sie selbst definieren.

Der Aufbau eines Tags ist wie folgt:

<TAG>Daten</TAG>

Das End-Tag wird genau wie bei HTML durch einen Schrägstrich (Slash) kenntlich gemacht.
Bei dem Syntax der Tags sind folgende Dinge zu beachten:

  • Bei den Tags wird Groß- und Kleinschreibung unterschieden, d.h. die Tags sind "case-sensitive". "auto" und "AUTO" sind zwei unterschiedliche Tags.
  • Die Tags müssen in der richtigen Reihenfolge abgeschlossen werden.
  • Kommentare können wie bei HTML mit <-- Kommentar --> eingefügt werden.
  • Zwischen dem Anfangs-Tag und den End-Tag müssen die Daten stehen.
  • Zusätzlichen zu den normalen Tags kennt XML auch leere Tags. Anstatt ein Anfangs- und End-Tag ohne Inhalt zu definieren, kann man auch eine andere Schreibweise wählen:
    <TAG/>
    Ein leeres Tag hat kein End-Tag.

Wie schon erwähnt definiert man mit XML Daten. Meistens werden aber komplexere Datenstrukturen genutzt. Diese Strukturen werden durch Verschachtelungen erreicht:

Beispiel
<Computer>
<Mainboard>Asus A7V600-E</Mainboard>
<Prozessor>AMD XP 2800+</Prozessor>
<Speicher>Infineon PC2700 DDR RAM 333 168 Pins</Speicher>
<Grafikkarte>MSI Starforce 5600</Grafikkarte>
</Computer>

Hier wird das Element Computer neben den Elementen Mainboard, Prozessor, Speicher und Grafikkarte genutzt. Dabei sind alle Elemente außer Computer Subelemente, da sie in dem Elementbereich von Computer angegeben sind.

Der Inhalt einer XML-Datei wird Dokument bezeichnet. Dabei kann ein Dokument nicht nur in einer Datei vorliegen, es kann z.B. auch als Zeichenkette über das Netzwerk übertragen werden.

Ein Dokument muss ein Wurzelelement (root-element) haben. Alle anderen Elemente in dem Dokument sind untergeordnete Elemente (children). Ein komplettes XML-Dokument sieht dann so aus:

<Wurzelelement>
<Element>
<Sub-element>
Inhalt
</Sub-element>
<Sub-element>
Inhalt
</Sub-element>
</Element>
</Wurzelelement>

Tag-Attribute

Jedes Tag bzw. Element kann Attribute haben. Diese Attribute könne genutzt werden, um zusätzliche Informationen an ein Tag weitergeben zu können.
Der Syntax von Attributen ist einfach:
<Element Attributname = "Attributwert">...</Element>
Durch Attribute kann die Nutzung von Tags vermieden werden, so beschreiben die zwei folgenden Beispiele die gleichen Daten.

<Obstsortiment>
<Tomaten farbe="rot">100</Tomaten>
</Obstsortiment>

<Obstsortiment>
<Tomaten>
<Farbe>rot</Farbe>
<Anzahl>100</Anzahl>
</Tomaten>
</Obstsortiment>

Die Nutzung von Attributen macht Sinn, da der übermäßige Gebrauch von Elementen einer unübersichtliche Struktur erzeugt. Zudem lassen sich Attribute mit den meisten Programmiersprachen einfacher Verarbeiten als Elemente mit deren Inhalten.

"Well-formed"-Dokumente

Ein XML-Dokument muss immer well-formed sein. Well-formed bedeutet, daß das Dokument fehlerfrei den XML-Regeln entspricht.
Dabei müssen die folgenden Bedingungen erfüllt sein:
  • Das Dokument muss ein Wurzelelement haben.
  • Alle anderen Elenmente sind Sub-Elemente des Wurzelelementes.
  • Ale Elemente sind richtig mit Anfangs- und Endelement angegeben.
  • Der NAme von Anfangs-Tag und End-Tag sind gleich.
  • Jedes Element hat nur ein Attribut.

Gültige XML-Dokumente

Gültige (valide) Dokumente liegen vor, wenn das XML-Dokument well-formed ist und für das Dokument eine DTD vorliegt. Ist das Dokument gültig (valid), ist sichergestellt, daß die Daten ebenso wie die Bedeutung der Daten festgelegt ist. Treten in der XML-Datei Tags auf, die der DTD nicht bekannt sind, ist das Dokument nicht gültig.
 

Anmeldung