Jelölőnyelv. Szövegjelölő nyelvek. Hogyan tanuljunk meg HTML jelölőnyelvet

A dokumentumjelölő nyelv speciális utasítások, úgynevezett címkék halmaza, amelyeket arra terveztek, hogy struktúrát alkossanak a dokumentumokban, és meghatározzák a struktúra különböző elemei közötti kapcsolatokat. A nyelvi címkéket vagy más néven vezérlőcímkéket az ilyen dokumentumokban megkülönböztetik a dokumentum fő tartalmától, és utasításként szolgálnak a dokumentum tartalmát a kliens oldalon megjelenítő program számára. A legkorábbi rendszerek a „szimbólumokat” használták<” и “>”, amelybe az utasítások nevei és paramétereik kerültek. Most a címkék elnevezésének ez a módja szabványos.

A szöveges dokumentumok hipertext bontásának használata a modern információs rendszerekben nagyrészt annak a ténynek köszönhető, hogy a hipertext lehetővé teszi a nemlineáris információmegtekintési mechanizmus létrehozását. Az ilyen rendszerekben az adatok nem folyamatos szöveges információfolyamként jelennek meg, hanem egymással összefüggő komponensek halmazaként, amelyeken keresztül az átmenetet hiperhivatkozások segítségével hajtják végre.

Napjaink legnépszerűbb hiperszöveges jelölőnyelve, a HTML kifejezetten az interneten terjesztett információk rendszerezésére jött létre, és a WWW technológia egyik kulcseleme. A hiperszöveges dokumentummodell használatával számos változatot ábrázolhatunk információs források a hálózat áramvonalasabbá vált, és a felhasználók kényelmes mechanizmust kaptak a szükséges információk keresésére és megtekintésére.

A HTML a szabványos általános jelölőnyelv - SGML (Standart Generalized Markup Language) - egyszerűsített változata, amelyet az ISO szabványként hagyott jóvá a 80-as években. Ez a nyelv más jelölőnyelvek létrehozására szolgál, meghatározza a megengedett címkéket, azok attribútumait és a dokumentum belső szerkezetét. A leírók helyes használatának ellenőrzése egy speciális, DTD-nek nevezett szabálykészlet segítségével történik, amelyeket az ügyfélprogram használ a dokumentum elemzésekor. Minden dokumentumosztály meghatározza a saját szabálykészletét, amely leírja a megfelelő jelölőnyelv nyelvtanát. Az SGML használatával leírhatja a strukturált adatokat, rendszerezheti a dokumentumokban található információkat, és ezeket az információkat valamilyen szabványos formátumban jelenítheti meg. De bizonyos összetettsége miatt az SGML-t főleg más nyelvek szintaxisának leírására használták (amelyek közül a leghíresebb a HTML), és kevés alkalmazás foglalkozott közvetlenül az SGML dokumentumokkal.

Sokkal egyszerűbb és kényelmesebb, mint az SGML, a HTML nyelv lehetővé teszi a dokumentumelemek kialakításának meghatározását, és rendelkezik egy bizonyos korlátozott utasításkészlettel - címkékkel, amelyekkel a jelölési folyamatot végrehajtják. A HTML utasítások elsősorban arra szolgálnak, hogy szabályozzák a dokumentum tartalmának megjelenítési folyamatát a kliensprogram képernyőjén, és ezáltal meghatározzák a dokumentum megjelenítési módját, de nem a szerkezetét. A hipertext adatbázis HTML által leírt eleme egy szöveges fájl, amely a HTTP protokoll segítségével könnyen átvihető a hálózaton. Ez a funkció, valamint az a tény, hogy a HTML egy nyílt szabvány, és rengeteg felhasználónak lehetősége van arra, hogy ennek a nyelvnek a képességeit használja dokumentumai megtervezéséhez, minden bizonnyal befolyásolta a HTML népszerűségének növekedését, és a HTML fő mechanizmusává tette. információk bemutatása a weben ma.

A modern alkalmazásoknak azonban nem csak egy nyelvre van szükségük az adatok megjelenítéséhez a kliens képernyőjén, hanem egy olyan mechanizmusra is, amely lehetővé teszi egy dokumentum szerkezetének meghatározását és a benne található elemek leírását. A HTML egyszerű parancskészlettel rendelkezik, és meglehetősen sikeresen megbirkózik a szöveges információk leírásával és a böngészőmegjelenítő képernyőjén való megjelenítésével. Magának a megjelenített adatnak azonban semmi köze a formázáshoz használt címkékhez, így az elemző programok nem képesek HTML címkék segítségével megtalálni a számunkra szükséges dokumentumtöredékeket. Azok. találkozva például egy ilyen leírással

rózsa

a néző tudni fogja, milyen színnel jelenítse meg a címkéken belüli szöveget és valószínűleg helyesen fogja megjeleníteni, de teljesen közömbös számára, hogy ez a címke hol található a dokumentumban, milyen más címkékbe van beépítve az aktuális töredék, vannak-e benne töredékek, vannak-e beépítve az objektumok közötti kapcsolatok helyesen. A dokumentum szerkezetével szembeni ilyen „közömbösség” ahhoz a tényhez vezet, hogy a benne lévő információk keresése vagy elemzése nem különbözik a folyamatos szöveges fájllal végzett munkától, amely nem oszlik meg elemekre. És mint tudod, ez nem a legtöbb hatékony módszer információval dolgozni.

A HTML másik jelentős hátránya a címkék korlátozott készlete. A HTML DTD-szabályai rögzített leírókészletet határoznak meg, ezért a fejlesztőnek nincs lehetősége saját, speciális címkék megadására. Bár időről időre megjelennek újabb bővítmények a nyelvhez, de ezek szabványosításának hosszú útja, a nagy böngészőgyártók állandó nézeteltéréseivel együtt szinte lehetetlenné teszi a nyelv gyors adaptálását, speciális információk (pl. multimédia) megjelenítésére való felhasználását. , matematikai, kémiai képletek stb.).

Összegezve az elmondottakat, elmondható, hogy a HTML még ma sem elégíti ki teljesen azokat a követelményeket, amelyeket a modern fejlesztők az ilyen nyelvekkel szemben támasztanak. És felajánlották neki, hogy cserélje ki új nyelv hipertext jelölés, hatékony, rugalmas és egyben kényelmes XML nyelv.

Az XML (Extensible Markup Language) egy jelölőnyelv, amely XML dokumentumoknak nevezett adatobjektumok egész osztályát írja le. Ezt a nyelvet más nyelvek nyelvtanának leírására és a dokumentumok helyességének ellenőrzésére használják. Azok. Az XML maga nem tartalmaz jelölendő címkéket, egyszerűen meghatározza a létrehozásuk sorrendjét. Így, ha például azt gondoljuk, hogy egy dokumentumban a rózsa elemet jelöljük, akkor a címkét kell használni ; akkor az XML lehetővé teszi, hogy szabadon használjuk az általunk meghatározott címkét, és a következőhöz hasonló kivonatokat is beilleszthetünk a dokumentumba:

rózsa

A címkekészlet egyszerűen bővíthető. Ha tegyük fel, hogy azt is jelezni akarjuk, hogy a virág leírása bekerüljön annak az üvegháznak a leírásába, amelyben virágzik, akkor egyszerűen állítsunk be új címkéket, és válasszuk ki a megjelenési sorrendet:

rózsa

Az XML-dokumentum létrehozásának folyamata nagyon egyszerű, és csak alapszintű HTML-ismeretet és az XML-t jelölőnyelvként végrehajtandó feladatok megértését igényli. Így a fejlesztőknek egyedülálló lehetőségük van saját parancsaik meghatározására, lehetővé téve számukra a dokumentumban foglalt adatok leghatékonyabb meghatározását. A dokumentum írója létrehozza annak struktúráját, kiépíti a szükséges kapcsolatokat az elemek között, az igényeinek megfelelő parancsok segítségével, és eléri azt a típusú jelölést, amelyre a dokumentum megtekintési, keresési, elemzési műveleteihez szüksége van.

Az XML másik nyilvánvaló előnye, hogy általános célú nyelvként használható információtárolók lekérdezéséhez. A W3C jelenleg az XML-QL (vagy XQL) szabvány működő változatát vizsgálja, amely a jövőben komoly versenytársa lehet az SQL-nek. Ezen túlmenően az XML-dokumentumok az adatok tárolásának egyedülálló módjaként működhetnek, amely magában foglalja mind az információk elemzésére, mind a kliens oldalon történő megjelenítésére szolgáló eszközöket. Ezen a területen az egyik ígéretes terület a Java és az XML technológiák integrációja, amely lehetővé teszi mindkét technológia erejének kihasználását az információcserére is univerzális adatformátumot is használó, gépfüggetlen alkalmazások építésében.

Az XML emellett lehetővé teszi a dokumentumokban tárolt adatok helyességének ellenőrzését, a dokumentumon belüli hierarchikus kapcsolatok ellenőrzését és egységes szabvány kialakítását a dokumentumok szerkezetére vonatkozóan, amelyek tartalma sokféle adat lehet. Ez azt jelenti, hogy alkalmazható komplex információs rendszerek felépítésében, amelyekben nagyon fontos az azonos rendszerben futó különböző alkalmazások közötti információcsere kérdése. Az információcsere-mechanizmus szerkezetének a projektmunka kezdetén történő létrehozásával a menedzser a jövőben megkímélheti magát a rendszer különböző összetevői által használt adatformátumok inkompatibilitásával kapcsolatos problémáktól.

Az XML egyik előnye továbbá, hogy az XML dokumentumokat feldolgozó programok nem bonyolultak, ma már mindenféle XML dokumentumokkal való együttműködésre tervezett szoftvertermék megjelent és szabadon terjeszthető. Az IE5 támogatja az XML-t. Bejelentették, hogy támogatni fogják a Netscape Communicator, Oracle DBMS, DB-2 további verzióiban, MS-Office alkalmazásokban. Mindez arra utal, hogy nagy valószínűséggel a közeljövőben az XML lesz az információs rendszerek fő információcsere-nyelve, és ezzel felváltja a HTML-t. Az XML alapján már elkészültek olyan jól ismert speciális jelölőnyelvek, mint a SMIL, CDF, MathML, XSL, és folyamatosan frissül a W3C által vizsgált új nyelvek munkatervezeteinek listája.

Az XSLT nyelv a dokumentumok feldolgozására, a jelölés módosítására és szükséges kiegészítésére szolgál. Használható az XML-kódok formázott HTML-kódokká alakítására, amelyeket az ember könnyen olvashat. Az XML-dokumentumot egyszerű szöveggé vagy más átstrukturált XML-dokumentummá, vagy akár JavaScript-dokumentummá is konvertálhatja. Az XSLT nyelv hozzáférést biztosít az XML dokumentumok tartalmához, és ezek alapján új dokumentumok létrehozására is szolgál. Ezen okok miatt érdemes megtanulni az XSL nyelvet.

Gyakrabban fordul elő az XML dokumentumok HTML dokumentumokká konvertálása, és a fejezet példái ezt a műveletet tárgyalják.

Az XSLT transzformáció végrehajtásához két dokumentumot használnak: a konvertálandó dokumentumot és magát az átalakítást meghatározó stíluslapot. Ebben az esetben XML dokumentumokról beszélünk.

Küldje el a jó munkát a tudásbázis egyszerű. Használja az alábbi űrlapot

Diákok, végzős hallgatók, fiatal tudósok, akik a tudásbázist tanulmányaikban és munkájukban használják, nagyon hálásak lesznek Önnek.

Hasonló dokumentumok

    A hipertext fogalmának meghatározása. Az SGML dokumentum fő részei. A HTML dokumentumok szabványos jelölőnyelvének létrehozásának története. Az XHTML szintaxis és a HTML közötti különbségek. Az RSS a hírfolyamok leírására szolgáló XML-formátumok családja. A KML jelölőnyelv használata.

    bemutató, hozzáadva 2014.02.15

    A weblapok programozási nyelvének alapjai - HTML. A weboldal olyan típusú információkat tartalmazhat, mint szöveg, grafika, hang, animáció és videó. Eszközkészlet weblapok készítéséhez. Webtervezéshez használt alapvető HTML-szerkesztők.

    absztrakt, hozzáadva: 2011.01.19

    Általános jellemzők Hypertext Markup Language. A HTML dokumentum szerkezete. A HTML főbb jellemzőinek áttekintése. A modern weblap tervezés elemei. Elemzés praktikus alkalmazás HTML (az oktatóanyagok példáján).

    szakdolgozat, hozzáadva 2012.11.24

    A HTML nyelv alapvető címkéi és attribútumai. Weboldal készítése, melynek több, egymással összefüggő oldalból kell állnia. Megfontolás különböző jelentések attribútumok és címkék az oldalakon és más dokumentumokon. A kidolgozott oldalak képernyőformái.

    labormunka, hozzáadva 2014.04.16

    Mi az a jelölés. A jelölőnyelv a szövegblokkok kódolására használt formázási elvekre vonatkozó konvenciók halmaza. SGML, HTML, XML formátumok lehetőségei, létrehozási előzmények, alkalmazás sajátosságok, információelhelyezés ellenőrzése.

    absztrakt, hozzáadva: 2010.03.22

    Az új XHTML hipertext jelölőnyelv. XHTML dokumentumok érvényesítése, típusának meghatározása. Gyakori hibák az XHTML jelölésben. A felhasználói ügynökök megfelelősége. XHTML használata más névterekkel. A HTML szemantika kiterjesztése.

    szakdolgozat, hozzáadva 2009.07.14

    A rekurzív süllyedési algoritmus és a nyelvtani építő rendszer tanulmányozása Lex lexikális elemző segítségével. Nyelvtolmács program írása HTML jelölés. A bemeneti sorrend ellenőrzése az as bemenet helyességéhez közös funkció programokat.

    ellenőrzési munka, hozzáadva 2012.12.25

Szövegszerkesztő rendszerekben a dokumentum tartalmazza további információ, az úgynevezett markup and performance következő jellemzőket:

E dokumentum logikai elemeinek kiválasztása;

A kiválasztott elemek feldolgozási funkcióinak beállítása.

A hagyományos szövegszerkesztőkbe beépített parancsok vannak a betűtípusok be- és kikapcsolására stb., hasonlóan az információk képernyőn vagy nyomtatáskor történő elhelyezését vezérlő parancsokhoz (az ún. escape szekvenciák). Ezt a megközelítést parancs- vagy procedurális jelölésnek nevezik (2.1. táblázat).

A jelölés másik módja a szöveg egy részének kijelölése a kijelölés kezelésének meghatározása nélkül. Ezután a többi parancs hozzárendeli a feldolgozást a töredékekhez. Ezt a jelölést hívják leíró(leíró). Tartalmaz címkéket (címkék) egy szövegelem eleje és vége, és meghatározza az adott töredék értelmezésének módját.

A leíró jelölésnek megfelelő eljáráskészlet megváltoztatásával lehetőség van ugyanannak a dokumentumnak a külső megjelenítésére. A leíró jelölés gondolatainak fejlődése a jelölés formális nyelvként való meghatározásához vezetett. Ez lehetővé teszi a jelölés helyességének ellenőrzését, és a hangerő minimalizálását az alapértelmezett értékek helyettesítésével.

A leíró jelölések fő előnye a rugalmasság, mivel a szövegrészek "milyen" jelöléssel vannak ellátva (nem pedig "hogyan kell megjeleníteni"), és a jövőben meg lehet írni. szoftver e töredékek olyan feldolgozására, amelyre a nyelvtervezők nem is gondoltak. Például a HTML hiperhivatkozásokat, amelyeket eredetileg a felhasználók a weben található hivatkozások gyűjteményében való navigálásra szántak, azóta a weben található keresési és indexelő mechanizmusok használják az erőforrások népszerűségének értékelésére stb.

A leíró jelölések megkönnyítik a dokumentum szükség szerinti újraformázását is, mivel a formátumleírás nem kapcsolódik a tartalomhoz. Például, dőlt betűvel használható szöveg kiemelésére, idegen (vagy szleng) szavak megjelölésére, vagy egyéb célokra.

Ha azonban a szavakat egyszerűen kiemelik (leíró vagy eljárási szempontból) dőlt betűvel, ezt a kétértelműséget nem lehet teljesen feloldani. Ha a két esetet kezdetben eltérő címkével látták el, mindegyik a többitől függetlenül újraformázható. Az általános jelölés a leíró jelölés másik neve.

A gyakorlatban a különböző jelölési osztályok elemei általában együtt léteznek egy adott rendszerben. Például a HTML tartalmazza mind a procedurális jelölőelemeket (b a félkövér), mind pedig a leíró jellegű elemeket (a „blockquote” vagy a „href” egy jellemző). A HTML tartalmaz egy pre elemet is, amely korlátozza a szöveg azon területét, amely pontosan úgy helyezhető el, ahogyan nyomtatva van.



A legtöbb modern leíró jelölőrendszer a dokumentumokat hierarchikus struktúraként (faként) kezeli, és bizonyos eszközöket is biztosít a soron belüli kereszthivatkozásokhoz. Ezért az ilyen dokumentumok adatbázisként kezelhetők és feldolgozhatók, amelyek szerkezete meglehetősen jól meghatározott (azonban, mivel nincsenek olyan szigorú sémáik, mint a relációs adatbázisok, általában "laza szerkezetű adatbázisoknak" nevezik).

A III. évezred eljövetelével megnőtt az érdeklődés a nem hierarchikus struktúrák dokumentumai iránt. Például az ókori és vallásos irodalom általában retorikai vagy prózai szerkezetű (történet, szakasz, bekezdés stb.), és háttérinformációkat is tartalmaz (könyvek, fejezetek, strófák, sorok). Mivel ezeknek a moduloknak a határai gyakran átfedik egymást, nem lehet őket teljesen kódolni pusztán fastruktúrájú jelölőrendszerrel. Az ilyen keretrendszereket támogató dokumentummodellező rendszerek közé tartozik a MECS, a TEI Guidelines, az LMNL és a CLIX.

A "jelölés" kifejezés abból a hagyományos gyakorlatból származik, hogy a kéziratokat publikálás előtt megjelölik (azaz szimbolikus parancsokat adnak a papír kézirat margóihoz és sorai közé), ezt sok évszázadon át a kiadók (szerkesztők és lektorok) tették, akik megjegyezték. milyen betűtípust, stílust és Szövegtöredékeket kell méretben begépelni, majd a kéziratot átadták a szedőknek, akik kézzel, a jelölő karakterek figyelembevételével gépelték be a szöveget.



Jelenleg sok jelölőnyelv létezik (2.2 táblázat), a legismertebbek közül a DocBook,

MathML, SVG, Open eBook, XBRL stb. Főleg különféle szöveges dokumentumok megjelenítésére szolgálnak, de a speciális nyelvek sok más területen is használhatók. A messze a legismertebb jelölőnyelv a HTML (Hypertext Markup Language), amely a WWW (World Wide Web) egyik alapja.

Tekintsünk néhány jelölőrendszert.

A RUNOFF volt az első olyan szövegformázó rendszer, amely jelentős hírnévre tett szert. 1964-ben fejlesztették ki operációs rendszer CTSS, Jerome H. Saltzer MAD assembler használatával.

A termék valójában néhány programból állt:

TYPSET, ami alapvetően egy dokumentumszerkesztő volt;

RUNOFF - kimeneti processzor.

A RUNOFF támogatást nyújtott a lapozáshoz és a címsorok elhelyezéséhez, valamint a szöveg igazításához. A RUNOFF a Multics dokumentumformázó közvetlen elődje, amely viszont a Unix formázók (roff és nroff) és leszármazottjaik őse volt. Ez volt a FORMAT őse is az IBM OS/360-hoz, és természetesen az összes későbbi szövegszerkesztő programhoz és rendszerhez. A név állítólag egy akkoriban népszerű kifejezésből származik - Lefutok egy példányt.

A TeX a τεχνη (TEXNH - techne) rövidítése, amely a "művészet, mesterség, készség" görög kifejezése, a "technika" szó forrása. Az angolban "tech"-nek ejtik (mint a technológia szóban).

A TeX egy szedőrendszer, amelyet Donald Knuth készített. A METAFONT betűtípus-leíró nyelvvel és a Computer Modern betűtípussal (Computer Modern betűtípus) együtt két fő célt szolgált – egyrészt, hogy minden felhasználó számára lehetőséget biztosítson jó minőségű könyvek létrehozására ésszerű munkaerőköltség mellett, másrészt pedig hogy egy ilyen rendszer minden számítógépen azonos eredményeket adna most és a jövőben egyaránt. A TeX egy ingyenes szoftver, amely népszerű az akadémiai közösségben, különösen a matematikusok, informatikusok, közgazdászok és a műszaki közösségek körében. Erősen versenyez a másik népszerű TeX formázóval, a Unix troff-fal, és sok Unix-telepítésben együtt használják őket.

A TeX-et az összetett matematikai képletek létrehozásának és nyomtatásának legjobb módjaként ismerik el, de ma már számos más szedési feladatra is használják, különösen a LaTeX és más formázó szoftverek formájában.

A TeX parancsok általában fordított perjellel kezdődnek, és kapcsos zárójelekkel ellátott blokkokba vannak csoportosítva. A TeX szinte minden szintaktikai tulajdonsága azonban megváltoztatható a program végrehajtása során, ami megnehezíti más programok számára a TeX bemenet feldolgozását. A TeX egy makró és token alapú nyelv, és számos parancs, köztük a felhasználó által leggyakrabban definiált parancsok is kibővülnek a végrehajtás során, amíg csak a nem bővíthető tokenek maradnak, amelyek végrehajtásra kerülnek.

A TeX alapverziója körülbelül 300 primitívnek nevezett utasítást tartalmaz. Ezeket az alacsony szintű parancsokat azonban ritkán használják közvetlenül a felhasználók, a legtöbb funkciót formátumfájlok biztosítják (TeX memóriamásolatok nagy makrókészletek betöltése után). A Nut eredeti (alapértelmezett) formátuma, amely körülbelül 600 parancsot ad hozzá, a Plain TeX. Egy szélesebb körben használt formátum az eredetileg Leslie Lamport által kifejlesztett LaTeX, amely könyvek, levelek, diák stb. dokumentumstílusait tartalmazza, valamint támogatja a hivatkozásokat, valamint az automatikus képlet- és szakaszszámozást.

Egy másik széles körben használt formátum az AMS-TeX, amelyet az American Mathematical Society fejlesztett ki, és sokkal barátságosabb parancsokat biztosít, amelyeket a kiadók módosíthatnak a márkajelzésüknek megfelelően. A legtöbb AMS-TeX szolgáltatás alkalmazható a LaTeX-re AMS „csomagok” (amelyekre AMS-LaTeX néven hivatkozunk) segítségével.

Ha olyan programot szeretne írni, amely kinyomtatja a "Programozás" karakterláncot Plain TeX-ben, létre kell hoznia egy myfile.tex fájlt a következő tartalommal:

\bye % a fájl vége; nem jelenik meg a végső kimeneten.

Alapértelmezés szerint minden, ami egy százalékjelet követ egy sorban, megjegyzés, amelyet a TeX értelmező figyelmen kívül hagy. Ha a TeX ezen a fájlon végrehajtódik (például parancssori módban a tex myfile.tex beírásával), akkor létrejön egy myfile.dvi nevű kimeneti fájl, amely az oldal tartalmát DVI-ben (Device Independent Format) reprezentálja. Az eredmények vagy közvetlenül kinyomtathatók az interaktív digitális videórendszer megjelenítőjéből, vagy a dvips programmal egy általánosabb formátumra, például PostScriptre konvertálhatók. A TeX olyan változatai, mint a PDFTeX, közvetlenül készítenek PDF fájlokat.

Fontolja meg egy matematikai képlet formázását. Például írni híres kifejezés a másodfokú egyenlet gyökeréhez a következőket adhatja meg:

A másodfokú képlet: $-b \pm \sqrt(b^2 - 4ac) \over 2a$ \bye

Ez a következő szöveget adja ki:

Számos dokumentumfeldolgozó rendszer a TeX-en alapul, különösen a jadeTeX, amely belsőleg TeX-et használ a James Clark DSSSL Engine kimenetéből történő nyomtatáshoz, valamint a Texinfo, a GNU rendszer dokumentációs processzora. A TeX 1984 óta a GNU operációs rendszer hivatalos szedőcsomagja. .

A TeX-hez számos kiterjesztés és kísérőprogram ismert, köztük a BibTeX bibliográfiákhoz (a LaTeX-szel terjesztve), a PDFTeX, amely megkerüli a DVI formátumot, és közvetlenül az Adobe Systems Portable Document Format (pdf) formátumába ad ki, és az Omega, amely lehetővé teszi a TeX használatát. a beállított Unicode karakterek A legtöbb TeX kiterjesztés ingyenesen beszerezhető az Átfogó TeX Archívum Hálózatról (CTAN) A TeXmacs egy TeX alapú nem szépirodalmi szerkesztő, támogatja a teljes egyezési módot (WYSIWYG), és úgy tervezték, hogy kompatibilis legyen a TeX-szel és az Emacs-szel.

Sokban műszaki területeken mint például az alkalmazott számítástechnika, a matematika és a fizika, a TeX de facto szabvánnyá vált. Sok ezer könyvet adtak ki TeX segítségével olyan kiadóknál, mint az Addison-Wesley, a Cambridge University Press, az Elsevier, az Oxford University Press vagy a Springer. Ezeken a területeken számos folyóirat készül TeX vagy LaTeX használatával, és a szerzők kézirataikat TeX formátumban küldhetik be.

A 3-as verzió óta a TeX egy speciális verziószámozási rendszert használ, ahol a frissítéseket egy további számjegy jelzi decimális szám hogy a verziószám aszimptotikusan megközelítse az l-t. Ez azt tükrözi, hogy a TeX nagyon stabil, és csak kisebb frissítések várhatók. A TeX jelenlegi verziója a 3.141592; ez volt az utolsó frissítés 2002 decemberében.

Az interneten keresztül elérhető összes dokumentum egy kifejezetten erre a célra kialakított nyelven, a Hyper Text Markup Language (HTML) néven készült. A HTML egy egyszerű jelölőnyelv, amely lehetővé teszi szövegtöredékek megjelölését és más dokumentumokra mutató hivatkozások beállítását, többszintű címsorok kiemelését, szövegek bekezdésekre bontását, középre bontását stb., így az egyszerű szöveget formázott hipermédiás dokumentummá alakíthatja.

A HTML nyelv eszközkészletének alapja a címkék - HTML utasítások, ezekből körülbelül száz van a nyelvben. Jelen vannak a hipertext dokumentumban, és lehetővé teszik a tervezés teljes szerkezetének és stílusának kialakítását a finomságokig. Ha például egy ilyen dokumentumot böngészővel tekint meg, ezek a címkék láthatatlanok. És amikor egy weboldalt speciális szoftvereszközökkel hoz létre, és ezek az eszközök szinte minden irodai alkalmazásban jelen vannak (Word, Excel, Access, Power Point, Outlook stb.), a címkék nem láthatók a felhasználó számára - beírják őket automatikusan .

A címkéket például szögletes zárójelben írják

vagy
. Itt az első címke a nyitó címke, a második pedig perjellel a záró címke. Ennek a címkepárnak az a hatása, hogy a köztük lévő szöveg annak az ablaknak a közepéhez igazodik, amelyben a dokumentum megtekinthető. Különféle címkék léteznek az egyszerű címkéktől (strukturális, szövegtervezés és igazítás, színképzés, méret, betűstílus stb.) a speciálisakig (grafikus és multimédiás objektumok dokumentumba foglalásához. Összetett címkék, amellett, hogy a név, olyan attribútumokkal is rendelkeznek, amelyek részletezik a használat módját.

A HTML-címkék nem határozzák meg az abszolút dokumentumformázást, mint a szövegszerkesztő kódok, hanem csak a relatív formázást. Például egy olyan címke, amely egy szövegsort középre állít, egyformán jól működik széles képernyőn és keskeny képernyőn, és ha a szöveg nem illeszkedik a képernyő szélességéhez, automatikusan a második sorba tördelődik , stb.

Bármilyen szövegszerkesztőben megtekintheti a weboldalakat, de ez rendkívül kényelmetlen, mivel az oldal nincs formázva, de a címkéi láthatóak.

A HTML formátumú dokumentumok megtekintésére szolgáló programokat böngészőknek nevezzük. A webes dokumentumok megtekintése a böngésző egyik fő, bár nem az egyetlen funkciója.

Több év telt el a nyelv első verziójának (HTML 1.0) kifejlesztése óta. Ez idő alatt meglehetősen komoly nyelvfejlődés ment végbe. A jelölőelemek száma csaknem megkétszereződött, a dokumentumok tervezése egyre inkább közelít a jó minőségű nyomtatott kiadványok tervezéséhez, fejlődnek a nem szöveges információforrások leírásának eszközei, az alkalmazási szoftverekkel való interakció módjai. A tipikus stílusok kialakításának mechanizmusa fejlesztés alatt áll. Valójában a HTML jelenleg egy szabványos interfész-fejlesztési nyelv létrehozása felé halad mind a helyi, mind az elosztott rendszerek számára.

1998 februárjának elején a W3C nemzetközi szervezet jóváhagyta az "Extensible Markup Language (XML) 1.0" specifikációt, amely számos új jelölőnyelv kifejlesztésének alapjait fektette le az XML szabványon alapuló interneten keresztüli információtovábbításhoz. Lényegében ez azt jelentette új lépés a hipertext jelölőnyelvek fejlesztésében. Fennállásának négy éve alatt az XML nemcsak a hétköznapi felhasználók és számos webdizájner figyelmét keltette fel, hanem az internet szerves részévé vált. Gyakorlatilag még ma sem létezik olyan szerver, amely ezt a technológiát bizonyos mértékig ne használná a HTML analógjaként. Azt állítani azonban, hogy az XML ma már a hipertext globális hálózaton keresztüli lefordításának fő módja, még mindig legalábbis korai. Maga a nyelv még meglehetősen fiatal, és egyes elemei még fejlesztés alatt állnak. Egyelőre csak egy általános keret készült, ami talán a jövőben felváltja a Html-t, de azt még nem lehet megmondani, hogy milyen konkrét formában.

Kezdettől fogva

1990 novemberében, amikor az internetezők először hallottak róla új technológia, melynek neve elég könnyen elfér három betűben, szinte senki sem tudta elképzelni, hogy nagyon kevés idő telik el, és ez a technológia gyakorlatilag az egyetlen módja lesz az információátvitelnek a globális hálózaton. Manapság sok tapasztalatlan felhasználó számára az Internet szó erősen a WWW-hez kötődik, bár valójában ezek a dolgok természetesen összefüggenek egymással, de mégis kicsit másképp.

Nagyjából a World Wide Web és annak szerves része, a HTML hihetetlen népszerűsége az oka annak, hogy rendkívül megnövekedett figyelmet fordítanak a dokumentumok hipertext jelölésének struktúráira.

A hipertext fogalmát W. Bush vezette be először 1945-ben. azonban valódi alkalmazások A 60-as évektől kezdődően kezdték el használni az ilyen adatstruktúrákat használó, igazán rendkívüli aktivitást e technológia körül, és csak akkor kezdődött el igazán rendkívüli aktivitás e technológia körül, amikor valóban szükség volt egy olyan mechanizmusra, amely számos információforrást egyesít, lehetővé téve a létrehozást, a megtekintést. nem lineáris szöveg. A WWW web pedig példaként szolgált ennek a mechanizmusnak a megvalósítására.

Maga a dokumentumjelölő nyelv speciális utasítások, úgynevezett címkék halmaza (egyes lefordított kiadványokban a címkéket címkéknek nevezik), amelyek célja, hogy struktúrát hozzanak létre a dokumentumokban, és meghatározzák a struktúra különböző elemei közötti kapcsolatokat. A jelölőnyelvi címkék, vagy ahogy néha nevezik, vezérlőleírók, az ilyen dokumentumokban nagyon specifikus módon kódolódnak, megkülönböztetve a dokumentum fő tartalmától, majd utasításként szolgálnak a program tartalmát értelmező és megjelenítő program számára. a dokumentum valójában annak, aki átnézi, ha az internettel próbál analógiákat találni, akkor ez a valaki egy kliens, és a tolmácsprogram a leggyakoribb esetben egy böngésző). Már a legelső rendszerekben úgy döntöttek, hogy a szimbólumokat használják "<" и ">", amelyen belül elhelyezhetők az utasítások nevei és paramétereik. Ma a címkék ilyen kijelölése általánosan elfogadott szabvány.

A szöveges dokumentumok hipertext bontásának használata a modern információs rendszerekben nagyrészt annak a ténynek köszönhető, hogy a hipertext lehetővé teszi az úgynevezett nemlineáris információmegtekintési mechanizmus létrehozását. Ez azt jelenti, hogy a rendszerekben az adatok nem szövegszerkezetek folyamatos folyamaként jelennek meg, hanem egymással összefüggő komponensek halmazaként, amelyeken keresztül az átmenetet hiperhivatkozások segítségével hajtják végre.

A mai napig legnépszerűbb és legismertebb hiperszöveg-jelölőnyelv, a HTML, kifejezetten az interneten található információk strukturálására és továbbítására jött létre, és kétségtelenül a WWW technológia kulcsfontosságú eleme. A hipertext dokumentummodell használatával leegyszerűsödött a különféle információs források webes bemutatásának módja, a felhasználók kényelmes mechanizmust kaptak a szükséges információk keresésére és megtekintésére. Azonban az első jel ebben a kérdésben még mindig egy sokkal régebbi nyelv - SGML.

Az SGML-t (Standard Generalized Markup Language) hivatalosan 1986-ban fogadták el nemzetközi szabványként (ISO 8879:1986) az I / O eszközök és a számítógéptől független módszerek leírására a szöveges információk megjelenítésére. elektronikus formában. Létrehozásának alapja a meglehetősen régi GML (Generalized Markup Language) jelölőnyelv volt, amelyet az IBM fejlesztett ki még az első személyi számítógépek idején. Hogy pontosak legyünk, az SGML egy metanyelv, amelyet más jelölőnyelvek leírására terveztek.

Kezdetben a szójelölést általában a szövegen belüli megjegyzések vagy egyéb jelzések leírására használták, amelyek a dokumentumíró vagy – ahogy néha nevezik – a „betűszedő” számára jelezték, pontosan hogyan kell egy adott helyet nyomtatni. Az ilyen módszerek magukban foglalhatják a dőlt betűs jelzésű aláhúzást, néhány speciális ikont bizonyos kifejezések átugrására vagy adott betűtípussal történő kinyomtatására stb. Amikor a formázás és a nyomtatás idővel automatizálódott, ez a kifejezés már mindenféle speciális jelölőkódra kiterjedt, amelyeket az elektronikus szöveges dokumentumokba szúrtak be a formázás, a nyomtatás vagy egyéb feldolgozás szabályozására.

A jelölőnyelv tehát a szövegblokkok kódolására használt formázási elvekre vonatkozó konvenciók halmaza. A jelölőnyelvnek egyértelműen jeleznie kell, hogy egy adott dokumentumban melyik jelölés engedélyezett, melyik jelölés szükséges, hogyan lehet megkülönböztetni annak elemeit egyszerű szövegés mit jelent a jelölés. Az SGML az első három feladatot meg tudta oldani, az utolsó megoldása feltételezte az informális leírás meglétét.

Az SGML, ellentétben a többi rajta alapuló jelölőnyelvvel, az úgynevezett leíró jelölés elvét használja az eljárási jelölés helyett. Egy ilyen rendszer jelölőelemeket használ, amelyek egyszerűen címeket adnak a dokumentum egyes részeinek kategorizálásához. Más szóval a címkék, mint a Vagy \end(list), egyszerűen azonosítsa a dokumentum egy részét, és állítsa, hogy "ez a rész egy bekezdés" vagy "ez a rész egy megkezdett lista vége" stb. A procedurális jelölést használó rendszer (ide tartoznak a szövegszerkesztők, például a Microsoft Word is) meghatározza, hogy a szöveges dokumentum egy adott pontján milyen közvetlen feldolgozás történjen: "ezen a helyen hívjon meg egy ilyen és ehhez hasonló eljárást 5-ös paraméterekkel, e és z" vagy "a dokumentum szegélyének mozgatása 7 mm-rel jobbra bármely elemtől, egy sort kihagy, a következőt piros vonallal kezdi" stb. Az SGML-ben a dokumentum meghatározott célú (például formázás) feldolgozásához szükséges utasítások egyértelműen elkülönülnek a dokumentumon belül előforduló leíró jelölésektől. Ezeket általában a dokumentumon kívül külön eljárásokban vagy programokban gyűjtik össze.

Ha eljárási helyett leíró jellegű jelölést használ, ugyanaz a dokumentum feldolgozható különböző programokat, amelyek mindegyike saját feldolgozási utasításait alkalmazhatja az általa fontosnak tartott részeire. Például egy tartalomelemző teljesen figyelmen kívül hagyhatja a lábjegyzeteket, míg a formázó kibonthatja és összeállíthatja azokat nyomtatáshoz az egyes szakaszok végén. Különböző fajták feldolgozási utasítások társíthatók a fájl azonos részéhez. Például az egyik program kivonhatja az emberek vezetéknevét és helynevét egy dokumentumból index vagy adatbázis létrehozása céljából, míg egy másik, amely ugyanazt a szöveget dolgozza fel, más betűtípussal nyomtathatja ki a vezeték- és helyneveket.

Az SGML emellett bevezeti a dokumentumtípus fogalmát, és ennek megfelelően annak meghatározásának módjait (dokumentumtípus-definíció, DTD). A dokumentumok gépeltnek minősülnek, akárcsak a többi számítógéppel feldolgozott objektum. A dokumentum típusát formálisan az alkotórészei és azok szerkezete határozza meg. Például megadhat egy dokumentumtípust úgy, hogy annak egy címből és esetleg a szerző nevéből kell állnia, amelyet egy absztrakt és egy vagy több bekezdésből álló sorozat követ. E formális definíció szerint minden cím nélküli dokumentum nem lesz jelentés, és nem lesz egy absztrakt által követett bekezdéssorozat sem, bármennyire is hasonlít egy ilyen dokumentum egy jelentéshez az emberi olvasó szemszögéből. .

Mivel a dokumentumok ismert típusúak, egy speciális program, az úgynevezett értelmező használható egy bizonyos típusúnak állító dokumentum feldolgozására, és annak ellenőrzésére, hogy az adott dokumentumtípushoz szükséges összes elem valóban megvan-e és megtalálható-e a megfelelő sorrendben és helyesen. strukturált. Ennél is fontosabb, hogy az azonos típusú különböző dokumentumokat egységesen lehet feldolgozni. Lehetőség van a dokumentum információs szerkezetében rejlő tudást felhasználó programok írására, amelyek így intelligensebbek lehetnek.

Az SGML, mint metanyelv, lehetővé teszi bizonyos nyelvek (gyakran "SGML-alkalmazások" néven) meghatározását, hogy megcélozzák az adott alkalmazásokat. Példa erre a HTML nyelv, amelyet széles körben használnak a WWW-n. Minden ilyen nyelvet DTD formájában írnak le, amelyek meghatározzák az elemeket és azok attribútumait. Egy ilyen DTD esetén az SGML szoftver megfelelően tudja feldolgozni a jelen DTD szerint írt dokumentumokat.

Ezt a nyelvet már a projektben is kifejezetten a jelenlegi globális hálózatba történő információtovábbítási modell megvalósítására tervezték. Más szóval, a HTML az internet terméke. Bár valójában a HTML a szabványos általános jelölőnyelv - az SGML (Standart Generalized Markup Language) - egyszerűsített változata, amelyet az ISO szabványként hagyott jóvá a múlt század 80-as éveiben. Az SGTML nem egy tiszta nyelv, hanem bizonyos szabályok és leírások halmaza más nyelvek létrehozásához, meghatározza a megengedett címkéket, azok attribútumait és a dokumentum belső szerkezetét. A leírók helyes használatának ellenőrzése egy speciális szabálykészlettel, az úgynevezett DTD-leírásokkal történik, amelyeket a kliens értelmező használ a dokumentum elemzésekor. Minden dokumentumosztály meghatározza a saját szabálykészletét, amely leírja a megfelelő jelölőnyelv nyelvtanát. Az SGML használatával rendszerezheti a dokumentumokban található információkat, leírhatja a strukturált adatokat, és ezeket az információkat valamilyen szabványos formátumban megjelenítheti későbbi felhasználás céljából. Azonban bizonyos összetettsége miatt az SGML-t főként más nyelvek szintaxisának leírására használták (amelyek közül a leghíresebb a HTML), és kevés alkalmazás foglalkozott közvetlenül SGML dokumentumokkal.

A HTML sokkal kényelmesebb és könnyebben használható nyelv, mint az SGML. Nem teszi lehetővé a definiálást további nyelvek annak alapján. A HTML használata magában foglalja egy dokumentum szabvány szerinti megjelölését, amelyet meglehetősen korlátozott utasítások vagy címkék határoznak meg. Az ilyen utasítások elsősorban a dokumentum tartalmának a kliensprogram képernyőjén való megjelenítésének folyamatát hivatottak szabályozni, és ezáltal meghatározni a dokumentum megjelenítési módját, de nem annak integrált szerkezetét. A legtöbb esetben a HTML-adatok sima szöveges fájlban jelennek meg, amely könnyen átvihető a hálózaton a http protokoll használatával.

Azonban ahogy telik az idő, és egyre szigorúbb követelményeket támasztanak a népszerű technológiákkal szemben, a modern alkalmazásoknak nem csak egy nyelvre van szükségük az adatok megjelenítéséhez a kliens képernyőjén, hanem egy olyan mechanizmusra is, amely lehetővé teszi a dokumentum szerkezetének meghatározását és az elemek leírását. tartalmazza. A HTML egyszerű parancskészlettel rendelkezik, és meglehetősen sikeresen megbirkózik a szöveges információk leírásával és a böngészőmegjelenítő képernyőjén való megjelenítésével. Magának a megjelenített adatnak azonban semmi köze a formázáshoz használt címkékhez, így az elemző programok nem képesek HTML címkék segítségével megtalálni a számunkra szükséges dokumentumtöredékeket. Azok. találkozva például egy ilyen leírással

rózsa,

A néző tudni fogja, milyen színnel jelenítse meg a címkéken belüli szöveget és nagy valószínűséggel helyesen jeleníti meg, de teljesen közömbös számára, hogy ez a címke hol található a dokumentumban, milyen más címkékbe van beépítve az aktuális töredék, vannak-e benne töredékek, vannak-e relációk az objektumok között. helyesen épült. A dokumentum szerkezetével szembeni ilyen „közömbösség” ahhoz a tényhez vezet, hogy a benne lévő információk keresése vagy elemzése nem különbözik a folyamatos szöveges fájllal végzett munkától, amely nem oszlik meg elemekre. És mint tudják, ez nem a leghatékonyabb módja az információval való munkavégzésnek.

A HTML-ben megvalósított ötlet másik jelentős hátránya a címkék korlátozott készlete. A HTML DTD-szabályai rögzített leírókészletet határoznak meg, ezért a fejlesztőnek nincs lehetősége saját, speciális címkék megadására. Bár időről időre megjelennek új nyelvi bővítmények (ma a HTML legújabb verziója a HTML 4.0), de a szabványosításukhoz vezető hosszú út, a nagy böngészőgyártók folyamatos nézeteltérései kíséretében szinte lehetetlenné teszi a nyelv gyors adaptálását, használatát. speciális információk megjelenítésére (például multimédiás, matematikai, kémiai képletek stb.).

Összegezve az elmondottakat, elmondható, hogy a HTML még ma sem elégíti ki teljesen azokat a követelményeket, amelyeket a modern fejlesztők az ilyen nyelvekkel szemben támasztanak. A helyére pedig egy új hiperszöveg jelölőnyelvet javasoltak: egy hatékony, rugalmas és egyben kényelmes XML nyelvet.

Az XML (Extensible Markup Language) egy jelölőnyelv, amely XML dokumentumoknak nevezett adatobjektumok egész osztályát írja le. Ezt a nyelvet más nyelvek nyelvtanának leírására és a dokumentumok megfogalmazásának helyességének ellenőrzésére használják. Azok. Az XML maga nem tartalmaz jelölendő címkéket, egyszerűen meghatározza a létrehozásuk sorrendjét. Így, ha például azt gondoljuk, hogy egy dokumentumban a rózsa elemet jelöljük, akkor a címkét kell használni , akkor az XML lehetővé teszi, hogy szabadon használjuk az általunk meghatározott címkét, és ehhez hasonló kivonatokat is beilleszthetünk a dokumentumba:

rózsa

A címkekészlet egyszerűen bővíthető. Ha tegyük fel, hogy azt is jelezni akarjuk, hogy a virág leírása bekerüljön annak az üvegháznak a leírásába, amelyben virágzik, akkor egyszerűen állítsunk be új címkéket, és válasszuk ki a megjelenési sorrendet:

rózsa

Ha még néhány virágot szeretnénk ültetni oda, a következő változtatásokat kell végrehajtanunk:

rózsa

tulipán

kaktusz

Amint láthatja, az XML-dokumentum létrehozásának folyamata nagyon egyszerű, és csak alapvető HTML-ismereteket és azoknak a feladatoknak a megértését igényli, amelyeket az XML-lel jelölőnyelvként kívánunk végrehajtani. Így a fejlesztőknek egyedülálló lehetőségük van saját parancsaik meghatározására, lehetővé téve számukra a dokumentumban foglalt adatok leghatékonyabb meghatározását. A dokumentum írója létrehozza annak struktúráját, kiépíti a szükséges kapcsolatokat az elemek között, az igényeinek megfelelő parancsok segítségével, és eléri azt a típusú jelölést, amelyre a dokumentum megtekintési, keresési, elemzési műveleteihez szüksége van.

Az XML másik nyilvánvaló előnye, hogy általános célú nyelvként használható információtárolók lekérdezéséhez. Ma, a W3C mélyén az XML-QL (vagy XQL) szabvány működő verziója van mérlegelés alatt, amely a jövőben talán komolyan felveszi a versenyt az SQL-lel. Ezen túlmenően az XML-dokumentumok az adatok tárolásának egyedülálló módjaként működhetnek, amely magában foglalja mind az információk elemzésére, mind a kliens oldalon történő megjelenítésére szolgáló eszközöket. Ezen a területen az egyik ígéretes terület a Java és XML technológiák integrációja, amely lehetővé teszi mindkét technológia erejének kihasználását az információcserére is univerzális adatformátumot is használó, gépfüggetlen alkalmazások építésében.

Az XML emellett lehetővé teszi a dokumentumokban tárolt adatok helyességének ellenőrzését, a dokumentumon belüli hierarchikus kapcsolatok ellenőrzését és egységes szabvány kialakítását a dokumentumok szerkezetére vonatkozóan, amelyek tartalma sokféle adat lehet. Ez azt jelenti, hogy alkalmazható komplex információs rendszerek felépítésében, amelyekben nagyon fontos az azonos rendszerben futó különböző alkalmazások közötti információcsere kérdése. Az információcsere-mechanizmus szerkezetének a projektmunka kezdetén történő létrehozásával a menedzser a jövőben megkímélheti magát a rendszer különböző összetevői által használt adatformátumok inkompatibilitásával kapcsolatos problémáktól.

Az XML egyik előnye továbbá, hogy az XML dokumentumokat feldolgozó programok egyszerűek, és ma már mindenféle, XML dokumentumokkal való együttműködésre tervezett szoftvertermék szabadon terjeszthető. Az XML ma már a Microsoft család összes böngészőjében támogatott internet böngésző, a 4.0-s verzió óta. Bejelentették, hogy támogatni fogják a Netscape Communicator, Oracle DBMS, DB-2 további verzióiban, MS-Office alkalmazásokban. Mindez arra utal, hogy nagy valószínűséggel a közeljövőben az XML lesz az információs rendszerek fő információcsere-nyelve, és ezzel felváltja a HTML-t. Az XML alapján már elkészültek olyan jól ismert speciális jelölőnyelvek, mint a SMIL, CDF, MathML, XSL, és folyamatosan frissül a W3C által vizsgált új nyelvek munkatervezeteinek listája.

Hogyan néz ki egy XML dokumentum?

Ha ismeri a HTML-t, az XML elsajátítása nem igényel sok erőfeszítést az Ön részéről. Bár az XML képességeit és célját tekintve minden bizonnyal nagyon különbözik a hiperszöveg jelölőnyelvétől, mindkét nyelv az SGML részhalmaza, és ezért öröklik annak alapelveit.

A dokumentum szerkezete

A legegyszerűbb XML-dokumentum az 1. példához hasonló lehet

Első

Második 1. albekezdés

Harmadik

Utolsó

Vegye figyelembe, hogy ez a dokumentum nagyon hasonlít egy normál HTML-oldalra. Csakúgy, mint a HTML-ben, a szögletes zárójelekbe tett utasításokat címkéknek nevezzük, és a dokumentum törzsének megjelölésére szolgálnak. Az XML-ben vannak open, close és üres címkék (HTML-ben létezik az üres címke fogalma is, de nem kell külön kijelölni).

Az XML dokumentum törzse jelölőelemekből (markup) és a dokumentum tényleges tartalmából - adatokból (tartalom) áll. Az XML-címkék a dokumentumelemek, azok attribútumai és más nyelvi konstrukciók meghatározására szolgálnak. A dokumentumokban használt jelölések típusairól egy kicsit később lesz még szó.

Minden XML dokumentumnak mindig az utasítással kell kezdődnie, amelyen belül beállíthatja a nyelvi verziószámot, a kódlapszámot és az elemző programnak a dokumentum elemzése során szükséges egyéb paramétereit is.

XML-dokumentum létrehozásának szabályai

Általában az XML dokumentumoknak meg kell felelniük a következő követelményeknek:

A dokumentum fejlécébe XML-deklaráció kerül, amely megadja a dokumentum jelölőnyelvét, verziószámát és további információkat.

Minden nyitó címkének, amely egy bizonyos adatterületet határoz meg a dokumentumban, saját záró "partnerrel" kell rendelkeznie, azaz a HTML-től eltérően a záró címkék nem hagyhatók ki.

Az XML megkülönbözteti a kis- és nagybetűket.

A címkedefiníciókban használt összes attribútumértéket idézőjelbe kell tenni.

A címkék beágyazása XML-ben szigorúan ellenőrzött, ezért a címkék nyitásának és bezárásának sorrendjét figyelni kell.

A kezdő és záró címke közötti összes információ XML-ben adatként kezelendő, ezért minden formázási karaktert figyelembe vesz (azaz a szóközöket, újsorokat, tabulátorokat nem hagyja figyelmen kívül, mint a HTML-ben).

Ha egy XML-dokumentum nem sérti a fenti szabályokat, akkor formálisan helyesnek nevezzük, és az XML-dokumentumok elemzésére tervezett összes elemző megfelelően tud dolgozni vele.

A nyelvi nyelvtannak való formai megfelelés ellenőrzése mellett azonban a dokumentum tartalmazhat a dokumentum tartalmának ellenőrzésére szolgáló eszközöket, az elemek közötti szükséges kapcsolatokat meghatározó, a dokumentum szerkezetét alkotó szabályok betartását. Például a következő szöveg, bár tökéletesen érvényes XML-dokumentum, teljesen értelmetlen lenne:

Oroszország Novoszibirszk</country>

Az XML-dokumentumok helyességének biztosítása érdekében ilyen ellenőrzést végző elemzőket kell használni, amelyeket hitelesítőknek nevezünk.

Jelenleg két fő módja van az XML-dokumentumok helyességének ellenőrzésének: DTD-definíciók (Document Type Definition) és adatsémák (Semantic Schema). A DTD-k és sémák használatáról legközelebb többet fogunk beszélni. Az SGML-lel ellentétben a DTD szabályok XML-ben történő meghatározása nem szükséges, és ez a körülmény lehetővé teszi, hogy bármilyen XML dokumentumot készítsünk anélkül, hogy a meglehetősen bonyolult DTD szintaxison törnénk a fejünket.

Az alapelv

Az elem egy XML dokumentum alapvető szerkezeti egysége. A rózsa szó címkékbe zárása , definiálunk egy nem üres elemet , amelynek tartalma rózsa. Általános esetben az elemek tartalma lehet akár csak valamilyen szöveg, vagy más, egymásba ágyazott, dokumentumelemek, CDATA szakaszok, feldolgozási utasítások, megjegyzések, pl. gyakorlatilag egy XML dokumentum bármely része.

Minden nem üres elemnek egy kezdő címkéből, egy záró címkéből és a közöttük lévő adatokból kell állnia.

A dokumentumban található összes elem halmaza határozza meg annak szerkezetét és meghatározza az összes hierarchikus kapcsolatot. A lapos adatmodellt elemek felhasználásával egy összetett hierarchikus rendszerré alakítják, amely számos lehetséges kapcsolattal rendelkezik az elemek között.

Az ügyfélprogram bármely dokumentumban történő utólagos kereséskor a struktúrájába ágyazott információkra támaszkodik - a dokumentum elemeit használva. Azok. ha például meg akarja találni a megfelelő egyetemet a megfelelő városban, akkor meg kell néznie egy adott elem tartalmát , amely egy adott elemen belül található . A keresés ebben az esetben természetesen sokkal hatékonyabb lesz, mint a kívánt sorrend megtalálása a dokumentumban.

Egy XML-dokumentumban általában legalább egy elemet definiálnak, amelyet gyökérnek neveznek, és az elemzők ettől kezdik meg a dokumentum megtekintését. Ebben a példában ez az elem .

Egyes esetekben a címkék megváltoztathatják és finomíthatják a dokumentum egyes töredékeinek szemantikáját, ugyanazt az információt különböző módon definiálhatják, és ezáltal a dokumentum elemző alkalmazását információkkal látják el a leírt adatok felhasználásának kontextusáról. Például a részlet elolvasása Hollywood, sejthetjük, hogy a dokumentumnak ez a része a városról szól, de a töredékben Hollywood- az étteremről.

Következtetés

A HTML weboldal formázási nyelvet eredetileg az SGML alkalmazásaként vezették be. Később, a WWW rohamos fejlődésével a HTML minden lehetséges módon terjeszkedni kezdett annak érdekében, hogy a szerző nagyobb kontrollt biztosítson az információk külső megjelenítése felett. Új elemek és attribútumok, mint pl vagy , a vizuális formázásra összpontosítva. Megjelentek és aktívan használnak olyan eszközöket, amelyek nem szerepelnek a tulajdonképpeni jelölőnyelvben: képtérképek, Java és JavaScript, bővítmények és így tovább. Számos HTML-elem is létezik, amelyeket csak egy adott böngésző támogat, vagy eltérően működik a különböző böngészőkben. Ezért ma már nehéz megmondani, hogy a HTML az SGML alkalmazása-e vagy sem. Nagyon kevés oldal épül a HTML-specifikációk és a megfelelő DTD-k szerint.

A W3 konzorcium által szabványosított lépcsőzetes stílusok részben ezt a problémát hivatottak enyhíteni. A CSS1 elválasztja az elemek vizuális megjelenését meghatározó stílust az elemek jelölésétől.

Nagyon érdekes az XML nyelv, amely állítólag a HTML-t fogja felváltani a weboldalak jelölőnyelveként. Ez az SGML egy változata, amely elsősorban a WWW-alkalmazásokra irányul. Nem igényli a DTD kötelező jelenlétét, és maga a nyelv egyszerűsített a ritkán használt összetett szerkezetek. Ez egyszerűvé teszi az elemzőket, ami lehetővé teszi az XML aktív használatát a böngészőkben. (Aminek a valószínűsége meglehetősen nagy, tekintve a böngészők terén mindkét fő szereplő XML-el szembeni szűkszavúságát).


VERZIÓ NYOMTATÁSA>>
Olvasott cikk:egyszer.