Märgistuskeel. Teksti märgistuskeeled. Kuidas õppida HTML-i märgistuskeelt

Dokumendi märgistuskeel on spetsiaalsete juhiste kogum, mida nimetatakse siltideks ja mis on loodud dokumentides struktuuri moodustamiseks ja selle struktuuri erinevate elementide vaheliste suhete määratlemiseks. Keelesildid või juhtsildid, nagu neid mõnikord nimetatakse, eristatakse sellistes dokumentides dokumendi põhisisust ja on juhised programmile, mis renderdab dokumendi sisu kliendi poolel. Varasemad süsteemid kasutasid sümboleid "<” и “>”, mille sisse pandi juhiste nimed ja nende parameetrid. Nüüd on see siltide nimetamise viis standardne.

Tekstidokumendi hüperteksti jaotuse kasutamine tänapäevastes infosüsteemides on suuresti tingitud asjaolust, et hüpertekst võimaldab luua mehhanismi mittelineaarseks teabe vaatamiseks. Sellistes süsteemides ei esitata andmeid mitte pideva tekstilise teabe voona, vaid omavahel seotud komponentide kogumina, mille üleminek toimub hüperlinkide abil.

Tänapäeva populaarseim hüperteksti märgistuskeel HTML loodi spetsiaalselt Internetis levitatava teabe korrastamiseks ja on üks WWW-tehnoloogia võtmekomponente. Hüperteksti dokumendimudeli kasutamine on viis esindada erinevaid teabeallikad võrk on muutunud sujuvamaks ning kasutajad on saanud mugava mehhanismi vajaliku teabe otsimiseks ja vaatamiseks.

HTML on standardse üldise märgistuskeele – SGML (Standart Generalized Markup Language) – lihtsustatud versioon, mille ISO kiitis heaks juba 80ndatel. See keel on mõeldud teiste märgistuskeelte loomiseks, see määratleb lubatud siltide komplekti, nende atribuudid ja dokumendi sisemise struktuuri. Deskriptorite õige kasutamise kontroll toimub spetsiaalse reeglistiku, mida nimetatakse DTD-deks, abil, mida klientprogramm kasutab dokumendi sõelumisel. Iga dokumendiklass määratleb oma reeglistiku, mis kirjeldab vastava märgistuskeele grammatikat. SGML-i abil saate kirjeldada struktureeritud andmeid, korrastada dokumentides sisalduvat teavet ja esitada seda teavet mõnes standardvormingus. Kuid selle mõningase keerukuse tõttu kasutati SGML-i peamiselt teiste keelte süntaksi kirjeldamiseks (millest kuulsaim on HTML) ja vähesed rakendused tegelesid otseselt SGML-dokumentidega.

HTML-keel, mis on palju lihtsam ja mugavam kui SGML, võimaldab teil määratleda dokumendielementide kujundust ja sellel on teatud piiratud juhiste komplekt - sildid, millega märgistusprotsess läbi viiakse. HTML-juhised on mõeldud eelkõige selleks, et juhtida dokumendi sisu kuvamist klientprogrammi ekraanil ja seeläbi määrata dokumendi esitusviisi, kuid mitte selle struktuuri. HTML-i poolt kirjeldatud hüperteksti andmebaasi element on tekstifail, mida saab HTTP-protokolli kasutades lihtsalt üle võrgu üle kanda. See funktsioon, samuti asjaolu, et HTML on avatud standard ja tohutul hulgal kasutajatel on võimalus kasutada selle keele võimalusi oma dokumentide kujundamiseks, mõjutas kindlasti HTML-i populaarsuse kasvu ja muutis selle tänapäeval veebis teabe esitamise peamiseks mehhanismiks.

Kaasaegsed rakendused ei vaja aga mitte ainult keelt kliendiekraanil andmete esitamiseks, vaid ka mehhanismi, mis võimaldab määrata dokumendi struktuuri ja kirjeldada selles sisalduvaid elemente. HTML-il on lihtne käskude komplekt ja see saab üsna edukalt hakkama tekstilise teabe kirjeldamise ja brauserivaaturi ekraanil kuvamisega. Kuvatavatel andmetel pole aga midagi pistmist vormindamiseks kasutatavate siltidega, seega pole parserprogrammidel võimalust kasutada HTML-märgendeid meile vajalike dokumendifragmentide leidmiseks. Need. olles kohanud näiteks sellist kirjeldust

roos

vaataja teab, mis värviga kuvada siltides sisalduv tekst ja tõenäoliselt kuvab see seda õigesti, kuid on täiesti ükskõik, kus see silt dokumendis asub, milliste teiste siltidega praegune fragment on ümbritsetud, kas sellesse on pesastatud fragmente, kas objektidevahelised suhted on õigesti üles ehitatud. Selline "ükskõiksus" dokumendi struktuuri suhtes toob kaasa asjaolu, et selles sisalduva teabe otsimine või analüüs ei erine tööst pideva tekstifailiga, mis pole elementideks jagatud. Ja see, nagu teate, pole kõige suurem tõhus meetod töötada teabega.

Teine HTML-i oluline puudus on selle siltide piiratud hulk. HTML-i DTD-reeglid määratlevad fikseeritud deskriptorite komplekti ja seetõttu pole arendajal võimalust sisestada oma spetsiaalseid silte. Ehkki keelele ilmub aeg-ajalt uusi laiendusi, muudab nende standardimise pikk tee, millega kaasnevad pidevad erimeelsused suuremate brauseritootjate vahel, peaaegu võimatuks keele kiire kohandamine, selle kasutamine eriteabe kuvamiseks (nt multimeedia, matemaatika, keemilised valemid jne.).

Kõike öeldut kokku võttes võib väita, et isegi tänapäeval ei vasta HTML täielikult nõuetele, mida kaasaegsed arendajad seda tüüpi keeltele esitavad. Ja talle tehti ettepanek asendada uus keel hüperteksti märgistus, võimas, paindlik ja samal ajal mugav XML-keel.

XML (Extensible Markup Language) on märgistuskeel, mis kirjeldab tervet klassi andmeobjekte, mida nimetatakse XML-dokumentideks. Seda keelt kasutatakse vahendina teiste keelte grammatika kirjeldamiseks ja dokumentide õigsuse kontrollimiseks. Need. XML ise ei sisalda märgistatavaid silte, see lihtsalt määratleb nende loomise järjekorra. Seega, kui näiteks arvame, et roosielemendi tähistamiseks dokumendis, on vaja kasutada silti ; siis võimaldab XML meil määratletud silti vabalt kasutada ja saame dokumenti kaasata järgmiseid katkendeid:

roos

Siltide komplekti saab hõlpsasti pikendada. Kui oletame, et tahame ka näidata, et lille kirjeldus peaks minema selle kasvuhoone kirjeldusse, kus see õitseb, siis paneme lihtsalt uued sildid ja valime nende ilmumise järjekorra:

roos

XML-dokumendi loomise protsess on väga lihtne ja eeldab vaid HTML-i algteadmisi ning arusaamist XML-i märgistuskeelena tehtavatest ülesannetest. Seega on arendajatel ainulaadne võimalus määratleda oma käsud, võimaldades neil kõige tõhusamalt määrata dokumendis sisalduvaid andmeid. Dokumendi autor loob selle struktuuri, ehitab oma nõuetele vastavate käskude abil elementide vahele vajalikud lingid ning saavutab sellise märgistuse tüübi, mida ta vajab dokumendi vaatamise, otsimise, analüüsi toimingute tegemiseks.

Teine XML-i ilmselge eelis on selle võime kasutada teabehoidlate päringute tegemiseks üldotstarbelise keelena. W3C vaatab praegu üle XML-QL (või XQL) standardi tööversiooni, mis võib tulevikus olla SQL-ile tõsine konkurent. Lisaks võivad XML-dokumendid toimida ainulaadse viisina andmete salvestamiseks, mis hõlmab nii teabe sõelumise kui ka selle kliendi poolel esitamise tööriistu. Selles valdkonnas on üheks perspektiivikaks valdkonnaks Java ja XML tehnoloogiate integreerimine, mis võimaldab mõlema tehnoloogia võimsust kasutada masinast sõltumatute rakenduste ehitamisel, mis kasutavad infovahetuseks ka universaalset andmevormingut.

Samuti võimaldab XML kontrollida dokumentides talletatavate andmete õigsust, kontrollida dokumendisiseseid hierarhilisi seoseid ning kehtestada ühtne dokumentide struktuuri standard, mille sisuks võib olla mitmesuguseid andmeid. See tähendab, et seda saab kasutada keerukate infosüsteemide ehitamisel, mille puhul on väga oluline infovahetuse küsimus samas süsteemis töötavate erinevate rakenduste vahel. Luues teabevahetusmehhanismi struktuuri juba projektiga töötamise alguses, saab juht end tulevikus säästa paljudest probleemidest, mis on seotud süsteemi erinevate komponentide kasutatavate andmevormingute ühildamatusega.

Samuti on XML-i üks eeliseid see, et XML-dokumente töötlevad programmid ei ole keerulised ning tänaseks on ilmunud ja vabalt levitatavad kõikvõimalikud XML-dokumentidega töötamiseks mõeldud tarkvaratooted. XML-i toetab IE5. Teatati, et seda toetatakse järgmistes Netscape Communicatori, Oracle DBMS-i, DB-2 versioonides MS-Office'i rakendustes. Kõik see viitab sellele, et suure tõenäosusega saab XML lähitulevikus infosüsteemide peamiseks infovahetuskeeleks, asendades seega HTML-i. XML-i põhjal on juba loodud sellised tuntud spetsialiseeritud märgistuskeeled nagu SMIL, CDF, MathML, XSL ning W3C-s kaalutavate uute keelte töökavandite loendit uuendatakse pidevalt.

XSLT keelt kasutatakse dokumentide töötlemiseks, muudatuste tegemiseks ja märgistuses vajalike täienduste tegemiseks. Seda saab kasutada XML-koodi teisendamiseks vormindatud HTML-koodiks, mis on inimesele kergesti loetav. Samuti saate XML-dokumendi teisendada lihttekstiks või muuks ümberstruktureeritud XML-dokumendiks või isegi JavaScripti dokumendiks. XSLT keel võimaldab juurdepääsu XML-dokumentide sisule ning seda kasutatakse ka nende põhjal uute dokumentide koostamiseks. Nendel põhjustel tasub XSL-keelt õppida.

Levinud on XML-dokumentide teisendamine HTML-dokumentideks ja just seda toimingut käsitletakse selle peatüki näidetes.

XSLT teisenduse läbiviimiseks kasutatakse kahte dokumenti: teisendatavat dokumenti ja laadilehte, mis määratleb teisenduse enda. Sel juhul räägime XML-dokumentidest.

Saada oma head tööd teadmistebaasi on lihtne. Kasutage allolevat vormi

Üliõpilased, magistrandid, noored teadlased, kes kasutavad teadmistebaasi oma õpingutes ja töös, on teile väga tänulikud.

Sarnased dokumendid

    Hüperteksti mõiste definitsioon. SGML-dokumendi põhiosad. HTML-dokumentide standardse märgistuskeele loomise ajalugu. Erinevused XHTML-i süntaksi ja HTML-i vahel. RSS on XML-vormingute perekond uudistevoogude kirjeldamiseks. KML-i märgistuskeele kasutamine.

    esitlus, lisatud 15.02.2014

    Veebilehtede programmeerimiskeele alused - HTML. Veebileht võib sisaldada teksti, graafikat, heli, animatsiooni ja videot. Tööriistakomplekt veebilehtede loomiseks. Põhilised HTML-i redigeerijad, mida kasutatakse veebikujunduses.

    abstraktne, lisatud 19.01.2011

    üldised omadused Hüperteksti märgistuskeel. HTML-dokumendi struktuur. Ülevaade HTML-i põhifunktsioonidest. Kaasaegse veebilehe kujunduse elemendid. Analüüs praktilise rakendamise HTML (õpetuste näitel).

    kursusetöö, lisatud 24.11.2012

    HTML-keele põhisildid ja atribuudid. Veebilehe loomine, mis peaks koosnema mitmest omavahel seotud lehest. Kaalutlus erinevad tähendused atribuudid ja sildid lehtedel ja muudel dokumentidel. Arendatud lehtede ekraanivormid.

    laboritööd, lisatud 16.04.2014

    Mis on märgistus. Märgistuskeel on vorminduspõhimõtete kokkulepete kogum, mida kasutatakse tekstiplokkide kodeerimiseks. SGML, HTML, XML formaatide võimalused, loomise ajalugu, rakendusspetsiifika, kontroll info paigutuse üle.

    abstraktne, lisatud 22.03.2010

    Uus hüperteksti märgistuskeel XHTML. XHTML dokumentide valideerimine, nende tüübi määramine. Levinud vead XHTML-i märgistuses. Kasutajaagentide vastavus. XHTML-i kasutamine koos teiste nimeruumidega. HTML-i semantika laiendus.

    kursusetöö, lisatud 14.07.2009

    Rekursiivse laskumisalgoritmi ja grammatika koostamise süsteemi uurimine leksikaalanalüsaatoriga Lex. Keeletõlgi programmi kirjutamine HTML märgistus. Sisestusjärjestuse kontrollimine sisendi as õigsuse suhtes ühine funktsioon programmid.

    kontrolltöö, lisatud 25.12.2012

Tekstitöötlussüsteemides sisaldab dokument Lisainformatsioon, mida nimetatakse märgistamiseks ja esitamiseks järgmisi funktsioone:

Selle dokumendi loogiliste elementide valik;

Valitud elementide töötlemisfunktsioonide seadistamine.

Tavalistes tekstitöötlusprogrammides on sisseehitatud käsud fontide jms sisse/välja lülitamiseks, mis on sarnased ekraanil või printimisel teabe paigutuse juhtimise käskudega (nn. põgenemisjärjestused). Seda lähenemist nimetatakse käsu- või protseduurimärgistuseks (tabel 2.1).

Alternatiivne viis märgistamiseks on valida osa tekstist, määramata, kuidas valikut käsitletakse. Seejärel määravad teised käsud fragmentidele töötlemise. Seda märgistust nimetatakse kirjeldav(kirjeldav). See sisaldab silte (sildid) tekstielemendi algus ja lõpp ning määrab, kuidas antud fragmenti tõlgendada.

Muutes kirjeldavale märgistusele vastava protseduuride komplekti, on võimalik muuta sama dokumendi välist esitust. Kirjeldava märgistuse ideede areng viis märgistuse määratlemiseni formaalse keelena. See võimaldab teil kontrollida märgistuse õigsust ja minimeerida selle mahtu, asendades vaikeväärtused.

Kirjeldava märgistuse peamine eelis on selle paindlikkus, kuna tekstiosadele on märgitud "mis need on" (mitte "kuidas neid tuleks kuvada") ja tulevikus saab seda kirjutada. tarkvara nende fragmentide selliseks töötlemiseks, mida keelekujundajad isegi ette ei näinud. Näiteks HTML-hüperlinke, mis olid algselt mõeldud kasutajatele veebis olevate linkide kogumi vahel, on sellest ajast alates kasutatud veebi otsingu- ja indekseerimismehhanismides, ressursside populaarsuse hindamiseks jne.

Kirjeldav märgistus hõlbustab ka vajadusel dokumendi ümbervormindamist, kuna vormingu kirjeldus ei ole sisuga seotud. Näiteks, kaldkiri saab kasutada kas teksti esiletõstmiseks või võõrsõnade (või slängi) märkimiseks või muuks otstarbeks.

Kui aga sõnad on lihtsalt esile tõstetud (kirjeldavalt või protseduuriliselt) kaldkirjas, ei saa seda ebaselgust täielikult lahendada. Kui need kaks juhtumit olid alguses erinevalt märgistatud, saab kumbagi vormindada teistest sõltumatult. Üldine märgistus on kirjeldava märgistuse teine ​​nimi.

Praktikas eksisteerivad erinevate märgistusklasside elemendid tavaliselt igas süsteemis koos. Näiteks HTML sisaldab nii protseduurilisi märgistuselemente (paksus kirjas b) kui ka teisi kirjeldavaid elemente (funktsioon on "blockquote" või "href"). HTML sisaldab ka eelelementi, mis piirab tekstiala, mis paigutatakse täpselt nii, nagu trükitakse.



Enamik kaasaegseid kirjeldavaid märgistussüsteeme käsitleb dokumente hierarhiliste struktuuridena (puudena) ja pakuvad ka mõningaid vahendeid tekstisiseseks ristviideteks. Seetõttu saab selliseid dokumente käsitleda ja töödelda andmebaasidena, mille struktuur on üsna täpselt määratletud (kuna neil aga nii rangeid skeeme nagu relatsiooniandmebaasidel pole, nimetatakse neid tavaliselt "lõdvalt struktureeritud andmebaasideks").

III aastatuhande tulekuga tekkis huvi mittehierarhiliste struktuuride dokumentide vastu. Näiteks antiik- ja religioosne kirjandus on tavaliselt retoorilise või proosalise ülesehitusega (jutt, lõik, lõik jne) ning sisaldab ka taustateavet (raamatud, peatükid, stroobid, read). Kuna nende moodulite piirid sageli kattuvad, ei saa neid täielikult kodeerida, kasutades ainult puustruktuuriga märgistussüsteemi. Selliseid raamistikke toetavate dokumentide modelleerimissüsteemide hulka kuuluvad MECS, TEI juhised, LMNL ja CLIX.

Mõiste “märgistus” pärineb traditsioonilisest käsikirjade märgistamise tavast enne avaldamist (st paberkäsikirja veeristele ja ridade vahele sümboolsete käskude lisamine), sajandeid tegid seda kirjastajad (toimetajad ja korrektorid), kes panid tähele, millist tüüpi, stiili ja tekstifragmentide suurust tuleb trükkida, ning andsid seejärel käsikirja üle käsikirja, võttes arvesse teksti tippimist.



Praegu on palju märgistuskeeli (tabel 2.2), kõige tuntumate hulgas on DocBook,

MathML, SVG, Open eBook, XBRL jne. Need on mõeldud peamiselt erinevate tekstidokumentide esitamiseks, kuid spetsialiseeritud keeli saab kasutada ka paljudes muudes valdkondades. Ülekaalukalt kõige tuntum märgistuskeel on HTML (Hypertext Markup Language), mis on WWW (World Wide Web) üks aluseid.

Mõelge mõnele märgistussüsteemile.

RUNOFF oli esimene tekstivormindussüsteem, mis saavutas märkimisväärse tuntuse. See töötati välja 1964. aastal operatsioonisüsteem CTSS, autor Jerome H. Saltzer, kasutades MAD assemblerit.

Toode koosnes tegelikult paarist programmist:

TYPSET, mis oli põhimõtteliselt dokumendiredaktor;

RUNOFF - väljundprotsessor.

RUNOFF pakkus tuge lehekülgede ja pealkirja paigutamiseks ning teksti joondamiseks. RUNOFF on Multicsi dokumendivormindaja otsene eelkäija, mis omakorda oli Unixi vormindajate (roff ja nroff) ja nende järglaste esivanem. See oli ka IBMi OS/360 ja loomulikult kaudselt kõigi järgnevate tekstitöötlusprogrammide ja süsteemide FORMAT esivanem. Arvatakse, et nimi pärineb tol ajal populaarsest fraasist - Ma võtan koopia ära.

TeX on lühend sõnast τεχνη (TEXNH – techne), kreekakeelsest terminist "kunst, käsitöö, oskus", mis on sõna "tehniline" allikas. Inglise keeles hääldatakse seda "tech" (nagu sõnas technology).

TeX on Donald Knuthi loodud trükisüsteem. Koos fondikirjelduse keele METAFONT ja Computer Modern kirjatüübiga (Computer Modern kirjatüüp) oli see loodud kahel põhieesmärgil – esiteks, et iga kasutaja saaks mõistliku tööjõukuluga luua kvaliteetseid raamatuid ja teiseks, et selline süsteem annaks identsed tulemused kõigis arvutites nii praegu kui ka tulevikus. TeX on tasuta tarkvara, mis on populaarne akadeemilistes ringkondades, eriti matemaatikute, arvutiteadlaste, majandusteadlaste ja tehniliste ringkondade seas. See konkureerib tugevalt teise populaarse TeX-i vormindajaga Unix troff ja neid kasutatakse koos paljudes Unixi installides.

TeX on tunnistatud parimaks viisiks keerukate matemaatiliste valemite loomiseks ja printimiseks, kuid seda kasutatakse nüüd ka paljudes muudes ladumisülesannetes, eriti LaTeX-i ja muu vormindamistarkvara näol.

TeX-käsud algavad tavaliselt kaldkriipsuga ja rühmitatakse lokkis sulgudega plokkideks. Peaaegu kõiki TeX-i süntaktilisi omadusi saab aga programmi täitmisel muuta, mis muudab teiste programmide jaoks TeX-i sisendi töötlemise keeruliseks. TeX on makro- ja märgipõhine keel ning paljusid käske, sealhulgas kasutaja kõige sagedamini määratletud käske, laiendatakse täitmisel, kuni järele jäävad ainult mittelaiendatavad märgid, mis täidetakse.

TeX-i põhiversioon sisaldab umbes 300 käsku, mida nimetatakse primitiivideks. Neid madalatasemelisi käske kasutavad kasutajad aga harva, enamiku funktsioonidest pakuvad vormingufailid (TeX-i mälukoopiad pärast suurte makrokogumite laadimist). Nuti algset (vaikimisi) vormingut, mis lisab umbes 600 käsku, nimetatakse Plain TeX. Laialdasemalt kasutatav formaat on algselt Leslie Lamporti poolt välja töötatud LaTeX, mis sisaldab raamatute, kirjade, slaidide jms dokumendistiile ning lisab linkide ning automaatse valemi ja jaotise nummerdamise toe.

Teine laialdaselt kasutatav formaat on AMS-TeX, mille on välja töötanud Ameerika Matemaatika Selts ja mis pakub palju sõbralikumaid käske, mida kirjastajad saavad muuta vastavalt oma kaubamärgile. Enamikku AMS-TeX-i funktsioone saab LaTeX-ile rakendada, kasutades AMS-i "pakette" (viidatud kui AMS-LaTeX).

Programmi kirjutamiseks stringi "Programmeerimine" printimiseks Plain TeX-is peate looma järgmise sisuga faili myfile.tex:

\bye % faili lõpp; pole lõppväljundis näidatud.

Vaikimisi on kõik, mis järgneb protsendimärgile real, kommentaar, mida TeX-i tõlk ignoreerib. Kui selles failis käivitatakse TeX (näiteks tippides käsurearežiimis tex myfile.tex), luuakse väljundfail nimega myfile.dvi, mis esindab lehe sisu seadmest sõltumatus vormingus (DVI). Tulemused saab printida otse interaktiivsest digitaalse videosüsteemi vaatajast või teisendada programmi dvips abil tavalisemasse vormingusse, näiteks PostScript. TeX-i variandid, nagu PDFTeX, toodavad otse PDF-faile.

Kaaluge matemaatilise valemi vormindamist. Näiteks kirjutada kuulus väljend ruutvõrrandi juureks võite sisestada:

Ruutvalem on $-b \pm \sqrt(b^2 - 4ac) \over 2a$ \bye

See väljastab järgmise teksti:

Mitmed dokumenditöötlussüsteemid põhinevad TeX-il, eriti jadeTeX, mis kasutab sisemiselt TeX-i James Clarki DSSSL-mootori väljundist printimiseks, ja Texinfo, GNU-süsteemi dokumentatsiooniprotsessor. TeX on GNU operatsioonisüsteemi ametlik trükipakett alates 1984. aastast.

Tuntud on arvukalt TeX-i laiendusi ja kaasprogramme, nende hulgas bibliograafiate jaoks mõeldud BibTeX (jagatud LaTeX-iga), PDFTeX, mis möödub DVI-vormingust ja väljub otse Adobe Systemsi kaasaskantavasse dokumendivormingusse (pdf) ja Omega, mis võimaldab TeX-il kasutada Unicode'i märgistikku. Enamiku TeX-i laiendustest saab hankida Archive Networkist (TeX-i jaoks mõeldud CompreSIYCTAN) YW- ja TeX-i jaoks. olema ühilduv TeXi ja Emacsiga.

Paljudes tehnilised valdkonnad nagu rakenduslik arvutiteadus, matemaatika ja füüsika, on TeX-ist saanud de facto standard. TeX-i kasutades on avaldanud tuhandeid raamatuid sellised kirjastajad nagu Addison-Wesley, Cambridge University Press, Elsevier, Oxford University Press või Springer. Arvukad ajakirjad nendes valdkondades koostatakse TeX-i või LaTeX-i abil, kusjuures autoritel on lubatud esitada käsikirju TeX-vormingus.

Alates versioonist 3 on TeX kasutanud spetsiifilist versioonide nummerdamissüsteemi, kus uuendused on tähistatud lisanumbriga to kümnendnumber nii et versiooni number läheneb asümptootiliselt l-le. See peegeldab tõsiasja, et TeX on väga stabiilne ja oodata on vaid väiksemaid uuendusi. TeXi praegune versioon on 3.141592; see oli viimane uuendus 2002. aasta detsembris.

Kõik veebi kaudu juurdepääsetavad dokumendid on kirjutatud spetsiaalselt selleks otstarbeks loodud keeles, mida nimetatakse hüperteksti märgistuskeeleks (HTML). HTML on lihtne märgistuskeel, mis võimaldab teil märgistada teksti fragmente ja seada linke teistele dokumentidele, tõsta esile mitmetasandilisi pealkirju, jagada teksti lõikudeks, tsentreerida jne, muutes lihtteksti vormindatud hüpermeediumidokumendiks.

HTML keele tööriistakomplekti aluseks on sildid - HTML juhised, neid on keeles sadakond. Need on hüperteksti dokumendi sees ja võimaldavad kujundada selle kujunduse kogu struktuuri ja stiili peensusteni. Näiteks brauseriga sellist dokumenti vaadates on need sildid nähtamatud. Ja kui luua veebilehte spetsiaalsete tarkvaratööriistade abil ja sellised tööriistad on olemas peaaegu kõigis kontorirakendustes (Word, Excel, Access, Power Point, Outlook jne), ei ole sildid kasutajale nähtavad - need sisestatakse automaatselt.

Sildid kirjutatakse näiteks nurksulgudesse

või
. Siin on esimene silt avamärgend ja teine, kaldkriipsuga, on sulgev silt. Selle sildipaari mõju seisneb selles, et nendevaheline tekst on joondatud selle akna keskele, milles dokumenti vaadatakse. Silte on mitmesuguseid alates lihtsatest (struktuuri, teksti kujundamise ja joondamise, värvide moodustamise, suuruse, kirjastiili jms jaoks) kuni spetsiaalseteni (graafiliste ja multimeediaobjektide lisamiseks dokumenti. Keerulistel siltidel on lisaks nimele ka atribuudid, mis täpsustavad nende kasutamist.

HTML-sildid ei määratle absoluutset dokumendivormingut nagu tekstitöötluskoodid, vaid ainult suhtelist vormingut. Näiteks märgend, mis paneb tekstirea keskele, töötab ühtviisi hästi laiekraanil ja kitsal ekraanil ning kui tekst ei mahu ekraani laiusele, murrab see automaatselt teise rea, kolmanda ja nii edasi.

Veebilehti saate vaadata mis tahes tekstiredaktoris, kuid see on äärmiselt ebamugav, kuna leht pole vormindatud, kuid selle sildid on nähtavad.

HTML-vormingus dokumentide vaatamise programme nimetatakse brauseriteks. Veebidokumentide vaatamine on brauseri üks peamisi, kuigi mitte ainukesi funktsioone.

Keele esimese versiooni (HTML 1.0) väljatöötamisest on möödunud mitu aastat. Selle aja jooksul toimus üsna tõsine keele areng. Märgistuselementide arv on peaaegu kahekordistunud, dokumentide kujundamine läheneb üha enam kvaliteetsete trükiväljaannete kujundamisele, arenevad mittetekstiliste inforessursside kirjeldamise vahendid ja rakendustarkvaraga suhtlemise viisid. Tüüpiliste stiilide väljatöötamise mehhanismi täiustatakse. Tegelikult areneb HTML praegu standardse liidese arenduskeele loomise suunas nii kohalike kui ka hajutatud süsteemide jaoks.

1998. aasta veebruari alguses kiitis rahvusvaheline organisatsioon W3C heaks spetsifikatsiooni "Extensible Markup Language (XML) 1.0", mis pani aluse paljude uute XML-standardil põhinevate märgistuskeelte väljatöötamisele teabe edastamiseks Interneti kaudu. Sisuliselt tähendas see uus samm hüperteksti märgistuskeelte arendamisel. Oma nelja eksisteerimisaasta jooksul pole XML pälvinud nii tavakasutajate kui ka paljude veebidisainerite üsna suurt tähelepanu, vaid on muutunud Interneti lahutamatuks osaks. Isegi tänapäeval pole praktiliselt ühtegi serverit, mis seda tehnoloogiat mingil määral HTML-i analoogina ei kasutaks. Siiski on veel vähemalt ennatlik väita, et XML on nüüd muutumas peamiseks viisiks hüperteksti tõlkimiseks globaalse võrgu kaudu. Keel ise on veel üsna noor ja mõned selle elemendid on alles väljatöötamisel. Seni on loodud vaid üldine raamistik, mis võib-olla tulevikus HTML-i asendab, kuid mis konkreetsel kujul see olema saab, pole veel võimalik öelda.

Algusest peale

Novembris 1990, kui Interneti-kasutajad kuulsid esimest korda uus tehnoloogia, mille nimi mahuks üsna lihtsalt kolme tähe sisse, ei osanud peaaegu keegi ette kujutada, et läheb väga vähe aega ja sellest tehnoloogiast saab praktiliselt ainuke viis info edastamiseks globaalses võrgus. Tänapäeval seostub sõna Internet paljudele kogenematutele kasutajatele tugevalt WWW-ga, kuigi tegelikult on need asjad muidugi omavahel seotud, kuid siiski veidi erinevad.

Üldiselt on just World Wide Webi ja selle lahutamatu osa, HTML-i, uskumatu populaarsuse põhjuseks, miks dokumentide hüperteksti märgistamise struktuuridele on pööratud väga suurt tähelepanu.

Hüperteksti mõiste võttis esmakordselt kasutusele W. Bush 1945. aastal. Kuid tõelised rakendused, mis selliseid andmestruktuure kasutas, hakati kasutama alles 60ndatel ja tõeliselt erakordne aktiivsus selle tehnoloogia ümber algas alles siis, kui tekkis tõeline vajadus paljude teaberessursside kombineerimise mehhanismi järele, mis võimaldaks luua ja vaadata mittelineaarset teksti. Ja WWW-veeb oli selle mehhanismi rakendamise näide.

Dokumendi märgistuskeel ise on spetsiaalsete juhiste komplekt, mida nimetatakse siltideks (mõnes tõlkeväljaandes nimetatakse silte siltideks), mille eesmärk on luua dokumentides struktuur ja määratleda vastavalt selle struktuuri erinevate elementide vahelisi seoseid. Märgistuskeele sildid või, nagu neid mõnikord nimetatakse, juhtdeskriptorid, on sellistes dokumentides väga spetsiifilisel viisil kodeeritud, paistavad silma dokumendi põhisisu suhtes ja toimivad seejärel juhistena programmile, mis tõlgendab ja kuvab dokumendi sisu, tegelikult sellele, kes seda vaatab, kui proovite leida analooge Internetiga, siis on see keegi kõige tavalisem programm brauseris ja tõlk). Juba esimestes süsteemides otsustati kasutada sümboleid "<" и ">", mille sisse paigutada juhiste nimed ja nende parameetrid. Tänapäeval on selline siltide määramise viis üldtunnustatud standard.

Tekstidokumendi hüperteksti jaotuse kasutamine tänapäevastes infosüsteemides on suuresti tingitud asjaolust, et hüpertekst võimaldab luua mehhanismi niinimetatud mittelineaarseks teabe vaatamiseks. See tähendab, et süsteemides ei esitata andmeid mitte pideva tekstistruktuuride voona, vaid omavahel seotud komponentide kogumina, mille kaudu üleminek toimub hüperlinkide abil.

Seni populaarseim ja tuntuim hüperteksti märgistuskeel – HTML – loodi spetsiaalselt Internetis asuva teabe struktureerimiseks ja edastamiseks ning on kahtlemata WWW-tehnoloogia põhikomponent. Hüperteksti dokumendimudeli kasutamisega on muutunud sujuvamaks erinevate inforessursside esitamise viis veebis ning kasutajad on saanud mugava mehhanismi vajaliku info otsimiseks ja vaatamiseks. Esimeseks märgiks selles küsimuses peetakse aga siiski palju vanemat keelt – SGML.

SGML (Standard Generalized Markup Language) võeti ametlikult vastu 1986. aastal rahvusvahelise standardina (ISO 8879:1986), mis kirjeldab I/O-seadmeid ja arvutist sõltumatuid meetodeid tekstiteabe esitamiseks. elektrooniline vorm. Selle loomise aluseks oli üsna vana märgistuskeel GML (Generalized Markup Language), mille IBM töötas välja esimeste personaalarvutite ajal. Täpselt öeldes on SGML metakeel, mis on loodud teiste märgistuskeelte kirjeldamiseks.

Algselt kasutati sõnamärgistust üldiselt annotatsioonide või muude tekstis sisalduvate tähiste kirjeldamiseks, mis pidid näitama dokumendi koostajale või, nagu seda mõnikord nimetatakse, "trükkijale" täpselt, kuidas teatud kohta tuleks trükkida. Sellised meetodid võivad hõlmata kaldkirja tähistamiseks kriipsuga allakriipsutamist, mõningaid spetsiaalseid ikoone teatud fraaside vahelejätmiseks või nende kindlas kirjatüübis printimiseks jne. Kui vormindamine ja printimine aja jooksul automatiseeriti, hõlmas see termin juba igasuguseid spetsiaalseid märgistuskoode, mis sisestati elektroonilistesse tekstidokumentidesse, et kontrollida vormindamist, printimist või muud töötlemist.

Märgistuskeel on seega vorminduspõhimõtete kokkulepete kogum, mida kasutatakse tekstiplokkide kodeerimiseks. Märgistuskeel peaks selgelt näitama, milline märgistus on antud dokumendis lubatud, milline märgistus on vajalik, kuidas selle elemente eristada lihttekst ja mida märgistus tähendab. SGML suutis lahendada kolm esimest ülesannet, viimase lahendus eeldas mitteametliku kirjelduse olemasolu.

Erinevalt kõigist teistest sellel põhinevatest märgistuskeeltest kasutab SGML protseduurilise märgistuse asemel nn kirjeldava märgistuse põhimõtet. Selline süsteem kasutab märgistuselemente, mis pakuvad dokumendi üksikute osade kategoriseerimiseks lihtsalt pealkirju. Teisisõnu, sildid nagu Või \end(list), tuvastage lihtsalt osa dokumendist ja kinnitage, et "see osa on lõik" või "see osa on alustatud loendi lõpp" jne. Protseduurilist märgistust kasutav süsteem (sealhulgas tekstitöötlusprogrammid, näiteks Microsoft Word) määrab, milline otsetöötlus tekstidokumendi konkreetses punktis läbi viiakse: "kutsuge selline ja selline protseduur selles punktis parameetritega 5, e ja z" või "nihutage dokumendi ääris mis tahes elemendi suhtes 7 mm paremale, jätke üks rida vahele, alustage järgmist punase joonega" jne. SGML-is on juhised, mis on vajalikud dokumendi töötlemiseks konkreetsel eesmärgil (nt vormindamine), selgelt eraldatud dokumendis esinevast kirjeldavast märgistusest. Tavaliselt kogutakse need väljaspool dokumenti eraldi protseduuride või programmide kaudu.

Kasutades pigem kirjeldavat kui protseduurilist märgistust, saab töödelda sama dokumenti erinevaid programme, millest igaüks saab rakendada oma töötlemisjuhiseid nendele osadele, mida ta oluliseks peab. Näiteks võib sisuparser joonealuseid märkusi täielikult ignoreerida, samas kui vormindaja võib need iga osa lõpus printimiseks ekstraktida ja kokku panna. Erinevad liigid töötlemisjuhised võivad olla seotud sama failiosaga. Näiteks võib üks programm indeksi või andmebaasi loomiseks ekstraktida dokumendist inimeste perekonnanimed ja kohanimed, samas kui teine, mis töötleb sama teksti, võib printida perekonnanimed ja kohanimed erinevas kirjas.

SGML tutvustab ka dokumendi tüübi mõistet ja vastavalt selle määratlemise viise (dokumendi tüübi määratlus, DTD). Dokumente käsitletakse trükituna, nagu ka teisi arvutiga töödeldud objekte. Dokumendi tüüp määratakse formaalselt selle koostisosade ja struktuuri järgi. Näiteks saate määratleda dokumendi tüübi nii, et see peaks koosnema pealkirjast ja võib-olla ka autori nimest, millele järgneb abstrakt ja ühest või mitmest lõigust koosnev jada. Ükski dokument ilma pealkirjata selle formaalse definitsiooni järgi ei oleks aruanne ega ka lõikude jada, millele järgneb abstrakt, hoolimata sellest, kui sarnane on selline dokument aruandega inimesest lugeja seisukohast.

Kuna dokumendid on teadaolevat tüüpi, saab spetsiaalset programmi, mida nimetatakse parseriks, kasutada teatud tüüpi dokumendi sõelumiseks ja kontrollida, kas kõik selle dokumenditüübi jaoks vajalikud elemendid on olemas ning õiges järjestuses ja struktuuris. Veelgi olulisem on see, et erinevaid sama tüüpi dokumente saab töödelda ühtselt. Võimalik on kirjutada programme, mis kasutavad dokumendi infostruktuuris sisalduvaid teadmisi, mis võivad seega olla intelligentsemad.

SGML kui metakeel võimaldab määratleda spetsiifilisi keeli (mida sageli nimetatakse "SGML-rakendusteks"), et sihtida konkreetseid rakendusi. Selle näiteks on HTML-keel, mida kasutatakse laialdaselt WWW-s. Iga sellist keelt kirjeldatakse DTD kujul, määratledes elemendid ja nende atribuudid. Sellise DTD korral saab SGML-tarkvara õigesti töödelda dokumente, mis on kirjutatud vastavalt sellele DTD-le.

Isegi projektis loodi see keel spetsiaalselt globaalsesse võrku teabe edastamise mudeli rakendamiseks, mis meil praegu on. Teisisõnu, HTML on Interneti toode. Kuigi tegelikult on HTML standardse üldise märgistuskeele - SGML (Standart Generalized Markup Language) - lihtsustatud versioon, mille ISO kiitis standardina heaks juba eelmise sajandi 80ndatel. SGTML ei ole puhas keel, vaid pigem teatud reeglite ja kirjelduste kogum teiste keelte loomiseks, see määratleb lubatud siltide komplekti, nende atribuudid ja dokumendi sisemise struktuuri. Deskriptorite õige kasutamise kontroll toimub spetsiaalse reeglistiku abil, mida nimetatakse DTD kirjeldusteks, mida klienttõlk kasutab dokumendi sõelumisel. Iga dokumendiklass määratleb oma reeglistiku, mis kirjeldab vastava märgistuskeele grammatikat. SGML-i abil saate korrastada dokumentides sisalduvat teavet, kirjeldada struktureeritud andmeid ja esitada seda teavet mõnes standardvormingus hilisemaks kasutamiseks. Kuid selle mõningase keerukuse tõttu kasutati SGML-i peamiselt teiste keelte süntaksi kirjeldamiseks (millest kuulsaim on HTML) ja vähesed rakendused tegelesid otseselt SGML-dokumentidega.

HTML on palju mugavam ja hõlpsamini kasutatav keel kui SGML. See ei võimalda teil määratleda täiendavaid keeli selle alusel. HTML-i kasutamine hõlmab dokumendi märgistamist vastavalt standardile, mis on määratletud üsna piiratud juhiste või siltide komplektiga. Sellised juhised on mõeldud eelkõige kliendiprogrammi ekraanil dokumendi sisu kuvamise protsessi juhtimiseks ja seeläbi dokumendi esitusviisi, kuid mitte selle tervikliku struktuuri kindlaksmääramiseks. Enamasti esitatakse HTML-andmed lihttekstifailina, mida saab http-protokolli abil hõlpsasti üle võrgu üle kanda.

Kuid mida aeg edasi ja populaarsetele tehnoloogiatele üha karmimaid nõudeid kehtestab, ei vaja tänapäevased rakendused mitte ainult kliendiekraanil andmete esitamise keelt, vaid ka mehhanismi, mis võimaldab määrata dokumendi struktuuri ja kirjeldada selles sisalduvaid elemente. HTML-il on lihtne käskude komplekt ja see saab üsna edukalt hakkama tekstilise teabe kirjeldamise ja brauserivaaturi ekraanil kuvamisega. Kuvatavatel andmetel pole aga midagi pistmist vormindamiseks kasutatavate siltidega, seega pole parserprogrammidel võimalust kasutada HTML-märgendeid meile vajalike dokumendifragmentide leidmiseks. Need. olles kohanud näiteks sellist kirjeldust

roos,

Vaataja teab, mis värvi siltides sisalduvat teksti kuvada ja tõenäoliselt kuvab see seda õigesti, kuid see on täiesti ükskõikne, kust see silt dokumendis leiti, millistesse teistesse siltidesse praegune fragment on ümbritsetud, kas selles on pesastatud fragmente, kas objektidevahelised suhted on õigesti üles ehitatud. Selline "ükskõiksus" dokumendi struktuuri suhtes toob kaasa asjaolu, et selles sisalduva teabe otsimine või analüüs ei erine tööst pideva tekstifailiga, mis pole elementideks jagatud. Ja see, nagu teate, ei ole kõige tõhusam viis teabega töötamiseks.

HTML-is rakendatud idee teine ​​oluline puudus on selle siltide piiratud hulk. HTML-i DTD-reeglid määratlevad fikseeritud deskriptorite komplekti ja seetõttu pole arendajal võimalust sisestada oma spetsiaalseid silte. Ehkki aeg-ajalt ilmub uusi keelelaiendeid (tänapäeval on HTML-i uusim versioon HTML 4.0), muudab nende standardimise pikk tee, millega kaasnevad pidevad erimeelsused suuremate brauseritootjate vahel, peaaegu võimatuks keele kiire kohandamise, selle kasutamise eriteabe (nt multimeedia, matemaatilised, keemilised valemid jne) kuvamiseks.

Kõike öeldut kokku võttes võib väita, et isegi tänapäeval ei vasta HTML täielikult nõuetele, mida kaasaegsed arendajad seda tüüpi keeltele esitavad. Ja selle asendamiseks pakuti välja uus hüperteksti märgistuskeel: võimas, paindlik ja samal ajal mugav XML-keel.

XML (Extensible Markup Language) on märgistuskeel, mis kirjeldab tervet klassi andmeobjekte, mida nimetatakse XML-dokumentideks. Seda keelt kasutatakse vahendina teiste keelte grammatika kirjeldamiseks ja dokumentide õigsuse kontrollimiseks. Need. XML ise ei sisalda märgistatavaid silte, see lihtsalt määratleb nende loomise järjekorra. Seega, kui näiteks arvame, et roosielemendi tähistamiseks dokumendis, on vaja kasutada silti , siis võimaldab XML meil määratletud märgendit vabalt kasutada ja saame dokumenti lisada selliseid katkendeid:

roos

Siltide komplekti saab hõlpsasti pikendada. Kui oletame, et tahame ka näidata, et lille kirjeldus peaks minema selle kasvuhoone kirjeldusse, kus see õitseb, siis paneme lihtsalt uued sildid ja valime nende ilmumise järjekorra:

roos

Kui tahame sinna veel mõne lille istutada, peame tegema järgmised muudatused:

roos

tulp

kaktus

Nagu näete, on XML-dokumendi loomise protsess väga lihtne ja nõuab vaid põhiteadmisi HTML-ist ja arusaamist ülesannetest, mida me tahame XML-i märgistuskeelena täita. Seega on arendajatel ainulaadne võimalus määratleda oma käsud, võimaldades neil kõige tõhusamalt määrata dokumendis sisalduvaid andmeid. Dokumendi autor loob selle struktuuri, ehitab oma nõuetele vastavate käskude abil elementide vahele vajalikud lingid ning saavutab sellise märgistuse tüübi, mida ta vajab dokumendi vaatamise, otsimise, analüüsi toimingute tegemiseks.

Teine XML-i ilmselge eelis on selle võime kasutada teabehoidlate päringute tegemiseks üldotstarbelise keelena. Täna on W3C sügavuses kaalumisel XML-QL (või XQL) standardi tööversioon, mis võib-olla hakkab tulevikus tõsiselt konkureerima SQL-iga. Lisaks võivad XML-dokumendid toimida ainulaadse viisina andmete salvestamiseks, mis hõlmab nii teabe sõelumise kui ka selle kliendi poolel esitamise tööriistu. Selles valdkonnas on üheks perspektiivikaks valdkonnaks Java ja XML tehnoloogiate integreerimine, mis võimaldab kasutada mõlema tehnoloogia võimsust masinast sõltumatute rakenduste ehitamisel, mis kasutavad infovahetuseks ka universaalset andmevormingut.

Samuti võimaldab XML kontrollida dokumentides talletatavate andmete õigsust, kontrollida dokumendisiseseid hierarhilisi seoseid ning kehtestada ühtne dokumentide struktuuri standard, mille sisuks võib olla mitmesuguseid andmeid. See tähendab, et seda saab kasutada keerukate infosüsteemide ehitamisel, mille puhul on väga oluline infovahetuse küsimus samas süsteemis töötavate erinevate rakenduste vahel. Luues teabevahetusmehhanismi struktuuri juba projektiga töötamise alguses, saab juht end tulevikus säästa paljudest probleemidest, mis on seotud süsteemi erinevate komponentide kasutatavate andmevormingute ühildamatusega.

Samuti on XML-i üks eeliseid see, et XML-dokumente töötlevad programmid on lihtsad ning tänapäeval levitatakse vabalt igasuguseid XML-dokumentidega töötamiseks mõeldud tarkvaratooteid. XML-i toetatakse tänapäeval kõigis Microsofti perekonna brauserites Internet Explorer, alates versioonist 4.0. Teatati, et seda toetatakse järgmistes Netscape Communicatori, Oracle DBMS-i, DB-2 versioonides MS-Office'i rakendustes. Kõik see viitab sellele, et suure tõenäosusega saab XML lähitulevikus infosüsteemide peamiseks infovahetuskeeleks, asendades seega HTML-i. XML-i põhjal on juba loodud sellised tuntud spetsialiseeritud märgistuskeeled nagu SMIL, CDF, MathML, XSL ning W3C-s kaalutavate uute keelte töökavandite loendit uuendatakse pidevalt.

Kuidas XML-dokument välja näeb?

Kui olete HTML-iga tuttav, ei nõua XML-i õppimine teilt palju pingutusi. Kuigi XML on oma võimaluste ja eesmärgi poolest kindlasti väga erinev hüperteksti märgistuskeelest, on mõlemad need keeled SGML-i alamhulgad ja seetõttu pärivad selle põhiprintsiibid.

Dokumendi struktuur

Lihtsaim XML-dokument võib välja näha nagu näide 1

Esiteks

Teiseks lõik 1

Kolmandaks

Viimane

Pange tähele, et see dokument on väga sarnane tavalise HTML-lehega. Nii nagu HTML-is, nimetatakse nurksulgudes olevaid avaldusi siltideks ja neid kasutatakse dokumendi põhiosa märgistamiseks. XML-is on avatud, sulgemise ja tühjad sildid (HTML-is on ka tühja sildi mõiste olemas, kuid seda pole vaja spetsiaalselt tähistada).

XML-dokumendi keha koosneb märgistuselementidest (markup) ja dokumendi tegelikust sisust – andmetest (sisu). XML-sildid on mõeldud dokumendi elementide, nende atribuutide ja muude keelekonstruktsioonide määratlemiseks. Dokumentides kasutatavatest märgistustüüpidest räägime veidi hiljem.

Iga XML-dokument peab alati algama lausega, mille sees saate määrata ka keeleversiooni numbri, koodilehe numbri ja muud parameetrid, mida parserprogramm vajab dokumendi sõelumise käigus.

XML-dokumendi loomise reeglid

Üldiselt peavad XML-dokumendid vastama järgmistele nõuetele:

Dokumendi päisesse asetatakse XML-deklaratsioon, mis määrab dokumendi märgistuskeele, selle versiooni numbri ja lisateabe.

Igal avamärgendil, mis määratleb teatud andmeala dokumendis, peab olema oma sulgev "partner", st erinevalt HTML-ist ei saa sulgevaid silte ära jätta.

XML on tõstutundlik.

Kõik märgendi definitsioonides kasutatud atribuutide väärtused tuleb panna jutumärkidesse.

Siltide pesastamine XML-is on rangelt kontrollitud, seega tuleb jälgida siltide avamise ja sulgemise järjekorda.

Kogu infot algus- ja lõpumärgendite vahel käsitletakse XML-is andmetena ja seetõttu võetakse arvesse kõiki vormindamismärke (st tühikuid, reavahetusi, tabeldusmärke ei ignoreerita, nagu HTML-is).

Kui XML-dokument ülaltoodud reegleid ei riku, nimetatakse seda formaalselt korrektseks ja kõik XML-dokumentide sõelumiseks mõeldud parserid saavad sellega õigesti töötada.

Kuid lisaks keele grammatika formaalsele vastavuse kontrollimisele võib dokument sisaldada vahendeid, mis kontrollivad dokumendi sisu, vastavust reeglitele, mis määravad kindlaks vajalikud seosed elementide vahel ja moodustavad dokumendi struktuuri. Näiteks järgmine tekst, mis on täiesti kehtiv XML-dokument, oleks täiesti mõttetu:

Venemaa Novosibirsk</country>

XML-dokumentide õigsuse tagamiseks on vaja kasutada sellist kontrolli teostavaid parsereid, mida nimetatakse kontrollijateks.

Praeguseks on XML-dokumendi õigsuse kontrollimiseks kaks peamist võimalust: DTD määratlused (Document Type Definition) ja andmeskeemid (Semantic Schema). DTD-de ja skeemide kasutamisest räägime lähemalt järgmisel korral. Erinevalt SGML-ist ei ole DTD reeglite määratlemine XML-is vajalik ja see asjaolu võimaldab meil luua mis tahes XML-dokumente, ilma et peaksime veel üsna keerulise DTD süntaksi üle pead murdma.

Põhiprintsiip

Element on XML-dokumendi põhiline struktuuriüksus. Sõna roos lisamine siltidesse , määratleme mittetühja elemendi nimega , mille sisu on roos. Üldjuhul võib elementide sisuks olla kas lihtsalt mingi tekst või muud, pesastatud, dokumendielemendid, CDATA sektsioonid, töötlemisjuhised, kommentaarid, s.t. peaaegu iga XML-dokumendi osa.

Kõik mittetühjad elemendid peavad koosnema algus- ja lõpumärgendist ning nende vahele jäävatest andmetest.

Kõikide dokumendis sisalduvate elementide kogum määrab selle struktuuri ja kõik hierarhilised seosed. Lameda andmemudel teisendatakse elementide abil keerukaks hierarhiliseks süsteemiks, millel on palju võimalikke seoseid elementide vahel.

Hiljem mis tahes dokumendist otsides tugineb klientprogramm selle struktuuri manustatud teabele - kasutades dokumendi elemente. Need. kui soovite näiteks leida õiget ülikooli õiges linnas, siis peate vaatama konkreetse elemendi sisu , mis asub konkreetse elemendi sees . Otsing on sel juhul muidugi palju tõhusam kui soovitud järjestuse leidmine kogu dokumendist.

XML-dokumendis on reeglina määratletud vähemalt üks element, mida nimetatakse juurteks, ja analüüsijad hakkavad dokumenti sellest vaatama. Selles näites on see element .

Mõnel juhul võivad sildid muuta ja täpsustada dokumendi teatud fragmentide semantikat, määratledes sama teabe erineval viisil ja pakkudes seeläbi selle dokumendi sõelumisrakendusele teavet kirjeldatud andmete kasutamise konteksti kohta. Näiteks katkendi lugemine Hollywood, võime aimata, et see osa dokumendist on linna kohta, kuid fragmendis Hollywood- söögikoha kohta.

Järeldus

Veebilehtede vormindamise keel HTML võeti algselt kasutusele SGML-i rakendusena. Hiljem, koos WWW kiire arenguga, hakkas HTML igati laienema, et anda autorile suurem kontroll teabe välise esitamise üle. Uued elemendid ja atribuudid nagu või , mis on keskendunud visuaalsele vormindamisele. On ilmunud ja aktiivselt kasutatud tööriistu, mida märgistuskeel ei sisalda: pildikaardid, Java ja JavaScript, pistikprogrammid jne. Samuti on palju HTML-i elemente, mida toetab ainult konkreetne brauser või mis töötavad erinevates brauserites erinevalt. Seetõttu on praegu raske öelda, kas HTML on SGML-i rakendus või mitte. Väga vähesed leheküljed on üles ehitatud HTML-i spetsifikatsioonide ja vastavate DTD-de järgi.

Kaskaadstiilid, mille W3 konsortsium on standardinud, on osaliselt loodud selle probleemi leevendamiseks. CSS1 eraldab stiili, mis määrab elementide visuaalse välimuse, elementide märgistusest.

Suurt huvi pakub XML-keel, mis väidetavalt asendab HTML-i veebilehtede märgistuskeelena. See on SGML-i variant, mis on peamiselt suunatud WWW-rakendustele. See ei nõua DTD kohustuslikku olemasolu ja keel ise on harva kasutatava tõttu lihtsustatud keerulised struktuurid. See muudab parserid lihtsaks, mis võimaldab brauserites XML-i aktiivselt kasutada. (Selle tõenäosus on üsna suur, arvestades mõlema brauserite valdkonna põhitegija napisõnalisust XML-i suunas).


PRINDI VERSION>>
Artikkel loetud: üks kord.