Značkovací jazyk. Textové značkovací jazyky. Jak se naučit značkovací jazyk HTML

Značkovací jazyk dokumentu je sada speciálních instrukcí, nazývaných tagy, navržených k vytvoření struktury v dokumentech a definování vztahů mezi různými prvky této struktury. Jazykové značky nebo řídicí značky, jak se jim někdy říká, jsou v takových dokumentech odlišeny od hlavního obsahu dokumentu a slouží jako instrukce pro program, který vykresluje obsah dokumentu na straně klienta. Nejstarší systémy používaly symboly „<” и “>“, uvnitř které byly umístěny názvy instrukcí a jejich parametry. Nyní je tento způsob pojmenování značek standardní.

Použití hypertextového členění textového dokumentu v moderních informačních systémech je z velké části způsobeno tím, že hypertext umožňuje vytvořit mechanismus pro nelineární prohlížení informací. V takových systémech nejsou data prezentována jako nepřetržitý proud textových informací, ale jako soubor vzájemně souvisejících komponent, jejichž přechod se provádí pomocí hypertextových odkazů.

Dnešní nejpopulárnější hypertextový značkovací jazyk HTML byl vytvořen speciálně pro organizaci informací distribuovaných na internetu a je jednou z klíčových součástí technologie WWW. Použití hypertextového modelu dokumentu, způsob, jak reprezentovat různé informační zdroje síť se zefektivnila a uživatelé získali pohodlný mechanismus pro vyhledávání a prohlížení potřebných informací.

HTML je zjednodušená verze standardního obecného značkovacího jazyka - SGML (Standart Generalized Markup Language), který byl ISO schválen jako standard již v 80. letech. Tento jazyk je určen k vytváření dalších značkovacích jazyků, definuje povolenou sadu značek, jejich atributy a vnitřní strukturu dokumentu. Kontrola správného použití deskriptorů se provádí pomocí speciální sady pravidel nazývaných DTD, které používá klientský program při analýze dokumentu. Každá třída dokumentů definuje vlastní sadu pravidel, která popisují gramatiku odpovídajícího značkovacího jazyka. Pomocí SGML můžete popsat strukturovaná data, uspořádat informace obsažené v dokumentech a prezentovat tyto informace v nějakém standardizovaném formátu. Ale kvůli určité složitosti se SGML používal hlavně k popisu syntaxe jiných jazyků (nejznámější z nich je HTML) a jen málo aplikací se zabývalo přímo dokumenty SGML.

Jazyk HTML je mnohem jednodušší a pohodlnější než SGML a umožňuje definovat design prvků dokumentu a má určitou omezenou sadu instrukcí - značek, pomocí kterých se provádí proces označování. Instrukce HTML jsou primárně určeny k řízení procesu zobrazování obsahu dokumentu na obrazovce klientského programu a tím určují způsob prezentace dokumentu, nikoli však jeho strukturu. Prvek hypertextové databáze popsané pomocí HTML je textový soubor, který lze jednoduše přenášet po síti pomocí protokolu HTTP. Tato funkce, stejně jako skutečnost, že HTML je otevřený standard a obrovské množství uživatelů má možnost využít možnosti tohoto jazyka k návrhu svých dokumentů, jistě ovlivnily růst popularity HTML a učinily z něj hlavní mechanismus pro prezentace informací na webu dnes.

Moderní aplikace však nepotřebují pouze jazyk pro prezentaci dat na obrazovce klienta, ale také mechanismus, který umožňuje určit strukturu dokumentu a popsat prvky v něm obsažené. HTML má jednoduchou sadu příkazů a docela úspěšně se vyrovnává s úkolem popsat textové informace a zobrazit je na obrazovce prohlížeče prohlížeče. Zobrazená data však sama o sobě nemají nic společného s tagy, které se používají pro formátování, takže programy parseru nemají možnost používat tagy HTML k nalezení fragmentů dokumentu, které potřebujeme. Tito. se setkal například s takovým popisem

růže

divák bude vědět, jakou barvu má zobrazit text obsažený ve značkách a pravděpodobně jej zobrazí správně, ale je mu absolutně lhostejné, kde byl tento tag v dokumentu nalezen, do jakých dalších tagů je aktuální fragment uzavřen, zda jsou v něm fragmenty vnořeny, zda jsou vytvořeny vztahy mezi objekty správně. Taková „lhostejnost“ ke struktuře dokumentu vede k tomu, že hledání či analýza informací v něm se nebude lišit od práce se souvislým textovým souborem, který není rozdělen na prvky. A to, jak víte, není nejvíc účinná metoda pracovat s informacemi.

Další významnou nevýhodou HTML je omezená sada jeho značek. Pravidla DTD pro HTML definují pevnou sadu deskriptorů, a proto vývojář nemá možnost zadávat své vlastní, speciální značky. I když se čas od času objevují nová jazyková rozšíření, jejich dlouhá standardizační cesta, doprovázená neustálými neshodami mezi hlavními výrobci prohlížečů, téměř znemožňuje rychlé přizpůsobení jazyka, jeho využití pro zobrazování specializovaných informací (například multimediálních, matematických, atd.). chemické vzorce atd.).

Shrneme-li vše, co bylo řečeno, lze tvrdit, že ani dnes HTML plně nesplňuje požadavky, které moderní vývojáři kladou na jazyky tohoto druhu. A bylo mu nabídnuto, aby je nahradil nový jazyk hypertextové značení, výkonný, flexibilní a zároveň pohodlný jazyk XML.

XML (Extensible Markup Language) je značkovací jazyk, který popisuje celou třídu datových objektů nazývaných dokumenty XML. Tento jazyk se používá jako prostředek k popisu gramatiky jiných jazyků a ke kontrole správnosti dokumentů. Tito. Samotné XML neobsahuje žádné značky k označení, pouze definuje pořadí, ve kterém jsou vytvářeny. Pokud si tedy například myslíme, že k označení prvku růže v dokumentu je nutné použít značku ; pak nám XML umožňuje volně používat značku, kterou definujeme, a do dokumentu můžeme zahrnout úryvky, jako jsou následující:

růže

Sadu štítků lze snadno rozšířit. Pokud, předpokládejme, chceme také naznačit, že popis květiny by měl jít do popisu skleníku, ve kterém kvete, pak jednoduše nastavíme nové značky a zvolíme pořadí, ve kterém se objeví:

růže

Proces vytváření dokumentu XML je velmi jednoduchý a vyžaduje pouze základní znalost HTML a porozumění úkolům, které je třeba provádět pomocí XML jako značkovacího jazyka. Vývojáři tak mají jedinečnou příležitost definovat své vlastní příkazy, což jim umožňuje co nejefektivněji určit data obsažená v dokumentu. Autor dokumentu vytvoří jeho strukturu, vytvoří potřebné vazby mezi prvky pomocí příkazů, které splňují jeho požadavky, a dosáhne typu označení, které potřebuje k provádění operací prohlížení, vyhledávání a analýzy dokumentu.

Další zjevnou výhodou XML je jeho schopnost být použit jako univerzální jazyk pro dotazování na úložiště informací. W3C v současné době přezkoumává pracovní verzi standardu XML-QL (nebo XQL), který může být v budoucnu vážným konkurentem SQL. Kromě toho mohou dokumenty XML fungovat jako jedinečný způsob ukládání dat, který zahrnuje jak nástroje pro analýzu informací, tak jejich prezentaci na straně klienta. V této oblasti je jednou z perspektivních oblastí integrace technologií Java a XML, která umožňuje využít sílu obou technologií při vytváření strojově nezávislých aplikací využívajících také univerzální datový formát pro výměnu informací.

XML také umožňuje kontrolovat správnost dat uložených v dokumentech, kontrolovat hierarchické vztahy uvnitř dokumentu a stanovit jednotný standard pro strukturu dokumentů, jejichž obsahem mohou být různé údaje. To znamená, že jej lze použít při budování komplexních informačních systémů, ve kterých je velmi důležitá otázka výměny informací mezi různými aplikacemi běžícími ve stejném systému. Vytvořením struktury mechanismu výměny informací na samém začátku práce na projektu se manažer může v budoucnu ušetřit mnoha problémů spojených s nekompatibilitou datových formátů používaných různými komponentami systému.

Jednou z výhod XML je také to, že programy zpracovávající dokumenty XML nejsou složité a dnes se objevily a jsou volně distribuovány všechny druhy softwarových produktů určených pro práci s dokumenty XML. XML je podporováno v IE5. Bylo oznámeno, že bude podporován v následujících verzích Netscape Communicator, Oracle DBMS, DB-2, v aplikacích MS-Office. To vše naznačuje, že s největší pravděpodobností se v blízké budoucnosti XML stane hlavním jazykem pro výměnu informací pro informační systémy a nahradí tak HTML. Na základě XML již byly vytvořeny takové známé specializované značkovací jazyky jako SMIL, CDF, MathML, XSL a seznam pracovních návrhů nových jazyků, které W3C zvažuje, je neustále aktualizován.

Jazyk XSLT se používá ke zpracování dokumentů, provádění změn a nezbytných doplňků značení. Lze jej použít k převodu kódu XML na formátovaný kód HTML, který je snadno čitelný pro člověka. Dokument XML můžete také převést na prostý text nebo jiný restrukturalizovaný dokument XML nebo dokonce na dokument JavaScript. Jazyk XSLT poskytuje přístup k obsahu dokumentů XML a používá se také k vytváření nových dokumentů na jejich základě. Z těchto důvodů se vyplatí naučit se jazyk XSL.

Běžnější je převod dokumentů XML na dokumenty HTML a právě tato operace je popsána v příkladech v této kapitole.

K provedení transformace XSLT se používají dva dokumenty: dokument, který má být převeden, a šablona stylů, která definuje samotnou transformaci. V tomto případě mluvíme o XML dokumentech.

Odeslat svou dobrou práci do znalostní báze je jednoduché. Použijte níže uvedený formulář

Studenti, postgraduální studenti, mladí vědci, kteří využívají znalostní základnu ve svém studiu a práci, vám budou velmi vděční.

Podobné dokumenty

    Definice pojmu hypertext. Hlavní části dokumentu SGML. Historie vytvoření standardního značkovacího jazyka pro HTML dokumenty. Rozdíly mezi syntaxí XHTML a HTML. RSS je rodina formátů XML pro popis zpravodajských kanálů. Použití značkovacího jazyka KML.

    prezentace, přidáno 15.02.2014

    Základy programovacího jazyka webových stránek - HTML. Typy informací, které může webová stránka obsahovat, jsou text, grafika, zvuk, animace a video. Sada nástrojů pro tvorbu webových stránek. Základní HTML editory, které se používají pro web design.

    abstrakt, přidáno 19.01.2011

    obecné charakteristiky Hyper Text Markup Language. Struktura dokumentu HTML. Přehled hlavních vlastností HTML. Prvky moderního designu webových stránek. Analýza praktická aplikace HTML (na příkladu tutoriálů).

    semestrální práce, přidáno 24.11.2012

    Základní značky a atributy jazyka HTML. Vytvoření webu, který by měl tvořit několik vzájemně propojených stránek. Ohleduplnost různé významy atributy a značky na stránkách a dalších dokumentech. Obrazovky vytvořených stránek.

    laboratorní práce, přidáno 16.04.2014

    Co je značkování. Značkovací jazyk je soubor konvencí o principech formátování, které se používají ke kódování textových bloků. Možnosti formátů SGML, HTML, XML, historie tvorby, aplikační specifika, kontrola nad umístěním informací.

    abstrakt, přidáno 22.03.2010

    Nový hypertextový značkovací jazyk XHTML. Validace XHTML dokumentů, určení jejich typu. Časté chyby v XHTML značení. Shoda uživatelských agentů. Použití XHTML s jinými jmennými prostory. Rozšíření sémantiky HTML.

    semestrální práce, přidáno 14.07.2009

    Studium rekurzivního sestupného algoritmu a systému budování gramatiky pomocí lexikálního analyzátoru Lex. Psaní programu pro tlumočení jazyků HTML značení. Kontrola správnosti vstupní sekvence jako společná funkce programy.

    kontrolní práce, přidáno 25.12.2012

V systémech pro zpracování textu dokument obsahuje dodatečné informace, tzv. markup and performance následující funkce:

Výběr logických prvků tohoto dokumentu;

Nastavení funkcí zpracování pro vybrané prvky.

V konvenčních textových procesorech jsou zabudovány příkazy pro zapnutí / vypnutí písma atd., podobně jako příkazy pro ovládání umístění informací na obrazovce nebo při tisku (tzv. únikové sekvence). Tento přístup se nazývá příkazové nebo procedurální značkování (tabulka 2.1).

Alternativním způsobem značkování je vybrat část textu bez určení, jak se s výběrem naloží. Poté ostatní příkazy přiřadí zpracování fragmentům. Toto označení se nazývá popisný(popisný). Obsahuje štítky (značky) začátek a konec textového prvku a určuje, jak má být daný fragment interpretován.

Změnou sady procedur odpovídajících popisnému označení je možné změnit vnější reprezentaci stejného dokumentu. Vývoj myšlenek deskriptivního značkování vedl k definici značkování jako formálního jazyka. To vám umožní zkontrolovat správnost označení a minimalizovat jeho objem nahrazením výchozích hodnot.

Hlavní výhodou popisného značení je jeho flexibilita, protože části textu jsou označeny jako „jaké jsou“ (spíše než „jak by se měly zobrazovat“) a v budoucnu je lze zapsat software k takovému zpracování těchto fragmentů, s nímž ani jazykoví tvůrci nepočítali. Například hypertextové odkazy HTML, původně určené k tomu, aby uživatelé procházeli sbírkou odkazů na webu, jsou od té doby používány mechanismy vyhledávání a indexování na webu, k hodnocení oblíbenosti zdrojů a tak dále.

Popisné označení také v případě potřeby usnadňuje přeformátování dokumentu, protože popis formátu nesouvisí s obsahem. Například, kurzíva lze použít buď pro zvýraznění textu, nebo označení cizích (nebo slangových) slov nebo pro jiné účely.

Pokud jsou však slova jednoduše zvýrazněna (popisně nebo procedurálně) kurzívou, nelze tuto nejednoznačnost zcela vyřešit. Pokud byly oba případy na začátku označeny odlišně, lze každý přeformátovat nezávisle na ostatních. Generic markup je jiný název pro popisné označení.

V praxi prvky různých tříd značek obvykle koexistují v jakémkoli daném systému. HTML například obsahuje jak prvky značkování, které jsou procedurální (b pro tučné písmo), tak další, které jsou popisné (funkce „blockquote“ nebo „href“). HTML také obsahuje preelement, který omezuje oblast textu tak, aby byla umístěna přesně tak, jak je vytištěna.



Většina moderních popisných značkovacích systémů zachází s dokumenty jako s hierarchickými strukturami (stromy) a také poskytuje určité prostředky pro vložené křížové odkazy. S takovými dokumenty lze tedy zacházet a zpracovávat je jako databáze, jejichž struktura je poměrně dobře definovaná (protože však nemají tak striktní schémata jako relační databáze, obvykle se jim říká „volně strukturované databáze“).

S příchodem III. tisíciletí vzrostl zájem o dokumenty nehierarchických struktur. Například antická a náboženská literatura má obvykle rétorickou nebo prozaickou strukturu (příběh, oddíl, odstavec atd.) a zahrnuje také základní informace (knihy, kapitoly, sloky, řádky). Protože se hranice těchto modulů často překrývají, nelze je plně zakódovat pouze pomocí stromového značkovacího systému. Systémy pro modelování dokumentů, které takové rámce podporují, zahrnují MECS, TEI Guidelines, LMNL a CLIX.

Termín „markup“ pochází z tradiční praxe označování rukopisů před publikováním (tj. přidání symbolických příkazů na okraje a mezi řádky papírového rukopisu), po mnoho staletí to dělali vydavatelé (redaktoři a korektoři), kteří zaznamenali jaké písmo, styl a velikost fragmentů textu by měly být napsány, a poté byl rukopis předán sazečům, kteří ručně psali text s přihlédnutím ke značkovacím znakům.



V současné době existuje mnoho značkovacích jazyků (tabulka 2.2), mezi nejznámější patří DocBook,

MathML, SVG, Open eBook, XBRL atd. Jsou určeny především k reprezentaci různých textových dokumentů, ale specializované jazyky lze použít v mnoha dalších oblastech. Zdaleka nejznámějším značkovacím jazykem je HTML (Hypertext Markup Language), jeden ze základů WWW (World Wide Web).

Zvažte některé značkovací systémy.

RUNOFF byl prvním systémem formátování textu, který si získal významnou proslulost. Byl vyvinut v roce 1964 pro operační systém CTSS od Jerome H. Saltzera pomocí assembleru MAD.

Produkt se ve skutečnosti skládal z několika programů:

TYPSET, což byl v podstatě editor dokumentů;

RUNOFF - výstupní procesor.

RUNOFF poskytoval podporu pro stránkování a umístění nadpisů a také zarovnání textu. RUNOFF je přímým předchůdcem formátovače dokumentů Multics, který byl zase předkem unixových formátovačů (roff a nroff) a jejich potomků. Byl to také předchůdce FORMAT pro OS/360 IBM a samozřejmě implicitně pro všechny následující programy a systémy pro zpracování textu. Jméno má pocházet z tehdy populární fráze - Uteču kopii.

TeX je zkratka τεχνη (TEXNH - techne), řeckého výrazu pro „umění, řemeslo, dovednost“, zdroj pro slovo „technický“. V angličtině se vyslovuje „tech“ (jako ve slově technology).

TeX je sázecí systém vytvořený Donaldem Knuthem. Spolu s jazykem METAFONT pro popis písem a typem písma Computer Modern (Computer Modern typeface) byl navržen pro dva hlavní účely - za prvé poskytnout každému uživateli možnost vytvářet vysoce kvalitní knihy za rozumných mzdových nákladů a za druhé, tzv. že takový systém by dával stejné výsledky na jakémkoli počítači, jak nyní, tak v budoucnu. TeX je svobodný software populární v akademické komunitě, zejména mezi matematiky, informatiky, ekonomy a v technických komunitách. Silně konkuruje dalšímu populárnímu formátovači TeX, Unix troff, a používají se společně v mnoha unixových instalacích.

TeX je uznáván jako nejlepší způsob, jak vytvářet a tisknout složité matematické vzorce, ale nyní se používá také pro mnoho dalších sazebních úloh, zejména ve formě LaTeXu a dalšího formátovacího softwaru.

Příkazy TeXu obvykle začínají zpětným lomítkem a jsou seskupeny do bloků se složenými závorkami. Téměř všechny syntaktické vlastnosti TeXu však lze změnit při provádění programu, což ztěžuje ostatním programům zpracování vstupu TeXu. TeX je jazyk založený na makrech a tokenech a mnoho příkazů, včetně těch nejběžněji definovaných uživatelem, je při provádění rozšířeno, dokud nezůstanou pouze nerozšiřitelné tokeny, které se provedou.

Základní verze TeXu obsahuje asi 300 instrukcí zvaných primitiva. Tyto nízkoúrovňové příkazy však uživatelé přímo používají jen zřídka, většinu funkčnosti zajišťují formátové soubory (teXové kopie paměti po načtení velkých sad maker). Původní (výchozí) formát Nut, který přidává asi 600 příkazů, se nazývá Plain TeX. Více používaným formátem je LaTeX, původně vyvinutý Leslie Lamportem, který zahrnuje styly dokumentů pro knihy, dopisy, snímky atd. a přidává podporu pro odkazy a automatické číslování vzorců a sekcí.

Dalším široce používaným formátem je AMS-TeX, vyvinutý American Mathematical Society a poskytuje mnoho přátelštějších příkazů, které mohou vydavatelé upravit tak, aby vyhovovaly jejich značce. Většinu funkcí AMS-TeXu lze aplikovat na LaTeX pomocí "balíčků" AMS (označovaných jako AMS-LaTeX).

Chcete-li napsat program pro tisk řetězce "Programming" v Plain TeX, musíte vytvořit soubor myfile.tex s následujícím obsahem:

\bye % konec souboru; nezobrazeno v konečném výstupu.

Ve výchozím nastavení je vše následující za znakem procenta na řádku komentářem, který interpret TeX ignoruje. Pokud je na tomto souboru spuštěn TeX (například zadáním tex myfile.tex v režimu příkazového řádku), vytvoří se výstupní soubor s názvem myfile.dvi, který představuje obsah stránky ve formátu DVI (Device Independent Format). Výsledky lze vytisknout přímo z interaktivního prohlížeče digitálního videosystému nebo převést do běžnějšího formátu, jako je PostScript, pomocí programu dvips. Varianty TeXu, jako je PDFTeX přímo vytvářejí soubory PDF.

Zvažte formátování matematického vzorce. Například psát slavný výraz pro kořen kvadratické rovnice můžete zadat:

Kvadratický vzorec je $-b \pm \sqrt(b^2 - 4ac) \over 2a$ \bye

Tím se vypíše následující text:

Na TeXu je založeno několik systémů pro zpracování dokumentů, zejména jadeTeX, který používá TeX interně pro tisk z výstupu DSSSL Engine Jamese Clarka, a Texinfo, dokumentační procesor systému GNU. TeX je oficiální sazbou pro operační systém GNU od roku 1984 .

Je známo mnoho rozšíření a doprovodných programů pro TeX, mezi nimi BibTeX pro bibliografie (distribuovaný s LaTeXem), PDFTeX, který obchází formát DVI a výstupy přímo do formátu Adobe Systems' Portable Document Format (pdf), a Omega, který umožňuje používat TeX sada znaků Unicode Většinu rozšíření TeX lze získat zdarma ze sítě Comprehensive TeX Archive Network (CTAN) TeXmacs je editor literatury faktu založený na TeXu, podporuje režim plné shody (WYSIWYG) a je navržen tak, aby byl kompatibilní s TeXem a Emacsem.

V mnoha technických oborů jako je aplikovaná informatika, matematika a fyzika, se TeX stal de facto standardem. Mnoho tisíc knih bylo publikováno pomocí TeXu vydavateli jako Addison-Wesley, Cambridge University Press, Elsevier, Oxford University Press nebo Springer. Četné časopisy v těchto oblastech jsou vytvářeny pomocí TeX nebo LaTeX, přičemž autoři mohou zasílat rukopisy ve formátu TeX.

Od verze 3 TeX používá specifický systém číslování verzí, kde jsou aktualizace označeny další číslicí to desetinné číslo takže číslo verze se asymptoticky blíží l. To je odrazem skutečnosti, že TeX je velmi stabilní a očekávají se pouze drobné aktualizace. Aktuální verze TeXu je 3.141592; toto byla poslední aktualizace v prosinci 2002.

Všechny dokumenty přístupné prostřednictvím webu jsou napsány v jazyce speciálně navrženém pro tento účel, který se nazývá Hyper Text Markup Language (HTML). HTML je jednoduchý značkovací jazyk, který vám umožňuje označovat fragmenty textu a nastavovat odkazy na jiné dokumenty, zvýrazňovat nadpisy několika úrovní, dělit text na odstavce, vycentrovat je atd. a přeměnit prostý text na formátovaný hypermediální dokument.

Základem toolkitu jazyka HTML jsou tagy – HTML instrukce, v jazyce je jich kolem stovky. Jsou přítomny uvnitř hypertextového dokumentu a umožňují formovat celou strukturu a styl jeho designu do jemností. Při prohlížení takového dokumentu například pomocí prohlížeče jsou tyto značky neviditelné. A při vytváření webové stránky pomocí specializovaných softwarových nástrojů a takové nástroje jsou přítomny téměř ve všech kancelářských aplikacích (ve Wordu, Excelu, Accessu, Power Pointu, Outlooku atd.), tagy nejsou pro uživatele viditelné - jsou zadány automaticky.

Značky se píší například v lomených závorkách

nebo
. Zde je první tag úvodní tag a druhý, s lomítkem, je koncový tag. Důsledkem této dvojice značek je, že text mezi nimi je zarovnán na střed okna, ve kterém je dokument zobrazen. Existuje celá řada značek od jednoduchých (pro strukturu, návrh a zarovnání textu, tvorbu barev, velikost, styl písma atd.) až po speciální (pro zahrnutí grafických a multimediálních objektů do dokumentu. Složité značky, kromě tzv. název, mají také atributy, které podrobně popisují způsob jejich použití.

HTML tagy nedefinují absolutní formátování dokumentu jako kódy textového procesoru, ale pouze relativní formátování. Například značka, která způsobí vystředění řádku textu, bude fungovat stejně dobře na široké i úzké obrazovce, a pokud se text nevejde na šířku obrazovky, automaticky se zalomí na druhý řádek, třetí , a tak dále.

Webové stránky můžete prohlížet v libovolném textovém editoru, ale je to extrémně nepohodlné, protože stránka není naformátovaná, ale její značky jsou viditelné.

Programy pro prohlížení dokumentů ve formátu HTML se nazývají prohlížeče. Prohlížení webových dokumentů je jednou z hlavních, i když ne jedinou funkcí prohlížeče.

Od vývoje první verze jazyka (HTML 1.0) uplynulo několik let. Během této doby došlo k poměrně vážnému rozvoji jazyka. Počet značkovacích prvků se téměř zdvojnásobil, design dokumentů se stále více přibližuje designu kvalitních tištěných publikací, rozvíjejí se způsoby popisu netextových informačních zdrojů a způsoby interakce s aplikačním softwarem. Mechanismus pro vývoj typických stylů se zlepšuje. Ve skutečnosti se HTML v současné době vyvíjí směrem k vytvoření standardního jazyka pro vývoj rozhraní pro lokální i distribuované systémy.

Začátkem února 1998 schválila mezinárodní organizace W3C specifikaci „Extensible Markup Language (XML) 1.0“, která položila základ pro vývoj mnoha nových značkovacích jazyků pro přenos informací přes internet na základě standardu XML. V podstatě to znamenalo nový krok ve vývoji hypertextových značkovacích jazyků. XML za čtyři roky své existence přitáhlo nejen poměrně velkou pozornost jak běžných uživatelů, tak mnoha webdesignérů, ale stalo se nedílnou součástí internetu. Již dnes prakticky neexistují servery, které by tuto technologii do jisté míry nevyužívaly jako obdobu HTML. Tvrdit, že XML se nyní stává hlavním způsobem překladu hypertextu prostřednictvím globální sítě, je však přinejmenším předčasné. Samotný jazyk je stále poměrně mladý a některé jeho prvky jsou stále ve vývoji. Zatím byl vytvořen pouze obecný rámec, který snad Html v budoucnu nahradí, ale zatím nelze říci, v jaké konkrétní podobě to bude.

Od začátku

V listopadu 1990, kdy uživatelé internetu poprvé slyšeli o nová technologie, jejíž název se celkem snadno vešel do pouhých tří písmen, si téměř nikdo nedokázal představit, že uplyne velmi málo času a tato technologie se stane prakticky jediným způsobem přenosu informací v globální síti. Dnes je pro mnoho nezkušených uživatelů slovo Internet silně spojeno s WWW, i když ve skutečnosti tyto věci spolu samozřejmě souvisí, ale přece jen trochu jiné.

Celkově vzato je to neuvěřitelná popularita World Wide Web a jeho nedílné součásti, samozřejmě HTML, která se stala důvodem extrémně zvýšené pozornosti věnované strukturám hypertextového značení dokumentů.

Pojem hypertext byl poprvé představen W. Bushem v roce 1945. nicméně skutečné aplikace, využívající takovéto datové struktury, se začaly používat až od 60. let a skutečně mimořádný nárůst aktivity kolem této technologie nastal až tehdy, kdy byla skutečná potřeba mechanismu pro kombinování mnoha informačních zdrojů, umožňujících vytvářet, prohlížet nelineární text. A jako příklad implementace tohoto mechanismu posloužil WWW web.

Vlastní značkovací jazyk dokumentů je sada speciálních instrukcí nazývaných tagy (v některých přeložených publikacích se tagům říká štítky), určených k vytvoření struktury v dokumentech a definování vztahů mezi jednotlivými prvky této struktury, resp. Značky značkovacího jazyka, nebo, jak se někdy říká, deskriptory ovládacích prvků, jsou v takových dokumentech zakódovány velmi specifickým způsobem, odlišují se od hlavního obsahu dokumentu, a pak slouží jako instrukce pro program, který interpretuje a zobrazuje obsah dokumentu. dokument, ve skutečnosti tomu, kdo si ho prohlíží, pokud se pokusíte najít analogie s internetem, pak je tento někdo klient a interpretační program je v nejběžnějším případě prohlížeč). Již v prvních systémech bylo rozhodnuto používat symboly "<" и ">", do kterého umístit názvy instrukcí a jejich parametry. Dnes je tento způsob označování tagů obecně uznávaným standardem.

Samotné použití hypertextového členění textového dokumentu v moderních informačních systémech je z velké části dáno tím, že hypertext umožňuje vytvořit mechanismus pro tzv. nelineární prohlížení informací. To znamená, že v systémech nejsou data prezentována jako souvislý proud textových struktur, ale jako soubor vzájemně souvisejících komponent, jejichž přechod se provádí pomocí hypertextových odkazů.

Nejpopulárnější a dosud nejznámější hypertextový značkovací jazyk HTML byl vytvořen speciálně pro strukturování a přenos informací umístěných na internetu a je nepochybně klíčovou součástí technologie WWW. S využitím modelu hypertextového dokumentu se zefektivnil způsob prezentace různých informačních zdrojů na webu a uživatelé získali pohodlný mechanismus pro vyhledávání a prohlížení potřebných informací. Za první znak v této věci je však stále považován mnohem starší jazyk – SGML.

SGML (Standard Generalized Markup Language) byl oficiálně přijat v roce 1986 jako mezinárodní standard (ISO 8879:1986) pro popis I/O zařízení a počítačově nezávislých metod pro reprezentaci textových informací v elektronické podobě. Základem pro jeho vytvoření byl poměrně starý značkovací jazyk GML (Generalized Markup Language), vyvinutý společností IBM ještě v dobách prvních osobních počítačů. Abychom byli přesní, SGML je metajazyk určený k popisu jiných značkovacích jazyků.

Zpočátku se slovo značkování obecně používalo k popisu anotací nebo jiných symbolů v textu, které měly pisateli dokumentu naznačit, jak se tomu někdy říká „rozvržení“, přesně jak by mělo být napsáno konkrétní místo. Takové metody mohou zahrnovat podtržení vlnovkou pro označení kurzívy, některé speciální ikony pro přeskočení určitých frází nebo jejich vytištění specifickým písmem a tak dále. Když se formátování a tisk postupem času zautomatizovaly, tento termín již zahrnoval všechny druhy speciálních značkovacích kódů, které byly vkládány do elektronických textových dokumentů pro řízení formátování, tisku nebo jiného zpracování.

Značkovací jazyk je tedy soubor konvencí o principech formátování, které se používají ke kódování textových bloků. Značkovací jazyk by měl jasně uvádět, které označení je v daném dokumentu povoleno, jaké označení je vyžadováno, jak odlišit jeho prvky od prostý text a co označení znamená. SGML dokázal vyřešit první tři úkoly, řešení posledního předpokládalo existenci neformálního popisu.

SGML na rozdíl od všech ostatních značkovacích jazyků na něm založených používá místo procedurálního značkování princip takzvaného popisného značkování. Takový systém používá značkovací prvky, které jednoduše poskytují názvy pro kategorizaci jednotlivých částí dokumentu. Jinými slovy, značky jako Nebo \end(list), jednoduše identifikujte část dokumentu a potvrďte, že "tato část je odstavec" nebo "tato část je konec započatého seznamu" atd. Systém, který používá procedurální značkování (sem patří textové procesory, například Microsoft Word), určuje, jaké přímé zpracování bude provedeno v určitém bodě textového dokumentu: "na tomto místě zavolejte takovou a takovou proceduru s parametry 5, např. a z" nebo "posunout okraj dokumentu o 7 mm vpravo od libovolného prvku, přeskočit jeden řádek, začít další červenou čárou" atd. V SGML jsou instrukce potřebné ke zpracování dokumentu pro konkrétní účel (jako je formátování) jasně odděleny od popisného označení, které se vyskytuje v dokumentu. Obvykle se shromažďují mimo dokument v samostatných postupech nebo programech.

Při použití popisného spíše než procedurálního označení lze zpracovat stejný dokument různé programy, z nichž každý může aplikovat své vlastní pokyny pro zpracování na ty jeho části, které považuje za důležité. Analyzátor obsahu může například poznámky pod čarou zcela ignorovat, zatímco formátovač je může extrahovat a sestavit pro tisk na konci každé části. Různé druhy instrukce pro zpracování mohou být spojeny se stejnou částí souboru. Jeden program může například extrahovat příjmení a názvy míst z dokumentu za účelem vytvoření rejstříku nebo databáze, zatímco jiný, který zpracovává stejný text, může vytisknout příjmení a názvy míst jiným písmem.

SGML také zavádí koncept typu dokumentu a v souladu s tím způsoby, jak jej definovat (definice typu dokumentu, DTD). Dokumenty jsou považovány za psané, stejně jako jiné počítačem zpracované objekty. Typ dokumentu je formálně určen jeho součástmi a jejich strukturou. Můžete například definovat typ dokumentu tak, že by se měl skládat z názvu a případně jména autora, za nímž bude následovat abstrakt a sekvence jednoho nebo více odstavců. Žádný dokument bez nadpisu podle této formální definice nebude zprávou ani posloupnost odstavců následovaná abstraktem, ať už je takový dokument z pohledu lidského čtenáře jakkoli podobný zprávě. .

Vzhledem k tomu, že dokumenty jsou známého typu, můžete použít speciální program zvaný parser ke zpracování dokumentu, který tvrdí, že je určitého typu, a ověřit, že všechny prvky požadované pro tento typ dokumentu jsou skutečně přítomny a nalezeny. ve správném pořadí a správně strukturovaný. Ještě důležitější je, že různé dokumenty stejného typu mohou být zpracovány jednotným způsobem. Je možné psát programy využívající znalosti obsažené v informační struktuře dokumentu, které tak mohou být inteligentnější.

SGML jako metajazyk umožňuje definovat specifické jazyky (často označované jako „aplikace SGML“) tak, aby cílily na konkrétní aplikace. Příkladem toho je jazyk HTML, který je široce používán na WWW. Každý takový jazyk je popsán ve formě DTD, definující prvky a jejich atributy. Vzhledem k takovému DTD může software SGML správně zpracovávat dokumenty napsané v souladu s tímto DTD.

I v projektu byl tento jazyk koncipován speciálně pro implementaci modelu přenosu informací do globální sítě, kterou nyní máme. Jinými slovy, HTML je produktem internetu. I když ve skutečnosti je HTML zjednodušenou verzí standardního obecného značkovacího jazyka - SGML (Standart Generalized Markup Language), který byl ISO schválen jako standard již v 80. letech minulého století. STGML není čistý jazyk, ale spíše soubor nějakých pravidel a popisů pro tvorbu dalších jazyků, definuje povolenou sadu tagů, jejich atributy a vnitřní strukturu dokumentu. Kontrola správného použití deskriptorů se provádí pomocí speciální sady pravidel nazývaných popisy DTD, které používá klientský interpret při analýze dokumentu. Každá třída dokumentů definuje vlastní sadu pravidel, která popisují gramatiku odpovídajícího značkovacího jazyka. Pomocí SGML můžete uspořádat informace obsažené v dokumentech, popsat strukturovaná data a prezentovat tyto informace v nějakém standardizovaném formátu pro pozdější použití. Kvůli určité složitosti se však SGML používal hlavně k popisu syntaxe jiných jazyků (nejznámější z nich je HTML) a jen málo aplikací se zabývalo přímo dokumenty SGML.

HTML je mnohem pohodlnější a snadněji použitelný jazyk než SGML. Neumožňuje definovat další jazyky na jejím základě. Použití HTML zahrnuje označení dokumentu podle standardu, který je definován poměrně omezenou sadou instrukcí nebo značek. Tyto instrukce mají především řídit proces zobrazování obsahu dokumentu na obrazovce klientského programu a tím určovat způsob prezentace dokumentu, nikoli však jeho integrální strukturu. Ve většině případů jsou data HTML prezentována v prostém textovém souboru, který lze snadno přenést po síti pomocí protokolu http.

Jak však čas plyne a klade na populární technologie stále přísnější požadavky, moderní aplikace potřebují nejen jazyk pro prezentaci dat na obrazovce klienta, ale také mechanismus, který vám umožní určit strukturu dokumentu a popsat prvky. v něm obsažené. HTML má jednoduchou sadu příkazů a docela úspěšně se vyrovnává s úkolem popsat textové informace a zobrazit je na obrazovce prohlížeče prohlížeče. Zobrazená data však sama o sobě nemají nic společného s tagy, které se používají pro formátování, takže programy parseru nemají možnost používat tagy HTML k nalezení fragmentů dokumentu, které potřebujeme. Tito. se setkal například s takovým popisem

růže,

Divák bude vědět, jakou barvu má zobrazit text obsažený ve značkách a s největší pravděpodobností jej zobrazí správně, ale je mu absolutně lhostejné, kde byl tento tag v dokumentu nalezen, do jakých dalších tagů je aktuální fragment uzavřen, zda jsou v něm fragmenty vnořeny, zda jsou vztahy mezi objekty správně postavený. Taková „lhostejnost“ ke struktuře dokumentu vede k tomu, že hledání či analýza informací v něm se nebude lišit od práce se souvislým textovým souborem, který není rozdělen na prvky. A to, jak víte, není nejefektivnější způsob práce s informacemi.

Další významnou nevýhodou samotné myšlenky implementované v HTML je omezená sada jejích značek. Pravidla DTD pro HTML definují pevnou sadu deskriptorů, a proto vývojář nemá možnost zadávat své vlastní, speciální značky. Čas od času se sice objevují nová jazyková rozšíření (dnes je nejnovější verzí HTML HTML 4.0), ale dlouhá cesta k jejich standardizaci, doprovázená neustálými neshodami mezi hlavními výrobci prohlížečů, téměř znemožňuje rychle jazyk přizpůsobit, používat k zobrazení specializovaných informací (například multimediálních, matematických, chemických vzorců atd.).

Shrneme-li vše, co bylo řečeno, lze tvrdit, že ani dnes HTML plně nesplňuje požadavky, které moderní vývojáři kladou na jazyky tohoto druhu. A jako jeho náhrada byl navržen nový hypertextový značkovací jazyk: výkonný, flexibilní a zároveň pohodlný jazyk XML.

XML (Extensible Markup Language) je značkovací jazyk, který popisuje celou třídu datových objektů nazývaných dokumenty XML. Tento jazyk se používá jako prostředek k popisu gramatiky jiných jazyků a ke kontrole správnosti dokumentů. Tito. Samotné XML neobsahuje žádné značky k označení, pouze definuje pořadí, ve kterém jsou vytvářeny. Pokud si tedy například myslíme, že k označení prvku růže v dokumentu je nutné použít značku , pak nám XML umožňuje volně používat značku, kterou definujeme, a do dokumentu můžeme zahrnout úryvky, jako je tento:

růže

Sadu štítků lze snadno rozšířit. Pokud, předpokládejme, chceme také naznačit, že popis květiny by měl jít do popisu skleníku, ve kterém kvete, pak jednoduše nastavíme nové značky a zvolíme pořadí, ve kterém se objeví:

růže

Pokud tam chceme zasadit několik dalších květin, musíme provést následující změny:

růže

tulipán

kaktus

Jak vidíte, samotný proces tvorby XML dokumentu je velmi jednoduchý a vyžaduje pouze základní znalost HTML a porozumění úkolům, které chceme pomocí XML jako značkovacího jazyka provádět. Vývojáři tak mají jedinečnou příležitost definovat své vlastní příkazy, což jim umožňuje co nejefektivněji určit data obsažená v dokumentu. Autor dokumentu vytvoří jeho strukturu, vytvoří potřebné vazby mezi prvky pomocí příkazů, které splňují jeho požadavky, a dosáhne typu označení, které potřebuje k provádění operací prohlížení, vyhledávání a analýzy dokumentu.

Další zjevnou výhodou XML je jeho schopnost být použit jako univerzální jazyk pro dotazování na úložiště informací. Dnes, v hlubinách W3C, se uvažuje o pracovní verzi standardu XML-QL (nebo XQL), která snad bude v budoucnu vážně konkurovat SQL. Kromě toho mohou dokumenty XML fungovat jako jedinečný způsob ukládání dat, který zahrnuje jak nástroje pro analýzu informací, tak jejich prezentaci na straně klienta. V této oblasti je jednou z perspektivních oblastí integrace technologií Java a XML, která umožňuje využít sílu obou technologií při budování strojově nezávislých aplikací využívajících i univerzální datový formát pro výměnu informací.

XML také umožňuje kontrolovat správnost dat uložených v dokumentech, kontrolovat hierarchické vztahy uvnitř dokumentu a stanovit jednotný standard pro strukturu dokumentů, jejichž obsahem mohou být různé údaje. To znamená, že jej lze použít při budování komplexních informačních systémů, ve kterých je velmi důležitá otázka výměny informací mezi různými aplikacemi běžícími ve stejném systému. Vytvořením struktury mechanismu výměny informací na samém začátku práce na projektu se manažer může v budoucnu ušetřit mnoha problémů spojených s nekompatibilitou datových formátů používaných různými komponentami systému.

Jednou z výhod XML je také to, že programy, které zpracovávají dokumenty XML, jsou jednoduché a dnes jsou volně distribuovány všechny druhy softwarových produktů určených pro práci s dokumenty XML. XML je dnes podporováno ve všech prohlížečích rodiny Microsoft internet Explorer, od verze 4.0. Bylo oznámeno, že bude podporován v následujících verzích Netscape Communicator, Oracle DBMS, DB-2, v aplikacích MS-Office. To vše naznačuje, že s největší pravděpodobností se v blízké budoucnosti XML stane hlavním jazykem pro výměnu informací pro informační systémy a nahradí tak HTML. Na základě XML již byly vytvořeny takové známé specializované značkovací jazyky jako SMIL, CDF, MathML, XSL a seznam pracovních návrhů nových jazyků, které W3C zvažuje, je neustále aktualizován.

Jak vypadá XML dokument?

Pokud jste obeznámeni s HTML, nebude učení XML vyžadovat z vaší strany velké úsilí. Ačkoli se XML svými schopnostmi a účelem jistě velmi liší od hypertextového značkovacího jazyka, oba tyto jazyky jsou podmnožinou SGML, a proto přebírají jeho základní principy.

Struktura dokumentu

Nejjednodušší dokument XML může vypadat jako příklad 1

První

Druhý pododstavec 1

Třetí

Poslední

Všimněte si, že tento dokument je velmi podobný běžné HTML stránce. Stejně jako v HTML se příkazy uzavřené v lomených závorkách nazývají tagy a slouží k označení těla dokumentu. V XML existují tagy open, close a empty (v HTML koncept prázdného tagu také existuje, ale nemusí být speciálně označen).

Tělo dokumentu XML se skládá ze značkovacích prvků (markup) a vlastního obsahu dokumentu – dat (content). Tagy XML jsou navrženy tak, aby definovaly prvky dokumentu, jejich atributy a další jazykové konstrukce. O typech značek používaných v dokumentech si povíme více o něco později.

Jakýkoli dokument XML musí vždy začínat příkazem, ve kterém můžete také nastavit číslo jazykové verze, číslo kódové stránky a další parametry potřebné pro program parser v procesu analýzy dokumentu.

Pravidla pro tvorbu XML dokumentu

Obecně musí dokumenty XML splňovat následující požadavky:

V záhlaví dokumentu je umístěna deklarace XML, která specifikuje značkovací jazyk dokumentu, číslo jeho verze a další informace.

Každý úvodní tag, který definuje určitou datovou oblast v dokumentu, musí mít svého uzavíracího „partnera“, tj. na rozdíl od HTML nelze uzavírací tagy vynechat.

XML rozlišuje velká a malá písmena.

Všechny hodnoty atributů použité v definicích značek musí být uzavřeny v uvozovkách.

Vnořování tagů do XML je přísně kontrolováno, proto je třeba hlídat pořadí otevírání a zavírání tagů.

Všechny informace mezi počáteční a koncovou značkou jsou v XML považovány za data, a proto jsou brány v úvahu všechny formátovací znaky (tj. mezery, nové řádky, tabulátory nejsou ignorovány jako v HTML).

Pokud XML dokument neporušuje výše uvedená pravidla, pak se nazývá formálně správný a všechny parsery určené k analýze XML dokumentů s ním budou umět správně pracovat.

Kromě kontroly formálního souladu s gramatikou jazyka však může dokument obsahovat prostředky kontroly nad obsahem dokumentu, nad dodržováním pravidel, která určují nezbytné vztahy mezi prvky a tvoří strukturu dokumentu. Například následující text, přestože se jedná o dokonale platný dokument XML, by byl zcela nesmyslný:

Rusko Novosibirsk</country>

Aby byla zajištěna správnost XML dokumentů, je nutné používat parsery, které takovou kontrolu provádějí a nazývají se verifikátory.

K dnešnímu dni existují dva hlavní způsoby kontroly správnosti dokumentu XML: definice DTD (definice typu dokumentu) a datová schémata (sémantické schéma). O použití DTD a schémat si povíme více příště. Na rozdíl od SGML není definování pravidel DTD v XML nutné a tato okolnost nám umožňuje vytvářet jakékoli dokumenty XML, aniž bychom si lámali hlavu nad dosud poměrně komplikovanou syntaxí DTD.

Základní princip

Element je základní strukturní jednotkou XML dokumentu. Uzavření slova růže do značek , definujeme neprázdný prvek nazvaný , jehož obsahem je růže. V obecném případě může být obsahem prvků buď jen nějaký text, nebo jiné, vnořené, prvky dokumentu, sekce CDATA, pokyny pro zpracování, komentáře, tzn. prakticky jakákoli část XML dokumentu.

Jakýkoli neprázdný prvek se musí skládat z počáteční značky, koncové značky a dat mezi nimi uzavřených.

Množina všech prvků obsažených v dokumentu definuje jeho strukturu a definuje všechny hierarchické vztahy. Plochý datový model je pomocí prvků transformován do komplexního hierarchického systému s mnoha možnými vztahy mezi prvky.

Při následném vyhledávání v libovolném dokumentu se klientský program bude spoléhat na informace vložené do jeho struktury – pomocí prvků dokumentu. Tito. pokud například chcete najít správnou univerzitu ve správném městě, budete se muset podívat na obsah konkrétního prvku , umístěný uvnitř konkrétního prvku . Hledání v tomto případě bude samozřejmě mnohem efektivnější než hledání požadované sekvence v celém dokumentu.

V dokumentu XML je zpravidla definován alespoň jeden prvek, nazývaný kořen, a z něj začnou analyzátory dokument prohlížet. V tomto příkladu je tento prvek .

V některých případech mohou značky změnit a zpřesnit sémantiku určitých fragmentů dokumentu, definovat stejné informace různými způsoby, a tím poskytnout aplikaci analýzy tohoto dokumentu informace o kontextu použití popsaných dat. Například čtení úryvku Hollywood, můžeme tušit, že tato část dokumentu je o městě, ale ve fragmentu Hollywood- o jídelně.

Závěr

Jazyk HTML pro formátování webových stránek byl původně představen jako aplikace SGML. Později, s rychlým rozvojem WWW, se HTML začalo všemožně rozšiřovat, aby dalo autorovi větší kontrolu nad vnější prezentací informací. Nové prvky a atributy jako např nebo , zaměřené na vizuální formátování. Objevily se a aktivně využívaly nástroje, které nejsou zahrnuty ve vlastním značkovacím jazyce: imagemaps, Java a JavaScript, pluginy a tak dále. Existuje také mnoho prvků HTML, které podporuje pouze určitý prohlížeč nebo v různých prohlížečích fungují odlišně. Proto je nyní obtížné říci, zda HTML je aplikací SGML nebo ne. Velmi málo stránek je sestaveno podle specifikací HTML a odpovídajících DTD.

Kaskádové styly, které byly standardizovány konsorciem W3, jsou částečně navrženy tak, aby tento problém zmírnily. CSS1 odděluje styl, který definuje vizuální vzhled prvků, od označení prvků.

Velmi zajímavý je jazyk XML, který údajně nahradí HTML jako značkovací jazyk pro webové stránky. Jedná se o variantu SGML primárně zaměřenou na WWW aplikace. Nevyžaduje povinnou přítomnost DTD a samotný jazyk je zjednodušen kvůli zřídka používanému složité struktury. Díky tomu budou analyzátory jednoduché, což umožní aktivní používání XML v prohlížečích. (Jehož pravděpodobnost je poměrně vysoká, vezmeme-li v úvahu úklonnost obou hlavních hráčů na poli prohlížečů vůči XML).


TISKOVÁ VERZE >>
Článek přečten:jednou.