De ce avem nevoie de un limbaj de marcare? Limbaje de marcare a documentelor - care este sarcina lor principală Sunt utilizate sisteme create în diferite limbaje de marcare.

În sistemele de procesare a textului, în document sunt incluse informații suplimentare, numite marcajeleși îndeplinesc următoarele funcții:

  • evidențierea elementelor logice ale unui document dat;
  • funcții de setare pentru prelucrarea elementelor selectate.

Procesoarele de text convenționale au încorporate comenzi pentru pornirea/dezactivarea fonturilor și altele, similare comenzilor pentru controlul plasării informațiilor pe ecran sau la imprimare (așa-numitele secvențe Escare). Această abordare se numește echipă sau marcaj procedural.

O tehnică alternativă de marcare este de a selecta o porțiune de text fără a specifica modul în care ar trebui să fie tratată selecția. Alte comenzi atribuie apoi modul în care fragmentele trebuie procesate. Acest marcaj este numit descriptiv(descriptiv). Include etichete la începutul și la sfârșitul unui element de text și indică modul de interpretare a acestui fragment.

Schimbând setul de proceduri corespunzător markupului descriptiv, puteți modifica aspectul aceluiași document. Dezvoltarea ideilor despre marcajul descriptiv a condus la definirea marcajului ca limbaj formal. Acest lucru vă permite să verificați corectitudinea marcajului și să minimizați volumul acestuia prin înlocuirea valorilor implicite.

Avantaje

Principalul avantaj al marcajului descriptiv este flexibilitatea sa, deoarece fragmentele de text sunt marcate ca „ce sunt” (mai degrabă decât „cum ar trebui să fie redate”), iar software-ul poate fi scris în viitor pentru a gestiona aceste bucăți în moduri nici măcar intenționat de designerii de limbaj. De exemplu, hyperlinkurile HTML, destinate inițial utilizatorilor să navigheze printr-un set de conexiuni în rețea, au început ulterior să fie folosite de mecanismele de căutare și indexare în rețea, pentru a evalua popularitatea resurselor și așa mai departe.

Markupul descriptiv facilitează, de asemenea, reformatarea documentului, dacă este necesar, deoarece descrierea formatului nu are legătură cu conținutul. De exemplu, cursive poate fi folosit fie pentru a evidenția text, pentru a marca cuvinte străine (sau argou), fie în alte scopuri. Cu toate acestea, dacă cuvintele sunt pur și simplu evidențiate (descriptiv sau procedural) ca cursive, această ambiguitate nu poate fi rezolvată pe deplin. Dacă cele două cazuri au fost etichetate diferit la început, fiecare poate fi reformatat independent de celelalte. Markup generic este un alt nume pentru marcajul descriptiv.

Elemente practice diverse clase markupurile coexistă de obicei pe orice sistem dat. De exemplu, HTML conține atât elemente de markup care sunt procedurale (b pentru bold), cât și altele care sunt descriptive (atributul „blockquote” sau „href”). HTML include și un element PRE, care limitează zona de text care va fi poziționată exact așa cum este tastat.

Sisteme de markup descriptive

Cel mai mult sisteme moderne Marcajul descriptiv tratează documentele ca structuri ierarhice (arbori) și oferă, de asemenea, unele mijloace pentru referințe încrucișate încorporate. Prin urmare, astfel de documente pot fi interpretate și prelucrate ca baze de date, a căror structură este destul de bine definită (cu toate acestea, deoarece nu au scheme atât de stricte precum bazele de date relaționale, ele sunt de obicei numite „baze de date semistructurate”).

Odată cu apariția mileniului al III-lea, a apărut interesul pentru documentele structurilor neierarhice. De exemplu, literatura antică și religioasă are de obicei o structură retorică sau în proză (poveste, secțiune, paragraf etc.) și include și informații de fundal(cărți, capitole, strofe, rânduri). Deoarece limitele acestor module se suprapun adesea, ele nu pot fi complet codificate folosind doar un sistem de marcare structurat în arbore. Sistemele de modelare a documentelor care susțin astfel de structuri includ MECS, TEI Guidelines, LMNL și CLIX.

Termenul „markup” provine din practica tradițională de a marca manuscrisele înainte de publicare (adică adăugarea de comenzi simbolice în marginile și între rândurile unui manuscris de hârtie). Timp de multe secole, acest lucru a fost făcut de lucrători din domeniul publicării (editori și corectori) care au notat ce font, stil și fragmente de text de dimensiunea punctului ar trebui să fie tastate, apoi au predat manuscrisele tipografilor, care au tastat manual textul ținând cont de marcaj. simboluri.

În prezent, există multe limbaje de marcare, printre cele mai cunoscute sunt DocBook, MathML, SVG, Open eBook, XBRL și altele. Sunt destinate în principal reprezentarii diverselor documente text, dar limbajele specializate pot fi folosite în multe alte domenii. Desigur, cel mai cunoscut limbaj de marcare este HTML (HyperText Markup Language), unul dintre fundamentele WWW (World Wide Web).

Orice document are trei componente:

· structura;

Conținutul este informația care este afișată în document. Conținutul unui document pe hârtie poate fi pur textual și poate conține și imagini. Dacă documentul este depus în formular electronic, poate conține date multimedia, precum și link-uri către alte documente. Deși conținutul diferitelor documente variază, acestea pot fi clasificate în tipuri, cum ar fi o carte sau un bilet de tren.

Stilul unui document determină forma în care conținutul acestuia va fi afișat pe un anumit dispozitiv (de exemplu, o imprimantă sau un afișaj). Conceptul de stil include caracteristicile fontului (nume, dimensiune, culoare) întregului document de ieșire sau blocurile sale individuale, ordinea de paginare, locația blocurilor pe pagini și alți parametri. Același document poate fi scos stiluri diferite atât pe medii diferite, cât și pe același suport.

Limbajele de marcare a documentelor sunt limbaje artificiale, menit să descrie structura unui document și relațiile dintre diferitele obiecte ale structurii. Datele de marcare se mai numesc și metadate.

Primul limbaj de marcare este GML (Generalized Markup Language), dezvoltat de angajații IBM încă din anii 60 ai secolului trecut. Succesorul său imediat a fost limbajul SGML (Standard Generalized Markup Language), care definește regulile de înregistrare a elementelor de marcare a documentelor. Un document care urmează regulile unei limbi se numește document SGML.

Limbajul SGML este definit în standardul ISO 8879, care specifică următoarele cerințe de bază pentru limbajul de marcare a documentelor:

· Limbajul trebuie să poată fi citit de om.

· fișierele documentelor marcate trebuie să fie text și codificate folosind caractere de cod ASCII (American Standard Code for Information Interchange). Cu toate acestea, conținutul documentului nu trebuie să fie codificat ASCII sau text.

SGML și limbile similare folosesc instrumente speciale de marcare a documentelor:

· elemente și atribute însoțitoare;

· entitati;

· comentarii.

Unitatea structurală a unui document SGML este elementul. În textul marcat, fiecare element trebuie evidențiat într-un anumit mod. Evidențierea se face prin inserarea unei etichete de pornire (de la Cuvânt englezesc etichetă – etichetă) la începutul elementului (eticheta de început) și eticheta de sfârșit (eticheta de final) la sfârșitul elementului. Etichetele de început și de sfârșit au același nume. Pentru a distinge etichetele de textul simplu, acestea trebuie să înceapă cu un caracter care să indice începutul unei etichete și să se termine cu un caracter care să indice sfârșitul unei etichete. În plus, în eticheta de sfârșit este specificat un simbol - un semn al etichetei de sfârșit. În SGML, orice simbol poate fi specificat ca astfel de caracteristici, dar simbolul cel mai des folosit ca începutul unei etichete este "<" (левая угловая скобка), в качестве признака окончания тега используется символ ">" (paranteză unghiulară din stânga), iar caracterul etichetei de final este un „/” (slash). Elementele dintr-un document SGML pot include alte elemente, rezultând o reprezentare grafică a documentului SGML ca structură ierarhică (arboresc).


Exemplul 4.3.1. Un document SGML care specifică o listă de studenți cu rezultatele sesiunii lor de examen poate fi specificat după cum urmează:

Lista evaluărilor elevilor din sesiune

Ivanov Ivan Ivanovici

TS-61

O

B

B

B

Petrov Petr Petrovici

TS-62

C

C

D

C

În acest document, primul element este elementul student-list. Acest element conține un element titlu (titlu) și mai multe elemente student (date student). La rândul său, fiecare element student conține un element de nume complet (numele, prenumele și patronimul elevului), un element de număr de grup (număr de grup) și un element de listă de notițe (lista notelor elevilor din sesiune). Și, în sfârșit, elementul mark-list conține mai multe elemente de marcare (score).

O reprezentare grafică a acestei liste în Fig. 4.3.1 are o structură arborescentă:

Orez. 4.3.1. Structura documentului SGML în reprezentarea grafică

Atributele pot fi folosite pentru a rafina elementele SGML. Atributele sunt scrise în eticheta de început a elementului după cum urmează:

attribute-name="valoare-atribut".

Un element poate avea mai multe atribute specificate. Atributele sunt separate unele de altele și numele elementului prin cel puțin un spațiu.

Exemplul 4.3.2. Pentru elementele de nota din exemplul 4.3.1, puteți seta atributul subiectului, a cărui valoare este numele disciplinei în care a fost susținut examenul. Apoi, pentru primul elev, elementele vor lua următoarea formă:

O

B

B

B

Limbi precum SGML folosesc entități pentru a lucra cu grupuri de date. O entitate este orice date numite, atât text, cât și non-text. La vizualizarea unui document, numele entității este înlocuit cu valoarea acestuia. Deci, de exemplu, numele entității de text kpi va fi înlocuit cu valoarea sa: Institutul Politehnic din Kiev, iar entitatea non-text image1 va fi înlocuită cu o imagine numită imagine1.

Limbaje de marcare ușoare

Sunt numite limbi concepute pentru scrierea simplă și rapidă a textului într-un editor de text simplu luminat(ro:Limbajul de marcare ușor). Caracteristicile unor astfel de limbi:

  • Funcții minime.
  • Un set mic de etichete acceptate.
  • Usor de invatat.
  • Textul sursă în această limbă este citit cu aceeași ușurință ca și documentul final.

Ele sunt folosite acolo unde o persoană trebuie să pregătească text într-un editor de text obișnuit (bloguri, forumuri, wiki-uri) sau acolo unde este important ca un utilizator cu un editor de text obișnuit să poată citi și textul. Iată câteva limbaje de marcare ușoare utilizate în mod obișnuit:

  • Markup Wiki (vezi Wikipedia: Cum să editați articole)
  • Diverse sisteme de auto-documentare (de exemplu, Javadoc).

Poveste

Termenul „markup” provine din sintagma „marking up” ( marcare, marcare- engleză) din practica tradițională de publicare de a plasa note condiționate speciale în marginile și în textul unui manuscris sau al unei dovezi înainte de a-l trimite la tipărire. Astfel, „markup men” au indicat tipul, stilul și dimensiunea fontului pentru fiecare parte a textului. În zilele noastre, marcarea textului este realizată de editori, corectori, designeri grafici - și, bineînțeles, de către autorii înșiși.

GenCode

Ideea de a folosi limbaje de marcare în procesarea de text pe computer a fost cel mai probabil introdusă pentru prima dată de William Tunnicliffe. William W. Tunnicliffe ) la o conferință din 1967. El însuși și-a numit propunerea „codificare universală” (ing. „codificare generică”). În anii 1970, Tunnicliffe a condus dezvoltarea standardului GenCode pentru industria editorială și mai târziu a devenit șeful unuia dintre comitetele Organizației Internaționale pentru Standardizare (ISO). Organizația Internațională pentru Standardizare ), care a creat SGML, primul limbaj de markup descriptiv. Brian Reid (ur. Brian Reid ) în disertația sa, pe care a susținut-o în 1980 la Universitatea Carnegie. Universitatea Carnegie Mellon ), în dezvoltarea conceptului propus, a realizat implementarea practică a marcajului descriptiv.

Cu toate acestea, în zilele noastre „părintele” limbajelor de marcare este de obicei numit cercetătorul IBM Charles Goldfarb. Charles Goldfarb ). Conceptul de bază i s-a născut în 1969, în timp ce lucra la un sistem primitiv de management al documentelor destinat firmelor de avocatură. În același an, a luat parte la crearea limbajului IBM GML, care a fost introdus pentru prima dată în 1973.

Unele implementări timpurii ale limbajelor de marcare pentru computere pot fi găsite în utilitățile de tipografie UNIX, cum ar fi troff și nroff. Acestea vă permit să inserați comenzi de formatare în textul unui document pentru a-l formata în funcție de cerințele editorului.

Disponibilitatea software-ului de publicare cu funcție WYSIWYG „ceea ce vezi este ceea ce primești” - „ceea ce vezi este ceea ce primești”) a înlocuit majoritatea acestor limbi în rândul utilizatorilor obișnuiți, deși lucrările serioase de publicare utilizează încă markup pentru structuri specifice de text non-vizuale, iar editorii WYSIWYG salvează acum cel mai adesea documente în formate bazate pe limbaje de marcare.

TeX

Un alt standard de publicare important este TeX, creat și îmbunătățit ulterior de Donald Knuth în anii 70 și 80 ai secolului XX. TeX reunește capabilități ridicate de formatare a textului și descrieri de fonturi, în special pentru cărțile de matematică calitate profesională. Acest lucru ia cerut lui Knuth să petreacă mult timp învățând arta compoziției. Cu toate acestea, TeX a scăzut, astfel încât acum este folosit în principal în lumea științifică, unde este standardul de facto în multe discipline științifice. Pe lângă Tech, există LaTeX, care este un sistem de markup descriptiv utilizat pe scară largă bazat pe TeX.

Scribe, GML și SGML

Prima limbă cu o distincție clară și distinctă între structura documentului și aspectul documentului a fost Scribe, creat și descris în teza de doctorat a lui Brian Reid în 1980. Scribe a fost revoluționar în ceea ce privește numărul de moduri în care putea fi procesat, nu în ultimul rând pentru că a introdus ideea de stiluri, separat de textul și gramatica propriu-zise, ​​și care guvernează utilizarea elementelor descriptive. Scribe a influențat dezvoltarea GML (mai târziu SGML) și este, de asemenea, strămoșul direct al HTML și LaTeX.

La începutul anilor 1980, ideea că marcajul ar trebui să se concentreze pe aspectele structurale ale unui document și să lase interpretului reprezentarea externă a documentului a dus la crearea SGML. Limbajul a fost dezvoltat de un comitet condus de Goldfarb. El a combinat idei din mai multe surse, inclusiv proiectul Tunnikoflick, GenCode. Sharon Adler, Anders Berglund și James A. Marke au fost, de asemenea, membri cheie ai comitetului SGML.

SGML a definit cu precizie sintaxa pentru includerea markupurilor în text și, de asemenea, a descris separat ce etichete sunt permise și unde (DTD - Document Type Definition). Acest lucru a permis autorilor să creeze și să utilizeze orice marcaj dorit, alegând etichetele pe care să le folosească și dându-le nume într-o limbă normală. Astfel, SGML ar trebui considerat un meta-limbaj; multiplu limbi speciale marcajele provin de la el. Sfârșitul anilor 1980 a văzut creșterea noilor limbaje de marcare bazate pe SGML, cum ar fi TEI și DocBook.

În 1986, SGML a fost publicat ca standard internațional cu numărul ISO 8879. SGML a găsit o largă acceptare și a fost utilizat pe scară largă în proiecte foarte mari. Cu toate acestea, s-a constatat, în general, că este greoaie și dificil de învățat, efectul secundar al limbii fiind că a încercat să facă prea multe și să fie prea flexibilă. De exemplu, SGML a creat etichete de închidere (sau etichete de deschidere sau chiar ambele) nu întotdeauna necesare, deoarece credea că acest marcaj va fi adăugat manual de personalul de asistență al proiectului, care ar aprecia economiile la apăsarea tastelor.

HTML

Până în 1991, utilizarea SGML a fost limitată la programe de afaceri și baze de date, iar instrumentele WYSIWYG (care stocau documente în formate binare proprietare) au fost folosite pentru alte programe de procesare a documentelor. Situația s-a schimbat când Sir Tim Berners-Lee a aflat despre SGML de la colegul său Anders Bergland. Anders Berglund ) și alți colaboratori de la CERN, au folosit sintaxa SGML pentru a crea HTML. Limbajul avea asemănări cu alte limbaje de marcare bazate pe sintaxă SGML, dar a fost mult mai ușor de început, chiar și pentru dezvoltatorii care nu au făcut-o niciodată înainte. Steven DeRose a susținut că HTML folosind marcajul descriptiv (și SGML în special) a fost un factor major în dezvoltarea Web-ului, deoarece a fost proiectat cu flexibilitate și extensibilitate (precum și alți factori, inclusiv conceptul de URL-uri și utilizarea liberă de către browsere) . În zilele noastre, HTML este cel mai atractiv și cel mai des folosit limbaj de marcare din lume.

Cu toate acestea, statutul HTML ca limbaj de marcare este contestat de unii informaticieni. Argumentul lor principal este că HTML restricționează plasarea etichetelor, necesitând ca ambele etichete să fie imbricate în alte etichete sau în etichetele principale ale documentului. Drept urmare, acești savanți consideră HTML un limbaj container care urmează un model ierarhic.

XML

XML (Extensible Markup Language) este un meta limbaj de marcare utilizat pe scară largă în zilele noastre. XML a fost dezvoltat de World Wibe Web Consortium în cadrul unui comitet condus de Jon Bosak. Scopul principal al XML este să fie mai simplu decât SGML și să se concentreze pe o problemă specifică - documentele de pe Internet. XML este un meta-limbaj precum SGML, utilizatorii au voie să creeze orice etichete de care au nevoie (deci „extensibile”). Creșterea XML a fost ajutată deoarece fiecare document XML putea fi scris în același mod ca un document SGML, iar programele și utilizatorii care foloseau SGML puteau migra la XML destul de ușor.

Cu toate acestea, XML a pierdut multe dintre caracteristicile SGML orientate spre om, care l-au făcut mai ușor de utilizat (până când a extins cantitatea de markup și a recâștigat lizibilitatea și editabilitatea). Alte îmbunătățiri au corectat unele probleme SGML la nivel internațional și au făcut posibilă analizarea ierarhică a unui document chiar dacă nu era disponibil niciun DTD.

XML a fost conceput în primul rând pentru medii semi-structurate, cum ar fi documentele și publicațiile. Cu toate acestea, a lovit un mediu fericit între flexibilitate și simplitate și a fost adoptat rapid de mulți utilizatori. XML este acum utilizat pe scară largă pentru a transfera date între programe. La fel ca HTML, poate fi caracterizat ca un limbaj „container”.

XHTML

Începând din ianuarie 2000, toate recomandările W3C s-au bazat mai degrabă pe XML decât pe SGML și a fost propus acronimul XHTML (Extensible HyperText Markup Languge). Specificațiile de limbă au cerut ca documentele XHTML să fie formatate ca documente XML, acest lucru permite utilizarea XHTML pentru documente mai clare și mai precise folosind etichete din HTML.

Una dintre cele mai notabile diferențe dintre HTML și XHTML este regula conform căreia toate etichetele trebuie să fie închise: etichete goale, de exemplu<br/>, ambele trebuie să fie închise cu o etichetă de închidere standard sau o intrare specială:<br/> (spațiul de dinaintea „/” din eticheta de închidere este opțional, dar este adesea folosit deoarece unele browsere pre-XML și parsere SGML îl folosesc). Alte atribute din etichete trebuie să fie între ghilimele. În cele din urmă, toate etichetele și numele atributelor trebuie scrise cu litere mici pentru a fi citite corect; HTML nu face distincție între majuscule și minuscule.

Alte dezvoltări bazate pe XML

Multe dezvoltări bazate pe XML sunt acum utilizate, cum ar fi RDF (Resource Description Framework), XFORMS, DocBook, SOAP și OWL (Ontology Web Language).

Particularități

O caracteristică comună a tuturor limbajelor de marcare este că amestecă textul documentului cu instrucțiunile de marcare într-un flux de date sau fișier. Acest lucru nu este necesar, este posibil să izolați marcajul de text folosind pointeri, etichete, identificatori sau alte tehnici de coordonare. Această „marcare separată” este tipică pentru reprezentarea internă a programelor care lucrează cu documente marcate. Cu toate acestea, marcajul încorporat sau „inline” este mai acceptat în altă parte. Iată, de exemplu, o mică parte a textului marcată folosind HTML:

Anatidae

Familia Anatidae include rațe, gâște și lebede, dar nu strigătorii strâns înrudiți.

Codul instrucțiunii de marcare (cunoscut sub numele de etichete) este inclus între paranteze unghiulare<как здесь>. Textul dintre aceste instrucțiuni este textul documentului. Codurile h1, pŞi ei- exemple de marcaj structural, ele descriu poziția, scopul sau sensul textului inclus în ele.

Mai precis, h1înseamnă „acesta este un titlu de prim nivel” pînseamnă „acesta este un paragraf” și eiînseamnă „acesta este cuvântul sau expresia subliniată”. Programul de interpretare poate aplica aceste reguli sau stiluri pentru afișare diverse părți text folosind diferite fonturi, dimensiuni de font, spațiere, culori sau alte stiluri, după cum este necesar. O etichetă precum h1 poate fi, de exemplu, prezentată într-un font tipografic mare, aldine, sau într-un document cu text monospațiat (ca la o mașină de scris) poate fi subliniată sau poate să nu-și schimbe deloc aspectul.

Pentru contrast, etichetați iîn HTML - un exemplu de marcare vizuală; este de obicei folosit pentru a identifica caracteristicile specifice ale textului (utilizați caractere italice în acest bloc) fără a explica de ce.

TEI (Tex Encoding Initiative) a publicat documente de ghidare cuprinzătoare pentru codificarea textului în interesul umanității și societăți științifice. Aceste manuale au fost folosite pentru a codifica documente istorice, lucrări specifice ale oamenilor de știință, periodice și așa mai departe.

Utilizări alternative

În timp ce ideea de a utiliza limbaje de marcare cu documente text a evoluat, a crescut utilizarea limbajelor de marcare în alte domenii, sugerând că acestea pot fi folosite pentru a reprezenta diferite tipuri de informații, inclusiv liste de redare, grafica vectoriala, servicii web, interfețe utilizator. Majoritatea acestor aplicații se bazează pe XML, deoarece este un limbaj bine structurat și extensibil.

Utilizarea XHTML arată, de asemenea, că poate fi combinată cu diferite limbaje de marcare ale aceluiași profil, cum ar fi XHTML+SMIL sau XHTML+MathML+SVG.

Limbajul de marcare HTML

Până acum, există multe tehnologii pentru crearea paginilor Web de care un webmaster nu se poate descurca. Dar baza pentru dezvoltarea documentelor Web este, desigur, limbajul de marcare hipertext HTML.

HTML este în primul rând un limbaj de marcare, iar codul scris în el este executat pe computerul clientului într-o aplicație de browser Web. Acest lucru se datorează simplității sale relative și ușurinței de învățare.

De ce avem nevoie de un limbaj de marcare?

Când creați un document obișnuit într-un program de procesare de text, puteți formata cu ușurință documentul, cum ar fi setarea caracterelor la cursive sau aldine, setarea unui paragraf la un titlu sau un stil de text simplu și așa mai departe. Ceea ce faceți ca document pe ecranul monitorului este transferat în aceeași formă pe hârtie atunci când este imprimat pe o imprimantă.

Indiferent dacă selectați o opțiune din meniurile derulante sau lansați o comandă de la tastatură, vedeți imediat rezultatele eforturilor dvs. pe ecran. Cu toate acestea, comenzile specifice care implementează afișarea documentului pe ecran sau pe hârtie îți vor fi ascunse.

În cazul paginilor Web, utilizatorul nu se ocupă de hârtie, ci de documente electronice primite prin Internet. Principiul afișării unui document folosind instrumentele de formatare ale aplicației părinte este inacceptabil aici. Utilizatorul ar trebui să aibă prea multe aplicații sau tot felul de convertoare pe computerul său pentru a lucra eficient cu numeroasele formate de document posibile.

Ideea de a rezolva problema schimbului de documente între diferite computere și aplicații prin Internet se bazează pe limbajul de marcare hipertext HTML (HyperText Markup Language). Acest limbaj a fost creat acum mai bine de 15 ani ca standard de formatare a documentelor și a fost acceptat de marea majoritate a utilizatorilor de internet și, cel mai important, de toți producătorii. softwareși echipamente pentru Web. Documentele marcate conform HTML pot fi citite pe orice computer pe care este instalat un singur program pentru vizualizarea unor astfel de documente - un browser.

Datorită limbajului de marcare HTML, un client Web poate vizualiza un document pe ecranul computerului său în forma în care l-a intenționat dezvoltatorul: cu anumite dimensiuni de font și defalcări ale paragrafelor, cu o anumită aranjare a imaginilor, hyperlink-uri etc.

Un document text scris în HTML are o dimensiune în octeți de câteva ori mai mică decât dimensiunea unui document similar pregătit într-un procesor de text (de exemplu, Word).

Berners-Lee (dezvoltatorul) a bazat limbajul în curs de dezvoltare pe limbajul SGML și tehnici de lucru cu hipertext, motiv pentru care numele limbajului pe care l-a creat - HTML - este conectat. Limbă nouă au folosit constructe de bază SGML pentru a descrie documente și legături hipertext.


Hipertexteste o modalitate de organizare a textului, a graficelor și a altor date în care elementele de date sunt legate între ele. Atât elementele unui document, cât și elementele diferitelor documente pot fi legate. Structura hipertext stă la baza World Wide Web-ului.

Hipertextele sunt documente electronice. Puteți lucra numai cu hipertexte pe computer; hipertextele nu există în formă tipărită. Un exemplu de sistem hipertext este binecunoscutul sistem de ajutor Windows.

Conexiuniîntr-o structură hipertext se realizează folosind link-uri. Datorită link-urilor, utilizatorul poate apela un alt document dintr-un document, următorul document din acesta etc.

În 1989 s-a dezvoltat Berners-Lee sistem informatic, amintind de o cale de documente legate prin link-uri. Documentele sunt stocate pe servere situate în toată lumea și conectate între ele prin canale de internet. S-a dezvoltat protocol HTTP - limba în care serverele trebuie să facă schimb de documente hipertext, și a scris primul server Web și programe de browser. El a făcut apel direct la comunitatea internetului, iar entuziaștii au început să creeze primele site-uri web în 1991.

În anii următori, World Wide Web a crescut rapid și a devenit cel mai popular serviciu de pe Internet. În prezent, satisface nevoile de informare ale unei game largi de utilizatori, inclusiv milioane de site-uri Web. Site-urile mari găzduiesc mii și sute de mii de documente, iar numărul total de documente de pe WWW crește în fiecare secundă, deoarece o armată uriașă de specialiști și amatori din diferite părți ale globului lucrează la crearea lor.

World wide websau pe scurt Web- este un sistem global de distribuire a informațiilor hipertext folosind Internetul ca canale de transport.

De fapt, World Wide Web este un spațiu de documente hipertext care nu are legătură cu geografia site-urilor Web în sine. Prin urmare, în acest spațiu, distanța fizică dintre noduri nu are sens. Puteți vizualiza pagini Web pe ecranul monitorului în același mod, care sunt stocate atât pe un disc de computer din camera alăturată, cât și pe un server situat în altă țară.

World Wide Web funcționează conform anumitor standarde care sunt dezvoltate și implementate de o asociație de organizații de cercetare și industriale - un consorțiu W3C(Prescurtare pentru World Wide Web Consortium). .

Limbajul de marcare HTML a fost bazat pe limbajul SGML. Mijloacele de marcare a paragrafelor, titlurilor, listelor și a altor elemente disponibile în HTML au fost, de asemenea, furnizate în SGML. Meritul inventatorului HTML este că a introdus în limbajul de marcare ceva ce SGML nu avea - acestea sunt link-uri hipertext.

Orice document are trei componente:

  • conţinut;
  • structura;
  • stil.

De obicei, conținutul unui document nu este prezentat în nicio ordine, dar are o anumită structura . Structura este compoziția și ordinea părților (blocurilor) unui document.

Stil documentul determină forma de ieșire a conținutului său către un anumit dispozitiv (de exemplu, o imprimantă sau un afișaj). Conceptul de stil include caracteristicile fontului (nume, dimensiune, culoare) întregului document de ieșire sau blocurile sale individuale, ordinea de paginare, locația blocurilor pe pagini și alți parametri.

Limbaje de marcare a documentelorsunt limbaje artificiale concepute pentru a descrie structura unui document și relațiile dintre diferitele obiecte ale structurii. Datele de marcare se mai numesc metadate

Primul limbaj de marcare este limbajul GML .Moştenitorul lui imediat a fost limbajul SGML un limbaj de marcare generalizat standard care definește regulile de scriere a elementelor de marcare a documentelor.

cerințe pentru limbajul de marcare a documentelor:

  1. Limbajul trebuie să fie ușor de citit de om.
  2. Fișierele documentelor marcate trebuie să fie text și codificate folosind simboluri de cod ASCII
  3. Limba poate folosi legături atât către resurse interne (în același document), cât și către resurse externe (în alte documente).

În SGML și limbi similare folosesc instrumente speciale de marcare a documentelor:

  • structura documentului;
  • descriptori sau elemente și atributele asociate acestora;
  • entitati;
  • comentarii.

SGML Docs au o structură arborescentă.

Descriptori în SGML plasate la începutul (descriptorul de deschidere) și la sfârșitul (descriptorul de închidere) al fiecăruia element (articol).

Atribute acestea sunt simple construcții simbolice ( articole ), care sunt adăugate elementelor pentru a clarifica efectul descriptorilor.

Limbaje de marcare generice precum SGML , permit utilizarea atributelor care pot fi asociate cu până la 15 tipuri diferite de valori, inclusiv:

  • Referințe la orice resurse din afara documentului, care sunt de obicei denumite entități ( entități).
  • Identificator unic ( ID ) element din document.
  • Indicatori de identificare ( Indicatori ID ), având referințe încrucișate pentru acele elemente care au ID mentionate in document.
  • Desemnatori sau atribute ale elementelor care definesc desemnările din conținutul elementului.
  • Date despre caractere ( date caracter) sau CDATA , care sunt orice caracter valid care nu poate acționa ca valori de atribut.

Comentarii vă permit să adăugați informații care nu vor fi vizibile după procesarea documentului. Comentariile nu afectează viteza de procesare a documentelor și nu sunt considerate sau procesate ca parte a conținutului SGML -document. Ele sunt pur și simplu incluse în textul sursă.

Pentru a verifica conformitatea unui document cu un anumit tip de marcare, se folosesc programe speciale analizoare (paratoare). Parserii sunt fie programe autonome, fie fac parte dintr-un program de procesare a documentelor SGML. Pentru ca analizatorul să efectueze verificarea documentului, este creat un document special numitdefinirea tipului de document

limbaj HTML este o aplicație lingvistică SGML pentru utilizare în Internet cu o structură fixă, un set fix de elemente (descriptori) și atributele acestora, precum și un set fix de entități. limbaj de marcare avansat XML (Extensible Markup Language). Limbajul XML este un subset al limbii SGML , pe deplin compatibil cu acesta.

XML oferă o gamă largă de funcţionalitate, care lipsesc în HTML

4 . 3 .2. Versiuni și extensii HTML XML

Prima versiune limbaj de marcare hipertext HTML (HyperText Markup Language), la fel ca ea însăși Tehnologia web, a fost dezvoltat de Tim Berners Lee în 1991. Limbajul HTMLeste o implementare a regulilor limbajului SGML pentru un tip de document care a fost numit documente HTML. Limbajul specifică o structură fixă, un set fix de etichete și atributele acestora și un set fix de entități. Procesarea programelor documente HTML numit Web- browsere . Rezultatul procesării documentelor este Web-pagină , afișat pe ecranul de afișare.

În 1994, Internet Support Group IETF ( Grupul operativ de inginerie a internetului) a dezvoltat specificația HTML 2.0, care a început utilizarea pe scară largă a HTML pe Internet Internet . În același an, a fost creat consorțiul W3C (World Wide Web Corporation), care reunește 165 de organizații comerciale și academice, dezvoltatori și utilizatori (de la crearea sa și până în prezent, această organizație a fost condusă de T.B. Lee). Cea mai recentă versiune a specificației HTML, HTML 4.01, a fost adoptată de consorțiu în decembrie 1999.

  • XML oferă o gamă largă de funcționalități care îi lipsesc HTML

Cea mai recentă versiune a specificației limbajului XML, XML 1.1, a fost adoptată în aprilie 2004.

Bazat pe limbajul XML, concernul W3C a dezvoltat o dezvoltare ulterioară a limbajului HTML Limbajul XHTML (HTML extins HTML extins). Prima versiune a acestui limbaj, XHTML 1.0, a fost adoptată în ianuarie 2000. Această versiune este de fapt o reformulare a HTML 4 ca o aplicație a XML 1.0. Este de așteptat ca dezvoltarea ulterioară a limbajului HTML să fie realizată în conformitate cu specificațiile XHTML.

O nouă versiune de XHTML, XHTML 1.1, a fost adoptată de W3C în mai 2001. Această recomandare definește un nou tip de document XHTML bazat pe module. Fiecare modul XHTML 1.1 conține unul sau mai multe elemente și/sau atribute ale limbajului HTML.

Conform caietului de sarcini, documente XHTML 1.1 constă din următoarele grupuri de module XHTML:

Modulele de bază sunt module care trebuie să fie prezente în orice tip de document care respectă specificația XHTML (acest grup include module Structură, Text, Hipertext și Listă).

Modul Applet conţinând un singur element< applet > (acest element a fost depreciat și este recomandat să utilizați elementul în schimb< object > ).

Module de extensie de text, care definesc diverse module suplimentare de marcare a textului (acest grup include module Prezentare, editare și text bidirecțional).

Module de formulare (acest grup include module Formulare și formulare de bază).

Module de tabel (acest grup include module Tabele și tabele de bază).

Modul de imagine , care oferă capabilități de bază de încorporare a imaginii (acest modul poate fi folosit și independent în unele implementări de către cardurile de imagine ale clientului).

Modulul Hartă imagine pe partea clientului , care furnizează elemente pentru hărțile imagini ale clientului (pentru ca acest modul să funcționeze, modulul trebuie să fie activat Imagine).

Modul obiect , care oferă suport pentru includerea obiectelor de uz general.

Modul de cadre , care oferă elemente legate de cadre.

URL (acest element calculează adrese URL relative ale documentului).

Modul de identificare a numelui , folosit pentru a identifica anumite elemente din documentele HTML.

Modul moștenit , care definește elemente și atribute care nu mai erau recomandate în versiunile anterioare de HTML și XHTML și nu mai sunt recomandate.

4. 3 .3. Tipuri de structuri HTML și XHTML

Conform caietului de sarcini HTML 4.01 pentru documente HTML definește trei structuri , descris de trei DTD-uri. Dezvoltatori Web -paginile trebuie să includă una dintre cele trei declarații de tip în documentele lor. Diferența dintre DTD constă în elementele pe care le suportă. Anunţ DTD trebuie plasat chiar la începutul documentului.

HTML 4.01 DTD strict (definiție strictă) include toate elementele și atributele care nu sunt anulate ( depreciat ) și nu sunt utilizate în documente cu rame.

Definiție DTD de tranziție HTML 4.0 (definiție tranzitorie) include toate elementele incluse în strict DTD , precum și elemente și atribute anulate.

HTML 4.0 Frameset DTD Definiție (definiție pentru cadre) include, pe lângă elementele DTD de tranziție, cadre.

Prima linie a documentului HTML , definit în conformitate cu caietul de sarcini XHTML

Această linie specifică versiunea de utilizat XML și codificarea caracterelor documentului. La codificarea caracterelor în XML este folosit codul dublu octet Unicode . Ca valori ale parametrilor codificare cele mai frecvent utilizate codificări UTF-8 , în care valorile primelor 128 de caractere sunt reprezentate în codificare pe un octet, caracterele celor mai comune limbi (inclusiv rusă și ucraineană) sunt reprezentate în doi octeți, iar caracterele rămase sunt reprezentate în trei octeți. Codificat UTF-16 toate caracterele sunt reprezentate de doi octeți (aceste codificări sunt recomandate pentru documentele rusești și ucrainene HTML).

Articole înrudite

2024 liveps.ru. Teme și probleme gata făcute în chimie și biologie.