Γλώσσα σήμανσης εγγράφων HTML. Τι είναι η γλώσσα σήμανσης HTML Τα συστήματα που δημιουργούνται σε διάφορες γλώσσες σήμανσης χρησιμοποιούν

Στα συστήματα επεξεργασίας κειμένου, το έγγραφο περιλαμβάνει πρόσθετες πληροφορίες, κάλεσε σημάνσειςκαι εκτελώντας τις ακόλουθες λειτουργίες:

  • επισήμανση των λογικών στοιχείων ενός δεδομένου εγγράφου·
  • ρύθμιση συναρτήσεων για την επεξεργασία επιλεγμένων στοιχείων.

Οι συμβατικοί επεξεργαστές κειμένου έχουν ενσωματωμένες εντολές για την ενεργοποίηση/απενεργοποίηση γραμματοσειρών και άλλες, παρόμοιες με εντολές για τον έλεγχο της τοποθέτησης πληροφοριών στην οθόνη ή κατά την εκτύπωση (τις λεγόμενες ακολουθίες Escare). Αυτή η προσέγγιση ονομάζεται ομάδαή διαδικαστική σήμανση.

Μια εναλλακτική τεχνική σήμανσης είναι η επιλογή ενός τμήματος κειμένου χωρίς να προσδιορίζεται ο τρόπος χειρισμού της επιλογής. Στη συνέχεια, άλλες εντολές εκχωρούν τον τρόπο επεξεργασίας των θραυσμάτων. Αυτή η σήμανση ονομάζεται περιγραφικός(περιγραφικός). Περιλαμβάνει ετικέτες στην αρχή και στο τέλος ενός στοιχείου κειμένου και υποδεικνύει τον τρόπο ερμηνείας αυτού του τμήματος.

Αλλάζοντας το σύνολο διαδικασιών που αντιστοιχούν στην περιγραφική σήμανση, μπορείτε να αλλάξετε την εμφάνιση του ίδιου εγγράφου. Η ανάπτυξη ιδεών σχετικά με την περιγραφική σήμανση οδήγησε στον ορισμό της σήμανσης ως επίσημης γλώσσας. Αυτό σας επιτρέπει να ελέγξετε την ορθότητα της σήμανσης και να ελαχιστοποιήσετε τον όγκο της αντικαθιστώντας τις προεπιλεγμένες τιμές.

Φόντα

Το κύριο πλεονέκτημα της περιγραφικής σήμανσης είναι η ευελιξία της, καθώς τα κομμάτια κειμένου επισημαίνονται ως "αυτό που είναι" (και όχι "πώς πρέπει να αποδοθούν") και ενδέχεται να γραφτούν στο μέλλον λογισμικόγια μια τέτοια επεξεργασία αυτών των θραυσμάτων, η οποία δεν προβλεπόταν καν από τους προγραμματιστές γλωσσών. Για παράδειγμα, οι υπερσύνδεσμοι HTML, που αρχικά προορίζονταν για τους χρήστες να πλοηγούνται σε ένα σύνολο συνδέσεων στο δίκτυο, άρχισαν αργότερα να χρησιμοποιούνται από μηχανισμούς αναζήτησης και ευρετηρίασης στο δίκτυο, για την αξιολόγηση της δημοτικότητας των πόρων κ.λπ.

Η περιγραφική σήμανση διευκολύνει επίσης την αναδιαμόρφωση του εγγράφου εάν είναι απαραίτητο, καθώς η περιγραφή της μορφής δεν σχετίζεται με το περιεχόμενο. Για παράδειγμα, κυρτά γράμματαμπορεί να χρησιμοποιηθεί είτε για την επισήμανση κειμένου, για τη σήμανση ξένων (ή αργκό) λέξεων ή για άλλους σκοπούς. Ωστόσο, εάν οι λέξεις επισημαίνονται απλώς (περιγραφικά ή διαδικαστικά) ως πλάγια γράμματα, αυτή η ασάφεια δεν μπορεί να επιλυθεί πλήρως. Εάν οι δύο περιπτώσεις είχαν επισημανθεί διαφορετικά στην αρχή, η καθεμία μπορεί να διαμορφωθεί ξανά ανεξάρτητα από τις άλλες. Η γενική σήμανση είναι ένα άλλο όνομα για την περιγραφική σήμανση.

Πρακτικά στοιχεία διάφορες τάξειςΟι σημάνσεις συνήθως συνυπάρχουν σε οποιοδήποτε δεδομένο σύστημα. Για παράδειγμα, η HTML περιέχει στοιχεία σήμανσης που είναι διαδικαστικά (b για έντονη γραφή) και άλλα που είναι περιγραφικά (το χαρακτηριστικό "blockquote" ή "href"). Το HTML περιλαμβάνει επίσης ένα στοιχείο PRE, το οποίο περιορίζει την περιοχή του κειμένου που θα τοποθετηθεί ακριβώς όπως πληκτρολογήθηκε.

Περιγραφικά συστήματα σήμανσης

Τα περισσότερα σύγχρονα συστήματαΗ περιγραφική σήμανση αντιμετωπίζει τα έγγραφα ως ιεραρχικές δομές (δέντρα) και παρέχει επίσης κάποια μέσα για ενσωματωμένη διασταύρωση. Επομένως, τέτοια έγγραφα μπορούν να ερμηνευθούν και να υποβληθούν σε επεξεργασία ως βάσεις δεδομένων, των οποίων η δομή είναι αρκετά καλά καθορισμένη (ωστόσο, επειδή δεν έχουν τόσο αυστηρά σχήματα όπως οι σχεσιακές βάσεις δεδομένων, συνήθως ονομάζονται «ημιδομημένες βάσεις δεδομένων»).

Με την έλευση της 3ης χιλιετίας, προέκυψε ενδιαφέρον για έγγραφα μη ιεραρχικών δομών. Για παράδειγμα, η αρχαία και θρησκευτική λογοτεχνία έχει συνήθως ρητορική ή πεζογραφική δομή (ιστορία, ενότητα, παράγραφος κ.λπ.) και περιλαμβάνει επίσης πληροφορίες ιστορικού(βιβλία, κεφάλαια, στροφές, γραμμές). Επειδή τα όρια αυτών των μονάδων συχνά αλληλεπικαλύπτονται, δεν μπορούν να κωδικοποιηθούν πλήρως χρησιμοποιώντας μόνο ένα σύστημα σήμανσης δομημένου δέντρου. Τα συστήματα μοντελοποίησης εγγράφων που υποστηρίζουν τέτοιες δομές περιλαμβάνουν τα MECS, TEI Guidelines, LMNL και CLIX.

Ο όρος "σήμανση" προέρχεται από την παραδοσιακή πρακτική της σήμανσης των χειρογράφων πριν από τη δημοσίευση (δηλαδή, η προσθήκη συμβολικών εντολών στα περιθώρια και μεταξύ των γραμμών ενός χάρτινου χειρογράφου). Για πολλούς αιώνες, αυτό γινόταν από εκδοτικούς εργάτες (συντάκτες και διορθωτές) που σημείωναν ποια γραμματοσειρά, στυλ και μέγεθος σημεία του κειμένου έπρεπε να πληκτρολογηθούν και στη συνέχεια παρέδιδαν το χειρόγραφο στους στοιχειοθέτες, οι οποίοι δακτυλογραφούσαν χειροκίνητα το κείμενο λαμβάνοντας υπόψη τη σήμανση. σύμβολα.

Επί του παρόντος, υπάρχουν πολλές γλώσσες σήμανσης, από τις πιο γνωστές είναι οι DocBook, MathML, SVG, Open eBook, XBRL και άλλες. Προορίζονται κυρίως για την αναπαράσταση διαφόρων εγγράφων κειμένου, αλλά οι εξειδικευμένες γλώσσες μπορούν να χρησιμοποιηθούν σε πολλούς άλλους τομείς. Φυσικά, η πιο γνωστή γλώσσα σήμανσης είναι η HTML (HyperText Markup Language), ένα από τα θεμέλια του WWW (World Wide Web).

Γλώσσα σήμανσης HTML

Μέχρι στιγμής, υπάρχουν πολλές τεχνολογίες για τη δημιουργία ιστοσελίδων που ένας Webmaster δεν μπορεί να κάνει χωρίς. Αλλά η βάση για την ανάπτυξη εγγράφων Ιστού είναι, φυσικά, η γλώσσα σήμανσης υπερκειμένου HTML.

Η HTML είναι κυρίως μια γλώσσα σήμανσης και ο κώδικας που είναι γραμμένος σε αυτήν εκτελείται στον υπολογιστή του πελάτη σε μια εφαρμογή προγράμματος περιήγησης Ιστού. Αυτό οφείλεται στη σχετική απλότητα και την ευκολία εκμάθησής του.

Γιατί χρειαζόμαστε μια γλώσσα σήμανσης;

Όταν δημιουργείτε ένα κανονικό έγγραφο σε ένα πρόγραμμα επεξεργασίας κειμένου, μπορείτε εύκολα να μορφοποιήσετε το έγγραφο, όπως ορίζοντας χαρακτήρες σε πλάγια ή έντονη γραφή, ορίζοντας μια παράγραφο σε στυλ επικεφαλίδας ή απλού κειμένου κ.λπ. Αυτό που κάνετε ως έγγραφο στην οθόνη της οθόνης μεταφέρεται με την ίδια μορφή στο χαρτί όταν εκτυπώνεται σε εκτυπωτή.

Είτε επιλέξετε μια επιλογή από τα αναπτυσσόμενα μενού είτε εκδώσετε μια εντολή πληκτρολογίου, βλέπετε αμέσως τα αποτελέσματα των προσπαθειών σας στην οθόνη. Ωστόσο, οι συγκεκριμένες εντολές που υλοποιούν την εμφάνιση του εγγράφου στην οθόνη ή σε χαρτί θα αποκρύπτονται από εσάς.

Στην περίπτωση των ιστοσελίδων, ο χρήστης δεν ασχολείται με χαρτί, αλλά με ηλεκτρονικά έγγραφα που λαμβάνονται μέσω Διαδικτύου. Η αρχή της εμφάνισης ενός εγγράφου με χρήση εργαλείων μορφοποίησης της γονικής εφαρμογής είναι απαράδεκτη εδώ. Ο χρήστης θα πρέπει να έχει πάρα πολλές εφαρμογές ή όλα τα είδη μετατροπέων στον υπολογιστή του για να λειτουργεί αποτελεσματικά με τις πολλές πιθανές μορφές εγγράφων.

Η ιδέα της επίλυσης του προβλήματος της ανταλλαγής εγγράφων μεταξύ διαφορετικών υπολογιστών και εφαρμογών μέσω του Διαδικτύου βασίζεται στη γλώσσα σήμανσης υπερκειμένου HTML (HyperText Markup Language). Αυτή η γλώσσα δημιουργήθηκε πριν από περισσότερα από 15 χρόνια ως πρότυπο μορφοποίησης εγγράφων και έγινε αποδεκτή από τη συντριπτική πλειονότητα των χρηστών του Διαδικτύου, και το πιο σημαντικό, από όλους τους κατασκευαστές λογισμικού και υλικού για τον Ιστό. Τα έγγραφα που επισημαίνονται σύμφωνα με HTML μπορούν να διαβαστούν σε οποιονδήποτε υπολογιστή στον οποίο είναι εγκατεστημένο μόνο ένα πρόγραμμα για την προβολή τέτοιων εγγράφων - ένα πρόγραμμα περιήγησης.

Χάρη στη γλώσσα σήμανσης HTML, ένας πελάτης Ιστού μπορεί να δει ένα έγγραφο στην οθόνη του υπολογιστή του με τη μορφή που το προόριζε ο προγραμματιστής: με συγκεκριμένα μεγέθη γραμματοσειράς και αναλύσεις παραγράφων, με μια συγκεκριμένη διάταξη εικόνων, υπερσυνδέσμων κ.λπ.

Ένα έγγραφο κειμένου γραμμένο σε HTML έχει μέγεθος σε byte αρκετές φορές μικρότερο από το μέγεθος ενός παρόμοιου εγγράφου που έχει προετοιμαστεί σε επεξεργαστή κειμένου (για παράδειγμα, Word).

Ο Berners-Lee (ο προγραμματιστής) στήριξε τη γλώσσα που ανέπτυξε στη γλώσσα SGML και σε τεχνικές εργασίας με υπερκείμενο, γι' αυτό και το όνομα της γλώσσας που δημιούργησε - HTML - συνδέεται. Η νέα γλώσσα χρησιμοποίησε τις βασικές δομές της SGML για να περιγράψει έγγραφα και συνδέσμους υπερκειμένου.


Υπερκείμενοείναι ένας τρόπος οργάνωσης κειμένου, γραφικών και άλλων δεδομένων στα οποία τα στοιχεία δεδομένων σχετίζονται μεταξύ τους. Τόσο τα στοιχεία ενός εγγράφου όσο και τα στοιχεία διαφορετικών εγγράφων μπορούν να συσχετιστούν. Η δομή του υπερκειμένου βρίσκεται στη βάση του Παγκόσμιου Ιστού.

Υπερκείμενα είναι ηλεκτρονικά έγγραφα. Μπορείτε να εργαστείτε μόνο με υπερκείμενα σε υπολογιστή. Τα υπερκείμενα δεν υπάρχουν σε έντυπη μορφή. Ένα παράδειγμα συστήματος υπερκειμένου είναι το γνωστό σύστημα βοήθειας των Windows.

Συνδέσειςσε μια δομή υπερκειμένου πραγματοποιούνται χρησιμοποιώντας έδαφος διά παιγνίδι γκολφ.Χάρη σε συνδέσμους, ο χρήστης μπορεί να καλέσει ένα άλλο έγγραφο από ένα έγγραφο, το επόμενο έγγραφο από αυτό κ.λπ.

Το 1989, ο Berners-Lee ανέπτυξε ένα πληροφοριακό σύστημα που έμοιαζε με έναν ιστό συνδεδεμένων εγγράφων. Τα έγγραφα αποθηκεύονται σε διακομιστές που βρίσκονται σε όλο τον κόσμο και συνδέονται μεταξύ τους μέσω καναλιών Διαδικτύου. Αναπτύχθηκε Πρωτόκολλο HTTP - τη γλώσσα στην οποία οι διακομιστές πρέπει να ανταλλάσσουν έγγραφα υπερκειμένουκαι έγραψε τον πρώτο διακομιστή Web και προγράμματα περιήγησης. Απευθύνθηκε απευθείας στην κοινότητα του Διαδικτύου και οι ενθουσιώδεις άρχισαν να δημιουργούν τις πρώτες τοποθεσίες Web το 1991.

Τα επόμενα χρόνια, ο Παγκόσμιος Ιστός αναπτύχθηκε γρήγορα και έγινε η πιο δημοφιλής υπηρεσία στο Διαδίκτυο. Επί του παρόντος, ικανοποιεί τις ανάγκες πληροφοριών ενός ευρέος φάσματος χρηστών, συμπεριλαμβανομένων εκατομμυρίων τοποθεσιών Web. Οι μεγάλοι ιστότοποι φιλοξενούν χιλιάδες και εκατοντάδες χιλιάδες έγγραφα και ο συνολικός αριθμός των εγγράφων στο WWW αυξάνεται κάθε δευτερόλεπτο, καθώς ένας τεράστιος στρατός ειδικών και ερασιτεχνών σε διάφορα μέρη του πλανήτη εργάζεται για τη δημιουργία τους.

World Wide Webή για συντομίαΙστός- είναι ένα παγκόσμιο σύστημα υπερ διανομής πληροφορίες κειμένου, χρησιμοποιώντας το Διαδίκτυο ως κανάλια μεταφοράς.

Στην πραγματικότητα, ο Παγκόσμιος Ιστός είναι ένας χώρος εγγράφων υπερκειμένου που δεν σχετίζεται με τη γεωγραφία των ίδιων των τοποθεσιών Web. Επομένως, σε αυτόν τον χώρο, η φυσική απόσταση μεταξύ των κόμβων δεν έχει νόημα. Μπορείτε επίσης να προβάλετε ιστοσελίδες στην οθόνη σας που είναι αποθηκευμένες τόσο σε δίσκο υπολογιστή στο διπλανό δωμάτιο όσο και σε διακομιστή που βρίσκεται σε άλλη χώρα.

Ο Παγκόσμιος Ιστός λειτουργεί σύμφωνα με ορισμένα πρότυπα που αναπτύσσονται και εφαρμόζονται από μια ένωση ερευνητικών και βιομηχανικών οργανισμών - μια κοινοπραξία W3C(συντομογραφία του World Wide Web Consortium). .

Η γλώσσα σήμανσης HTML βασίστηκε στη γλώσσα SGML. Μέσα για τη σήμανση παραγράφων, επικεφαλίδων, λιστών και άλλων στοιχείων που είναι διαθέσιμα σε HTML παρέχονται επίσης στο SGML. Το πλεονέκτημα του εφευρέτη της HTML είναι ότι εισήγαγε στη γλώσσα σήμανσης κάτι που δεν είχε η SGML - αυτοί είναι σύνδεσμοι υπερκειμένου.

Κάθε έγγραφο έχει τρία στοιχεία:

· δομή?

Περιεχόμενο είναι οι πληροφορίες που εμφανίζονται στο έγγραφο. Το περιεχόμενο ενός εγγράφου σε χαρτί μπορεί να είναι καθαρά κείμενο και να περιέχει επίσης εικόνες. Εάν το έγγραφο υποβληθεί σε ηλεκτρονική μορφή, μπορεί να περιέχει δεδομένα πολυμέσων, καθώς και συνδέσμους προς άλλα έγγραφα. Αν και τα περιεχόμενα διαφορετικών εγγράφων ποικίλλουν, μπορούν να ταξινομηθούν σε τύπους, όπως ένα βιβλίο ή ένα εισιτήριο τρένου.

Το στυλ ενός εγγράφου καθορίζει τη μορφή με την οποία θα εμφανίζονται τα περιεχόμενά του σε μια συγκεκριμένη συσκευή (για παράδειγμα, έναν εκτυπωτή ή οθόνη). Η έννοια του στυλ περιλαμβάνει τα χαρακτηριστικά της γραμματοσειράς (όνομα, μέγεθος, χρώμα) ολόκληρου του εγγράφου εξόδου ή των μεμονωμένων μπλοκ του, τη σειρά σελιδοποίησης, τη θέση των μπλοκ στις σελίδες και άλλες παραμέτρους. Μπορεί να βγει το ίδιο έγγραφο διαφορετικά στυλτόσο σε διαφορετικά μέσα όσο και στα ίδια μέσα.

Οι γλώσσες σήμανσης εγγράφων είναι τεχνητές γλώσσες, που προορίζεται να περιγράψει τη δομή ενός εγγράφου και τις σχέσεις μεταξύ διαφόρων αντικειμένων της δομής. Τα δεδομένα σήμανσης ονομάζονται επίσης μεταδεδομένα.

Η πρώτη γλώσσα σήμανσης είναι η GML (Generalized Markup Language), που αναπτύχθηκε από υπαλλήλους της IBM στη δεκαετία του '60 του περασμένου αιώνα. Ο άμεσος διάδοχός της ήταν η γλώσσα SGML (Standard Generalized Markup Language), η οποία ορίζει τους κανόνες για την εγγραφή στοιχείων σήμανσης εγγράφων. Ένα έγγραφο που ακολουθεί τους κανόνες μιας γλώσσας ονομάζεται έγγραφο SGML.

Η γλώσσα SGML ορίζεται στο πρότυπο ISO 8879, το οποίο καθορίζει τις ακόλουθες βασικές απαιτήσεις για τη γλώσσα σήμανσης εγγράφων:

· Η γλώσσα πρέπει να είναι ευανάγνωστη από τον άνθρωπο.

· Τα επισημασμένα αρχεία εγγράφων πρέπει να είναι κείμενο και να κωδικοποιούνται με κωδικούς χαρακτήρες ASCII (Αμερικανικός Τυπικός Κώδικας για Ανταλλαγή Πληροφοριών). Ωστόσο, το περιεχόμενο του εγγράφου δεν χρειάζεται να είναι κωδικοποιημένο ASCII ή κείμενο.

Η SGML και παρόμοιες γλώσσες χρησιμοποιούν ειδικά εργαλεία σήμανσης εγγράφων:

· Στοιχεία και συνοδευτικά χαρακτηριστικά.

· οντότητες

· σχόλια.

Η δομική μονάδα ενός εγγράφου SGML είναι το στοιχείο. Σε επισημασμένο κείμενο, κάθε στοιχείο πρέπει να επισημαίνεται με συγκεκριμένο τρόπο. Η επισήμανση γίνεται με την εισαγωγή μιας ετικέτας έναρξης (από Αγγλική λέξηετικέτα – ετικέτα) στην αρχή του στοιχείου (ετικέτα έναρξης) και η ετικέτα τέλους (ετικέτα τέλους) στο τέλος του στοιχείου. Οι ετικέτες έναρξης και λήξης έχουν το ίδιο όνομα. Για να ξεχωρίσετε τις ετικέτες από το απλό κείμενο, πρέπει να ξεκινούν με έναν χαρακτήρα που υποδηλώνει την αρχή μιας ετικέτας και να τελειώνει με έναν χαρακτήρα για να υποδεικνύει το τέλος μιας ετικέτας. Επιπλέον, ένα σύμβολο καθορίζεται στην ετικέτα τέλους - ένα σημάδι της ετικέτας τέλους. Στο SGML, οποιαδήποτε σύμβολα μπορούν να καθοριστούν ως τέτοια χαρακτηριστικά, αλλά το πιο συχνά χρησιμοποιούμενο σύμβολο ως αρχή μιας ετικέτας είναι "<" (левая угловая скобка), в качестве признака окончания тега используется символ ">" (αριστερή αγκύλη γωνίας) και ο χαρακτήρας της τελικής ετικέτας είναι "/" (κάθετο). Τα στοιχεία σε ένα έγγραφο SGML μπορούν να περικλείουν άλλα στοιχεία, με αποτέλεσμα μια γραφική αναπαράσταση του εγγράφου SGML ως ιεραρχική (δενδρική) δομή.


Παράδειγμα 4.3.1. Ένα έγγραφο SGML που καθορίζει μια λίστα μαθητών με τα αποτελέσματα της συνεδρίας εξέτασής τους μπορεί να καθοριστεί ως εξής:

Κατάλογος των αξιολογήσεων των μαθητών στη συνεδρία

Ιβάνοφ Ιβάν Ιβάνοβιτς

TS-61

ΕΝΑ

σι

σι

σι

Πετρόφ Πετρ Πέτροβιτς

TS-62

ντο

ντο

ρε

ντο

Σε αυτό το έγγραφο, το πρώτο στοιχείο είναι το στοιχείο λίστας σπουδαστών. Αυτό το στοιχείο περιέχει ένα στοιχείο τίτλου (τίτλος) και πολλά στοιχεία μαθητή (στοιχεία μαθητή). Με τη σειρά του, κάθε στοιχείο μαθητή περιέχει ένα στοιχείο πλήρους ονόματος (επώνυμο, όνομα και πατρώνυμο του μαθητή), ένα στοιχείο αριθμού ομάδας (αριθμός ομάδας) και ένα στοιχείο λίστας σημείων (κατάλογος βαθμών μαθητή στη συνεδρία). Και τέλος, το στοιχείο λίστας σήμανσης περιέχει πολλά στοιχεία σήμανσης (βαθμολογία).

Μια γραφική αναπαράσταση αυτής της λίστας στο Σχ. Το 4.3.1 έχει δομή δέντρου:

Ρύζι. 4.3.1. Δομή εγγράφου SGML στη γραφική αναπαράσταση

Τα χαρακτηριστικά μπορούν να χρησιμοποιηθούν για τη βελτίωση των στοιχείων SGML. Τα χαρακτηριστικά γράφονται στην ετικέτα έναρξης του στοιχείου ως εξής:

χαρακτηριστικό-όνομα="χαρακτηριστικό-τιμή".

Ένα στοιχείο μπορεί να έχει καθορισμένα πολλαπλά χαρακτηριστικά. Τα χαρακτηριστικά διαχωρίζονται μεταξύ τους και το όνομα του στοιχείου με τουλάχιστον ένα διάστημα.

Παράδειγμα 4.3.2. Για τα στοιχεία βαθμού στο παράδειγμα 4.3.1, μπορείτε να ορίσετε το χαρακτηριστικό θέμα, η τιμή του οποίου είναι το όνομα του κλάδου στον οποίο δόθηκε η εξέταση. Στη συνέχεια, για τον πρώτο μαθητή τα στοιχεία θα έχουν την εξής μορφή:

ΕΝΑ

σι

σι

σι

Γλώσσες όπως η SGML χρησιμοποιούν οντότητες για να εργαστούν με ομάδες δεδομένων. Μια οντότητα είναι οποιαδήποτε δεδομένα με όνομα, τόσο κείμενο όσο και μη κείμενο. Κατά την προβολή ενός εγγράφου, το όνομα της οντότητας αντικαθίσταται από την τιμή του. Έτσι, για παράδειγμα, το όνομα της οντότητας κειμένου kpi θα αντικατασταθεί από την τιμή της: Πολυτεχνικό Ινστιτούτο Κιέβου και η οντότητα χωρίς κείμενο image1 θα αντικατασταθεί από μια εικόνα με το όνομα image1.

Κυκλοφόρησε το νέο βιβλίο «Content Marketing in κοινωνικά δίκτυα: Πώς να μπείτε στο μυαλό των συνδρομητών σας και να τους κάνετε να ερωτευτούν την επωνυμία σας."

Η HTML είναι μια γλώσσα σήμανσης υπερκειμένου.

Η γλώσσα χρησιμοποιείται για την οργάνωση ιστοσελίδων. Ας κάνουμε μια αναλογία. Αγοράζετε εφημερίδα. Σε αυτό δημοσιεύτηκαν αρκετά άρθρα. Κάθε άρθρο έχει τίτλο και περιέχει φωτογραφίες. Και το κείμενο πληκτρολογείται σε πολλές στήλες. Αυτή είναι η δομή μιας σελίδας εφημερίδας.

Όλα συμβαίνουν στον ιστότοπο με τον ίδιο τρόπο. Για να δημιουργήσετε τη σωστή δομή του άρθρου - το περιεχόμενο - πρέπει να χρησιμοποιήσετε μια γλώσσα σήμανσης κειμένου.

Σε τι χρησιμεύει η HTML;

Η HTML χρησιμοποιείται για να πει στο πρόγραμμα περιήγησης πώς να εμφανίζει μια σελίδα στην οθόνη.

Η γλώσσα είναι πανταχού παρούσα. Αυτό είναι ένα καθολικό εργαλείο για το σχεδιασμό περιεχομένου σε μια σελίδα. Μπορεί να χρησιμοποιηθεί σε οποιοδήποτε πρόγραμμα περιήγησης. Εάν γράφετε κώδικα σε μια γλώσσα προγραμματισμού, πρέπει να γνωρίζετε ορισμένα χαρακτηριστικά, τελεστές, τύπους δεδομένων κ.λπ.

Η HTML αποτελείται από ένα σύνολο ετικετών - εντολών και χαρακτηριστικών - ιδιοτήτων. Είναι εύκολο να θυμάστε και τα υλικά αναφοράς είναι πάντα διαθέσιμα.

Τι είναι ο κώδικας HTML

Ο κώδικας είναι οδηγίες στο πρόγραμμα περιήγησης πώς να εμφανίσει τη σελίδα. Υπάρχει μια δομή που πρέπει πάντα να ακολουθείται. Για παράδειγμα, έχοντας μόνο μία κεφαλίδα H1 σε μια σελίδα, οι κύριες πληροφορίες τοποθετούνται σε ενότητες κ.λπ.

Υπάρχουν τρία όργανα στη γλώσσα.

Υπάρχουν δύο τύποι ετικετών - ζευγαρωμένες και μονές.

  • - ζευγαρωμένη ετικέτα, άνοιγμα και κλείσιμο. Δρουν στο κείμενο που τοποθετείται ανάμεσά τους.
  • Μια μεμονωμένη ετικέτα, επηρεάζει το κείμενο που ακολουθεί πριν από την επόμενη ετικέτα.

Δομή του κώδικα HTML στη σελίδα

Είπαμε ότι η δομή οποιουδήποτε εγγράφου html είναι πάντα η ίδια. Παρακάτω παραθέτουμε τα απαιτούμενα στοιχεία.

  1. !- υποδεικνύει ότι το έγγραφο χρησιμοποιεί HTML.
  2. ...- όλος ο κώδικας σελίδας τοποθετείται σε αυτήν την ετικέτα. Οτιδήποτε δεν έχει τοποθετηθεί σε αυτό δεν αναγνωρίζεται από το πρόγραμμα περιήγησης και δεν εμφανίζεται.
  3. ...- μια ζευγοποιημένη ετικέτα που περιέχει τεχνικές πληροφορίες, για παράδειγμα, σχετικά με την κωδικοποίηση του εγγράφου.
    1. ...- αυτός είναι ο τίτλος της σελίδας, τοποθετείται μέσα στην ενότητα κεφαλής. Κάθε σελίδα πρέπει να έχει το δικό της μοναδικό όνομα.
    2. - πρόκειται για ιδιόκτητες πληροφορίες. Συνδέει μεμονωμένα στυλ στη σελίδα - css κλπ. Δεν εμφανίζεται στον χρήστη.
  4. ...- σώμα σελίδας. Όλες οι βασικές πληροφορίες περιέχονται σε αυτήν την ετικέτα.
    1. ...- υπερσυνδέσμους.
    2. - εικόνες.
    3. ...- τολμηρό κείμενο.
    4. ...- πλάγια γράμματα.

Μπορεί να υπάρχει απεριόριστος αριθμός στοιχείων μέσα στο σώμα.

Για παράδειγμα, αυτό είναι το μέρος του κώδικα σελίδας για μια από τις αναρτήσεις του ιστολογίου μας.

Όσο πιο συχνά χρησιμοποιείτε ετικέτες, τόσο πιο γρήγορα απομνημονεύονται. Μπορείτε πάντα να βρείτε έναν κατάλογο με όλες τις ετικέτες, τα χαρακτηριστικά και τη σημασία τους.

Αρχές Φεβρουαρίου 1998 διεθνής οργανισμόςΤο W3C ενέκρινε την προδιαγραφή Extensible Markup Language (XML) 1.0, η οποία ξεκίνησε την ανάπτυξη πολλών νέων γλωσσών σήμανσης για τη μετάδοση πληροφοριών μέσω του Διαδικτύου με βάση το πρότυπο XML. Στην ουσία, αυτό σήμαινε ένα νέο βήμα στην ανάπτυξη γλωσσών σήμανσης υπερκειμένου. Κατά τη διάρκεια των τεσσάρων ετών της ύπαρξής της, η XML όχι μόνο έχει προσελκύσει αρκετά μεγάλη προσοχή τόσο από απλούς χρήστες όσο και από πολλούς σχεδιαστές ιστοσελίδων, αλλά έχει γίνει επίσης αναπόσπαστο μέρος του Διαδικτύου. Σήμερα δεν υπάρχουν ουσιαστικά διακομιστές που να μην χρησιμοποιούν, στον ένα ή τον άλλο βαθμό, αυτή την τεχνολογία ως ανάλογο της HTML. Ωστόσο, είναι ακόμη τουλάχιστον πρόωρο να πούμε ότι η XML γίνεται πλέον η κύρια μέθοδος μετάδοσης υπερκειμένου μέσω του παγκόσμιου δικτύου. Η ίδια η γλώσσα είναι ακόμα αρκετά νέα και ορισμένα από τα στοιχεία της είναι ακόμη υπό ανάπτυξη. Μέχρι στιγμής, έχει δημιουργηθεί μόνο ένα γενικό πλαίσιο για το τι, ίσως, θα αντικαταστήσει την HTML στο μέλλον, αλλά σε ποια συγκεκριμένη μορφή θα είναι είναι αδύνατο να πούμε ακόμα.

Από την αρχή

Τον Νοέμβριο του 1990, όταν οι χρήστες του Διαδικτύου άκουσαν για πρώτη φορά νέα τεχνολογία, το όνομα του οποίου θα μπορούσε εύκολα να χωρέσει σε τρία μόνο γράμματα, σχεδόν κανείς δεν μπορούσε να φανταστεί ότι θα περνούσε πολύ λίγος χρόνος και αυτή η τεχνολογία θα γινόταν πρακτικά ο μόνος τρόπος μετάδοσης πληροφοριών στο παγκόσμιο δίκτυο. Σήμερα, για πολλούς άπειρους χρήστες, η λέξη Διαδίκτυο συνδέεται έντονα με το WWW, αν και στην πραγματικότητα αυτά τα πράγματα σχετίζονται, φυσικά, μεταξύ τους, αλλά και πάλι λίγο διαφορετικά.

Σε γενικές γραμμές, ήταν η απίστευτη δημοτικότητα του Παγκόσμιου Ιστού και του αναπόσπαστου μέρους του, του HTML, που έγινε σίγουρα η αιτία για την εξαιρετικά αυξημένη προσοχή στις δομές της σήμανσης υπερκειμένου των εγγράφων.

Η έννοια του υπερκειμένου εισήχθη για πρώτη φορά από τον V. Bush το 1945. Ωστόσο, οι πραγματικές εφαρμογές που χρησιμοποιούν τέτοιες δομές δεδομένων άρχισαν να χρησιμοποιούνται μόνο από τη δεκαετία του '60 και μια πραγματικά ασυνήθιστη άνοδος της δραστηριότητας γύρω από αυτήν την τεχνολογία ξεκίνησε μόνο όταν υπήρχε πραγματική ανάγκη για έναν μηχανισμό για το συνδυασμό πολλαπλών πόρων πληροφοριών, παρέχοντας τη δυνατότητα δημιουργίας και προβολή μη γραμμικού κειμένου. Και παράδειγμα εφαρμογής αυτού του μηχανισμού ήταν το ίδιο το WWW.

Η ίδια η γλώσσα σήμανσης εγγράφων είναι ένα σύνολο ειδικών οδηγιών που ονομάζονται ετικέτες (σε ορισμένες μεταφρασμένες δημοσιεύσεις, οι ετικέτες ονομάζονται συντομεύσεις), σχεδιασμένες να δημιουργούν μια δομή σε έγγραφα και να ορίζουν σχέσεις, αντίστοιχα, μεταξύ των διαφόρων στοιχείων αυτής της δομής. Οι ετικέτες γλώσσας σήμανσης ή οι περιγραφείς ελέγχου, όπως αποκαλούνται μερικές φορές, κωδικοποιούνται σε τέτοια έγγραφα με πολύ συγκεκριμένο τρόπο, κατανέμονται σε σχέση με το κύριο περιεχόμενο του εγγράφου και στη συνέχεια χρησιμεύουν ως οδηγίες για το πρόγραμμα που ερμηνεύει και εμφανίζει τα περιεχόμενα του τεκμηριώστε, στην πραγματικότητα, στο άτομο στο οποίο προβάλλεται, εάν προσπαθήσετε να βρείτε αναλογίες με το Διαδίκτυο, τότε αυτός είναι ο πελάτης και το πρόγραμμα διερμηνέα στην πιο συνηθισμένη περίπτωση είναι το πρόγραμμα περιήγησης). Ήδη στα πρώτα συστήματα, αποφασίστηκε να χρησιμοποιηθούν τα σύμβολα "<" и ">", μέσα στο οποίο τοποθετούνται τα ονόματα των εντολών και οι παράμετροί τους. Σήμερα, αυτή η μέθοδος χαρακτηρισμού ετικετών είναι ένα γενικά αποδεκτό πρότυπο.

Η ίδια η χρήση της ανάλυσης υπερκειμένου ενός εγγράφου κειμένου στη σύγχρονη πληροφοριακά συστήματαΑυτό οφείλεται σε μεγάλο βαθμό στο γεγονός ότι το υπερκείμενο σας επιτρέπει να δημιουργήσετε έναν μηχανισμό για τη λεγόμενη μη γραμμική προβολή πληροφοριών. Αυτό σημαίνει ότι τα συστήματα δεν παρουσιάζουν δεδομένα στη φόρμα συνεχής ροήδομές κειμένου, αλλά ένα σύνολο διασυνδεδεμένων στοιχείων, τα οποία μπορούν να πλοηγηθούν χρησιμοποιώντας υπερσυνδέσμους.

Η πιο δημοφιλής και γνωστή γλώσσα σήμανσης υπερκειμένου σήμερα, η HTML, δημιουργήθηκε ειδικά για τη δομή και τη μετάδοση πληροφοριών που βρίσκονται στο Διαδίκτυο και αποτελεί αναμφίβολα βασικό συστατικό της τεχνολογίας WWW. Με τη χρήση του μοντέλου εγγράφου υπερκειμένου, ο τρόπος παρουσίασης των διαφόρων πόρων πληροφοριών στο δίκτυο έχει γίνει πιο εξορθολογισμένος και οι χρήστες έχουν λάβει έναν βολικό μηχανισμό για την αναζήτηση και την προβολή των απαραίτητων πληροφοριών. Ωστόσο, το πρώτο σημάδι σε αυτό το θέμα εξακολουθεί να θεωρείται μια πολύ παλαιότερη γλώσσα - η SGML.

Η SGML (Standard Generalized Markup Language) υιοθετήθηκε επίσημα το 1986 ως διεθνές πρότυπο (ISO 8879:1986) για την περιγραφή ανεξάρτητων μεθόδων συσκευής εισόδου/εξόδου και περιβάλλοντος για την αναπαράσταση κειμενικών πληροφοριών σε ηλεκτρονική μορφή. Η βάση για τη δημιουργία του ήταν η μάλλον παλιά γλώσσα σήμανσης GML (Generalized Markup Language), που αναπτύχθηκε από την IBM την εποχή των πρώτων προσωπικών υπολογιστών. Για την ακρίβεια, η SGML είναι μια μεταγλώσσα που έχει σχεδιαστεί για να περιγράφει άλλες γλώσσες σήμανσης.

Αρχικά, η λέξη σήμανσης χρησιμοποιήθηκε συνήθως για να περιγράψει σχολιασμούς ή άλλες σημάνσεις μέσα στο κείμενο που είχαν σκοπό να καθοδηγήσουν τον συγγραφέα του εγγράφου ή τον "σχεδιαστή διάταξης" όπως αποκαλείται μερικές φορές, πώς ακριβώς θα έπρεπε να πληκτρολογηθεί ένα συγκεκριμένο απόσπασμα. Τέτοιες μέθοδοι μπορεί να περιλαμβάνουν στριμωγμένη υπογράμμιση για να υποδείξετε πλάγιους χαρακτήρες, ορισμένα ειδικά εικονίδια για να παραλείψετε ορισμένες φράσεις ή να τις εκτυπώσετε σε μια συγκεκριμένη γραμματοσειρά και ούτω καθεξής. Καθώς η μορφοποίηση και η εκτύπωση αυτοματοποιήθηκαν με την πάροδο του χρόνου, ο όρος περιλάμβανε όλα τα είδη ειδικών κωδικών σήμανσης που εισήχθησαν σε ηλεκτρονικά έγγραφα κειμένου για τον έλεγχο της μορφοποίησης, της εκτύπωσης ή άλλης επεξεργασίας.

Επομένως, μια γλώσσα σήμανσης αναφέρεται σε ένα σύνολο συμβάσεων μορφοποίησης που χρησιμοποιούνται για την κωδικοποίηση μπλοκ κειμένου. Η γλώσσα σήμανσης πρέπει να υποδεικνύει με σαφήνεια ποια σήμανση είναι αποδεκτή σε ένα δεδομένο έγγραφο, ποια σήμανση απαιτείται, πώς να διακρίνονται τα στοιχεία από απλό κείμενοκαι τι σημαίνει σήμανση. Η SGML μπόρεσε να λύσει τα τρία πρώτα προβλήματα, η λύση στο τελευταίο απαιτούσε την παρουσία μιας άτυπης περιγραφής.

Η SGML, σε αντίθεση με όλες τις άλλες γλώσσες σήμανσης που δημιουργήθηκαν στη βάση της, χρησιμοποιεί την αρχή της λεγόμενης περιγραφικής σήμανσης αντί της διαδικαστικής σήμανσης. Ένα τέτοιο σύστημα χρησιμοποιεί στοιχεία σήμανσης που παρέχουν απλώς ονόματα για να εκχωρήσει μεμονωμένα μέρη ενός εγγράφου σε ορισμένες κατηγορίες. Με άλλα λόγια, ετικέτες όπως Ή \end(list), απλώς προσδιορίζει ένα τμήμα ενός εγγράφου και δηλώνει ότι "αυτό το τμήμα είναι μια παράγραφος" ή ότι "αυτό το τμήμα είναι το τέλος μιας αρχικής λίστας" κ.λπ. Ένα σύστημα που χρησιμοποιεί διαδικαστική σήμανση (περιλαμβάνει επεξεργαστές κειμένου, για παράδειγμα, το Microsoft Word) καθορίζει το είδος της επεξεργασίας που θα εκτελεστεί σε ένα συγκεκριμένο σημείο ενός εγγράφου κειμένου: "σε αυτό το μέρος, καλέστε αυτή ή τέτοια διαδικασία με παραμέτρους 5, e και z» ή «μετακινήστε το περίγραμμα του εγγράφου 7 mm προς τα δεξιά σε σχέση με οποιοδήποτε στοιχείο, παραλείψτε μια γραμμή, ξεκινήστε την επόμενη από την κόκκινη γραμμή» κ.λπ. Στο SGML, οι οδηγίες που απαιτούνται για την επεξεργασία ενός εγγράφου για κάποιο συγκεκριμένο σκοπό (για παράδειγμα, μορφοποίηση) διαχωρίζονται σαφώς από την περιγραφική σήμανση που εμφανίζεται μέσα στο έγγραφο. Συνήθως συλλέγονται εκτός του εγγράφου σε ξεχωριστές διαδικασίες ή προγράμματα.

Χρησιμοποιώντας περιγραφική και όχι διαδικαστική σήμανση, το ίδιο έγγραφο μπορεί να υποβληθεί σε επεξεργασία από διαφορετικά προγράμματα, καθένα από τα οποία μπορεί να εφαρμόσει τις δικές του οδηγίες επεξεργασίας σε εκείνα τα μέρη του που θεωρεί σημαντικά. Για παράδειγμα, ένα πρόγραμμα ανάλυσης περιεχομένου μπορεί να αγνοεί εντελώς τις υποσημειώσεις, ενώ ένα πρόγραμμα μορφοποίησης μπορεί να τις εξάγει και να τις συναρμολογεί για εκτύπωση στο τέλος κάθε τμήματος. Διαφορετικά είδη οδηγιών επεξεργασίας ενδέχεται να σχετίζονται με το ίδιο τμήμα του αρχείου. Για παράδειγμα, ένα πρόγραμμα μπορεί να εξαγάγει τα επώνυμα των ατόμων από ένα έγγραφο και γεωγραφικά ονόματαγια να δημιουργήσετε ένα ευρετήριο ή μια βάση δεδομένων, ενώ κάποιος άλλος που επεξεργάζεται το ίδιο κείμενο μπορεί να εκτυπώσει ονόματα με διαφορετική γραμματοσειρά.

Το SGML εισάγει επίσης την έννοια του τύπου εγγράφου και, κατά συνέπεια, τρόπους ορισμού του (ορισμός τύπου εγγράφου, DTD). Τα έγγραφα θεωρούνται δακτυλογραφημένα, όπως και άλλα αντικείμενα που υποβάλλονται σε επεξεργασία από υπολογιστή. Ο τύπος του εγγράφου καθορίζεται επίσημα από τα συστατικά μέρη του και τη δομή τους. Για παράδειγμα, μπορεί κανείς να ορίσει έναν τύπο εγγράφου έτσι ώστε να αποτελείται από έναν τίτλο και ίσως ένα όνομα συγγραφέα, ακολουθούμενο από μια περίληψη και μια ακολουθία μιας ή περισσότερων παραγράφων. Οποιοδήποτε έγγραφο στερείται τίτλου, σύμφωνα με αυτόν τον επίσημο ορισμό, δεν θα είναι έκθεση, όπως θα είναι μια ακολουθία παραγράφων ακολουθούμενη από μια περίληψη, ανεξάρτητα από το πόσο μοιάζει με αναφορά το έγγραφο από τη σκοπιά ενός ανθρώπου αναγνώστης.

Δεδομένου ότι τα έγγραφα αφορούν γνωστούς τύπους, μπορείτε να χρησιμοποιήσετε ένα ειδικό πρόγραμμα που ονομάζεται αναλυτής για να επεξεργαστείτε ένα έγγραφο που ισχυρίζεται ότι είναι συγκεκριμένου τύπου και να ελέγξετε εάν υπάρχουν όλα τα στοιχεία που απαιτούνται για αυτόν τον τύπο εγγράφου και έχουν τη σωστή σειρά και δομή. Το πιο σημαντικό είναι ότι διαφορετικά έγγραφα του ίδιου τύπου μπορούν να υποβληθούν σε επεξεργασία με ομοιόμορφο τρόπο. Είναι δυνατό να γραφτούν προγράμματα που χρησιμοποιούν τη γνώση που περιέχεται στη δομή πληροφοριών ενός εγγράφου, τα οποία μπορούν έτσι να είναι πιο έξυπνα.

Η SGML, ως μεταγλώσσα, επιτρέπει τον ορισμό συγκεκριμένων γλωσσών (συχνά αποκαλούμενες "εφαρμογές SGML") που στοχεύουν συγκεκριμένες εφαρμογές. Ένα παράδειγμα αυτού είναι η γλώσσα HTML, που χρησιμοποιείται ευρέως στο WWW. Κάθε τέτοια γλώσσα περιγράφεται με τη μορφή DTD, που ορίζει στοιχεία και τα χαρακτηριστικά τους. Μόλις δοθεί ένα τέτοιο DTD, το λογισμικό SGML μπορεί να επεξεργαστεί σωστά έγγραφα που έχουν γραφτεί σύμφωνα με αυτό το DTD.

Ακόμη και στο έργο, αυτή η γλώσσα σχεδιάστηκε ειδικά για να εφαρμόσει το μοντέλο μεταφοράς πληροφοριών στο παγκόσμιο δίκτυο που έχουμε τώρα. Με άλλα λόγια, η HTML είναι προϊόν του Διαδικτύου. Αν και, στην πραγματικότητα, η HTML είναι μια απλοποιημένη έκδοση του προτύπου κοινή γλώσσα markup - SGML (Standard Generalized Markup Language), η οποία εγκρίθηκε από το ISO ως πρότυπο στη δεκαετία του '80 του περασμένου αιώνα. Η SGTML δεν είναι μια γλώσσα στην καθαρή της μορφή, αλλά μάλλον ένα σύνολο κανόνων και περιγραφών για τη δημιουργία άλλων γλωσσών, ορίζει ένα έγκυρο σύνολο ετικετών, τα χαρακτηριστικά τους και εσωτερική δομήέγγραφο. Ο έλεγχος της σωστής χρήσης των περιγραφέων πραγματοποιείται χρησιμοποιώντας ένα ειδικό σύνολο κανόνων που ονομάζονται περιγραφές DTD, οι οποίες χρησιμοποιούνται από το πρόγραμμα διερμηνέα πελάτη κατά την ανάλυση του εγγράφου. Για κάθε κατηγορία εγγράφων, ορίζεται το δικό της σύνολο κανόνων που περιγράφουν τη γραμματική της αντίστοιχης γλώσσας σήμανσης. Χρησιμοποιώντας το SGML, μπορείτε να οργανώσετε τις πληροφορίες που περιέχονται στα έγγραφα, να περιγράψετε δομημένα δεδομένα και να παρουσιάσετε αυτές τις πληροφορίες σε κάποια τυποποιημένη μορφή για μεταγενέστερη χρήση. Ωστόσο, λόγω κάποιας πολυπλοκότητάς του, το SGML χρησιμοποιήθηκε κυρίως για την περιγραφή της σύνταξης άλλων γλωσσών (η πιο διάσημη από τις οποίες είναι η HTML), και λίγες εφαρμογές δούλευαν απευθείας με έγγραφα SGML.

Η HTML είναι μια πολύ πιο βολική και εύχρηστη γλώσσα από την SGML. Δεν επιτρέπει τον καθορισμό πρόσθετων γλωσσών βάσει του. Η χρήση HTML περιλαμβάνει τη σήμανση ενός εγγράφου σύμφωνα με ένα πρότυπο, το οποίο ορίζεται από ένα αρκετά περιορισμένο σύνολο οδηγιών ή ετικετών. Τέτοιες οδηγίες προορίζονται, πρώτα απ 'όλα, στον έλεγχο της διαδικασίας εμφάνισης των περιεχομένων ενός εγγράφου στην οθόνη ενός προγράμματος-πελάτη και, ως εκ τούτου, στον καθορισμό της μεθόδου παρουσίασης του εγγράφου, αλλά όχι της συνολικής δομής του. Στις περισσότερες περιπτώσεις, τα δεδομένα HTML αντιπροσωπεύονται σε ένα αρχείο απλού κειμένου που μπορεί εύκολα να μεταφερθεί μέσω του δικτύου χρησιμοποιώντας το πρωτόκολλο http.

Ωστόσο, όσο περνά ο καιρός και θέτει ολοένα και πιο αυστηρές απαιτήσεις σε δημοφιλείς τεχνολογίες, οι σύγχρονες εφαρμογές χρειάζονται όχι μόνο μια γλώσσα για την παρουσίαση δεδομένων στην οθόνη πελάτη, αλλά και έναν μηχανισμό που επιτρέπει σε κάποιον να προσδιορίζει τη δομή ενός εγγράφου και να περιγράφει τα στοιχεία που περιέχει. . Η HTML έχει ένα απλό σύνολο εντολών και αντιμετωπίζει με επιτυχία το έργο της περιγραφής πληροφοριών κειμένου και της εμφάνισής τους στην οθόνη ενός προγράμματος προβολής - ενός προγράμματος περιήγησης. Ωστόσο, τα ίδια τα δεδομένα που εμφανίζονται δεν σχετίζονται σε καμία περίπτωση με τις ετικέτες που χρησιμοποιούνται για τη μορφοποίηση, επομένως τα προγράμματα ανάλυσης δεν έχουν τη δυνατότητα να χρησιμοποιήσουν ετικέτες HTML για να βρουν τα θραύσματα εγγράφων που χρειαζόμαστε. Εκείνοι. έχοντας συναντήσει, για παράδειγμα, μια τέτοια περιγραφή

τριαντάφυλλο,

Ο θεατής θα ξέρει τι χρώμα να εμφανίσει το κείμενο που περιέχεται στις ετικέτες και, πιθανότατα, θα το εμφανίσει σωστά, αλλά είναι απολύτως αδιάφορο για το πού βρίσκεται αυτή η ετικέτα στο έγγραφο, σε ποιες άλλες ετικέτες περικλείεται το τρέχον τμήμα, εάν υπάρχουν θραύσματα που είναι φωλιασμένα σε αυτό ή αν οι σχέσεις μεταξύ των αντικειμένων δημιουργούνται σωστά. Αυτή η «αδιαφορία» για τη δομή ενός εγγράφου οδηγεί στο γεγονός ότι η αναζήτηση ή η ανάλυση πληροφοριών μέσα σε αυτό δεν θα διαφέρει από την εργασία με ένα συνεχές αρχείο κειμένου που δεν είναι χωρισμένο σε στοιχεία. Και αυτό, όπως γνωρίζετε, δεν είναι το πιο αποτελεσματικό τρόποδουλεύοντας με πληροφορίες.

Ένα άλλο σημαντικό μειονέκτημα της ίδιας της ιδέας, που εφαρμόζεται σε HTML, είναι το περιορισμένο σύνολο ετικετών της. Οι κανόνες DTD για την HTML ορίζουν ένα σταθερό σύνολο περιγραφέων και επομένως ο προγραμματιστής δεν έχει την ευκαιρία να εισαγάγει τις δικές του, ειδικές ετικέτες. Παρόλο που εμφανίζονται κατά καιρούς νέες επεκτάσεις γλώσσας (σήμερα η τελευταία έκδοση του HTML είναι HTML 4.0), αλλά μεγάλης απόστασηςη τυποποίησή τους, συνοδευόμενη από συνεχείς διαφωνίες μεταξύ των κύριων κατασκευαστών προγραμμάτων περιήγησης, καθιστούν σχεδόν αδύνατη τη γρήγορη προσαρμογή της γλώσσας, τη χρήση της για την εμφάνιση εξειδικευμένων πληροφοριών (για παράδειγμα, πολυμέσα, μαθηματικά, χημικούς τύπουςκαι τα λοιπά.).

Για να συνοψίσουμε όλα όσα έχουν ειπωθεί, μπορεί να υποστηριχθεί ότι η HTML σήμερα δεν ικανοποιεί πλήρως τις απαιτήσεις που επιβάλλονται από σύγχρονους προγραμματιστές για γλώσσες αυτού του είδους. Και του έγινε πρόταση αντικαταστάτη νέα γλώσσαΣήμανση υπερκειμένου: μια ισχυρή, ευέλικτη και ταυτόχρονα βολική γλώσσα XML.

Η XML (Extensible Markup Language) είναι μια γλώσσα σήμανσης που περιγράφει μια ολόκληρη κατηγορία αντικειμένων δεδομένων που ονομάζονται έγγραφα XML. Αυτή η γλώσσα χρησιμοποιείται ως μέσο για την περιγραφή της γραμματικής άλλων γλωσσών και για τον έλεγχο της ορθότητας των εγγράφων. Εκείνοι. Η ίδια η XML δεν περιέχει ετικέτες σήμανσης, απλώς ορίζει τη σειρά με την οποία δημιουργούνται. Έτσι, εάν, για παράδειγμα, πιστεύουμε ότι πρέπει να χρησιμοποιήσουμε την ετικέτα για να υποδείξουμε το στοιχείο τριαντάφυλλο στο έγγραφο , τότε η XML μας επιτρέπει να χρησιμοποιούμε ελεύθερα την ετικέτα που ορίζουμε και μπορούμε να συμπεριλάβουμε τμήματα όπως τα παρακάτω στο έγγραφο:

τριαντάφυλλο

Το σύνολο των ετικετών μπορεί εύκολα να επεκταθεί. Εάν, ας υποθέσουμε, θέλουμε επίσης να υποδείξουμε ότι η περιγραφή του λουλουδιού πρέπει να μπαίνει ουσιαστικά στην περιγραφή του θερμοκηπίου στο οποίο ανθίζει, τότε απλώς ορίζουμε νέες ετικέτες και επιλέγουμε τη σειρά με την οποία εμφανίζονται:

τριαντάφυλλο

Αν θέλουμε να φυτέψουμε μερικά ακόμη λουλούδια εκεί, πρέπει να κάνουμε τις εξής αλλαγές:

τριαντάφυλλο

τουλίπα

κάκτος

Όπως μπορείτε να δείτε, η διαδικασία δημιουργίας ενός εγγράφου XML είναι πολύ απλή και απαιτεί μόνο βασικές γνώσεις HTML και κατανόηση των εργασιών που θέλουμε να εκτελέσουμε χρησιμοποιώντας την XML ως γλώσσα σήμανσης. Αυτό δίνει στους προγραμματιστές τη μοναδική δυνατότητα να ορίζουν προσαρμοσμένες εντολές που τους επιτρέπουν να ορίζουν αποτελεσματικότερα τα δεδομένα που περιέχονται σε ένα έγγραφο. Ο συγγραφέας του εγγράφου δημιουργεί τη δομή του, δημιουργεί τις απαραίτητες συνδέσεις μεταξύ στοιχείων, χρησιμοποιώντας εκείνες τις εντολές που ικανοποιούν τις απαιτήσεις του και επιτυγχάνει τον τύπο σήμανσης που χρειάζεται για να εκτελέσει τις λειτουργίες προβολής, αναζήτησης και ανάλυσης του εγγράφου.

Ένα άλλο προφανές πλεονέκτημα της XML είναι η δυνατότητα χρήσης της ως καθολικής γλώσσας ερωτημάτων για αποθήκες πληροφοριών. Σήμερα, στα βάθη του W3C, εξετάζεται μια λειτουργική έκδοση του προτύπου XML-QL (ή XQL), που μπορεί στο μέλλον να γίνει σοβαρός ανταγωνιστής της SQL. Επιπλέον, τα έγγραφα XML μπορούν να λειτουργήσουν ως ένας μοναδικός τρόπος αποθήκευσης δεδομένων που περιλαμβάνει τόσο τα μέσα για την ανάλυση πληροφοριών όσο και την παρουσίασή τους στην πλευρά του πελάτη. Στην περιοχή αυτή ένα από υποσχόμενες κατευθύνσειςείναι η ενσωμάτωση τεχνολογιών Java και XML, που σας επιτρέπει να χρησιμοποιείτε τη δύναμη και των δύο τεχνολογιών κατά τη δημιουργία εφαρμογών ανεξάρτητων από μηχανή που χρησιμοποιούν επίσης μια καθολική μορφή δεδομένων για την ανταλλαγή πληροφοριών.

Η XML σάς επιτρέπει επίσης να ελέγχετε την ορθότητα των δεδομένων που αποθηκεύονται σε έγγραφα, να ελέγχετε τις ιεραρχικές σχέσεις μέσα σε ένα έγγραφο και να δημιουργείτε ένα ενιαίο πρότυπο για τη δομή των εγγράφων, το περιεχόμενο του οποίου μπορεί να είναι μια ποικιλία δεδομένων. Αυτό σημαίνει ότι μπορεί να χρησιμοποιηθεί κατά την κατασκευή πολύπλοκων πληροφοριακών συστημάτων, στα οποία το ζήτημα της ανταλλαγής πληροφοριών μεταξύ διαφορετικών εφαρμογών που εκτελούνται στο ίδιο σύστημα είναι πολύ σημαντικό. Δημιουργώντας μια δομή για έναν μηχανισμό ανταλλαγής πληροφοριών στην αρχή της εργασίας σε ένα έργο, ένας διαχειριστής μπορεί να σωθεί στο μέλλον από πολλά προβλήματα που σχετίζονται με την ασυμβατότητα των μορφών δεδομένων που χρησιμοποιούνται από διάφορα στοιχεία του συστήματος.

Επίσης, ένα από τα πλεονεκτήματα της XML είναι ότι τα προγράμματα επεξεργασίας εγγράφων XML είναι απλά και σήμερα όλα τα είδη προϊόντων λογισμικού που έχουν σχεδιαστεί για να λειτουργούν με έγγραφα XML διανέμονται ελεύθερα. Η XML υποστηρίζεται σήμερα σε όλα τα προγράμματα περιήγησης της οικογένειας Microsoft Internet Explorer, ξεκινώντας από την έκδοση 4.0. Ανακοινώθηκε ότι θα υποστηρίζεται σε επόμενες εκδόσεις των εφαρμογών Netscape Communicator, Oracle DBMS, DB-2 και MS-Office. Όλα αυτά δίνουν λόγο να υποθέσουμε ότι, πιθανότατα, στο εγγύς μέλλον, η XML θα γίνει η κύρια γλώσσα ανταλλαγής πληροφοριών για συστήματα πληροφοριών, αντικαθιστώντας έτσι την HTML. Γνωστές εξειδικευμένες γλώσσες σήμανσης όπως SMIL, CDF, MathML, XSL έχουν ήδη δημιουργηθεί με βάση την XML, και η λίστα με τα λειτουργικά προσχέδια νέων γλωσσών που εξετάζονται από το W3C αυξάνεται συνεχώς.

Πώς μοιάζει ένα έγγραφο XML;

Εάν είστε εξοικειωμένοι με την HTML, η εκμάθηση της XML δεν θα απαιτήσει μεγάλη προσπάθεια από μέρους σας. Αν και η XML είναι σίγουρα πολύ διαφορετική ως προς τις δυνατότητες και τις προθέσεις της από τη γλώσσα σήμανσης HyperText, και οι δύο γλώσσες είναι υποσύνολα της SGML και επομένως κληρονομούν τις βασικές αρχές της.

Δομή εγγράφου

Ένα απλό έγγραφο XML μπορεί να μοιάζει με το Παράδειγμα 1

Πρώτα

Δεύτερος υποπαράγραφος 1

Τρίτος

Τελευταίος

Λάβετε υπόψη ότι αυτό το έγγραφο μοιάζει πολύ με μια κανονική σελίδα HTML. Όπως και στην HTML, οι οδηγίες που περικλείονται σε αγκύλες ονομάζονται ετικέτες και χρησιμεύουν για τη σήμανση του σώματος του εγγράφου. Στην XML, υπάρχουν ετικέτες ανοίγματος, κλεισίματος και κενές (στην HTML, υπάρχει επίσης η έννοια της άδειας ετικέτας, αλλά δεν απαιτείται ειδικός προσδιορισμός).

Το σώμα ενός εγγράφου XML αποτελείται από στοιχεία σήμανσης και το πραγματικό περιεχόμενο του εγγράφου - δεδομένα (περιεχόμενο). Οι ετικέτες XML έχουν σχεδιαστεί για να ορίζουν στοιχεία εγγράφου, τα χαρακτηριστικά τους και άλλες γλωσσικές κατασκευές. Θα μιλήσουμε λεπτομερέστερα για τους τύπους σήμανσης που χρησιμοποιούνται στα έγγραφα λίγο αργότερα.

Κάθε έγγραφο XML πρέπει πάντα να ξεκινά με μια δήλωση, εντός του οποίου μπορείτε επίσης να ορίσετε τον αριθμό έκδοσης της γλώσσας, τον αριθμό κωδικοσελίδας και άλλες παραμέτρους που είναι απαραίτητες για το πρόγραμμα αναλυτής κατά τη διαδικασία ανάλυσης του εγγράφου.

Κανόνες για τη δημιουργία ενός εγγράφου XML

Γενικά, τα έγγραφα XML πρέπει να πληρούν τις ακόλουθες απαιτήσεις:

Η κεφαλίδα του εγγράφου περιέχει μια δήλωση XML που καθορίζει τη γλώσσα σήμανσης του εγγράφου, τον αριθμό έκδοσης και πρόσθετες πληροφορίες.

Κάθε ετικέτα ανοίγματος που ορίζει κάποια περιοχή δεδομένων στο έγγραφο πρέπει να έχει τον δικό της "συνεργάτη" κλεισίματος, δηλαδή, σε αντίθεση με την HTML, οι ετικέτες κλεισίματος δεν μπορούν να παραληφθούν.

Η XML κάνει διάκριση πεζών-κεφαλαίων.

Όλες οι τιμές χαρακτηριστικών που χρησιμοποιούνται στους ορισμούς των ετικετών πρέπει να περικλείονται σε εισαγωγικά.

Η ένθεση των ετικετών σε XML ελέγχεται αυστηρά, επομένως είναι απαραίτητο να παρακολουθείται η σειρά ανοίγματος και κλεισίματος των ετικετών.

Όλες οι πληροφορίες μεταξύ των ετικετών έναρξης και τέλους αντιμετωπίζονται ως δεδομένα σε XML, και επομένως όλοι οι χαρακτήρες μορφοποίησης λαμβάνονται υπόψη (δηλαδή τα κενά, οι αλλαγές γραμμής, οι καρτέλες δεν αγνοούνται όπως στην HTML).

Εάν ένα έγγραφο XML δεν παραβιάζει τους παραπάνω κανόνες, τότε ονομάζεται τυπικά σωστό και όλοι οι αναλυτές που έχουν σχεδιαστεί για την ανάλυση εγγράφων XML θα μπορούν να λειτουργούν σωστά μαζί του.

Ωστόσο, εκτός από τον έλεγχο της τυπικής συμμόρφωσης με τη γραμματική της γλώσσας, το έγγραφο μπορεί να περιέχει μέσα ελέγχου του περιεχομένου του εγγράφου, της συμμόρφωσης με τους κανόνες που καθορίζουν τις απαραίτητες σχέσεις μεταξύ των στοιχείων και σχηματίζουν τη δομή του εγγράφου. Για παράδειγμα, το ακόλουθο κείμενο, αν και είναι απολύτως έγκυρο έγγραφο XML, θα είναι εντελώς άνευ σημασίας:

Ρωσία Νοβοσιμπίρσκ</country>

Προκειμένου να διασφαλιστεί ότι ελέγχεται η ορθότητα των εγγράφων XML, είναι απαραίτητο να χρησιμοποιηθούν αναλυτές που εκτελούν τέτοιους ελέγχους και ονομάζονται επαληθευτές.

Σήμερα, υπάρχουν δύο κύριοι τρόποι ελέγχου της ορθότητας ενός εγγράφου XML: ορισμοί DTD (Ορισμός Τύπου Εγγράφου) και σχήματα δεδομένων (Σημασιολογικό σχήμα). Θα μιλήσουμε περισσότερα για τη χρήση DTD και σχημάτων την επόμενη φορά. Σε αντίθεση με το SGML, ο καθορισμός κανόνων DTD σε XML δεν είναι απαραίτητος και αυτή η περίσταση μας επιτρέπει να δημιουργήσουμε οποιαδήποτε έγγραφα XML χωρίς να χρειάζεται να ανησυχούμε για την πολύ περίπλοκη σύνταξη DTD.

Βασική αρχή

Ένα στοιχείο είναι η βασική δομική μονάδα ενός εγγράφου XML. Περικλείοντας τη λέξη τριαντάφυλλο σε ετικέτες , ορίζουμε ένα μη κενό στοιχείο που ονομάζεται , του οποίου το περιεχόμενο είναι τριαντάφυλλο. Στη γενική περίπτωση, το περιεχόμενο των στοιχείων μπορεί να είναι απλώς κάποιο κείμενο ή άλλα ένθετα στοιχεία εγγράφου, ενότητες CDATA, οδηγίες επεξεργασίας, σχόλια, π.χ. σχεδόν οποιοδήποτε μέρος ενός εγγράφου XML.

Οποιοδήποτε μη κενό στοιχείο πρέπει να αποτελείται από μια ετικέτα έναρξης, μια ετικέτα τέλους και τα δεδομένα που περικλείονται μεταξύ τους.

Το σύνολο όλων των στοιχείων που περιέχονται σε ένα έγγραφο ορίζει τη δομή του και καθορίζει όλες τις ιεραρχικές σχέσεις. Χρησιμοποιώντας στοιχεία, ένα επίπεδο μοντέλο δεδομένων μετατρέπεται σε ένα σύνθετο ιεραρχικό σύστημα με πολλές πιθανές σχέσεις μεταξύ των στοιχείων.

Κατά τη μεταγενέστερη αναζήτηση ενός εγγράφου, το πρόγραμμα-πελάτη θα βασίζεται στις πληροφορίες που είναι ενσωματωμένες στη δομή του - χρησιμοποιώντας τα στοιχεία του εγγράφου. Εκείνοι. εάν, για παράδειγμα, θέλετε να βρείτε το κατάλληλο πανεπιστήμιο στη σωστή πόλη, θα χρειαστεί να δείτε τα περιεχόμενα ενός συγκεκριμένου στοιχείου , που βρίσκεται μέσα σε ένα συγκεκριμένο στοιχείο . Η αναζήτηση σε αυτήν την περίπτωση, φυσικά, θα είναι πολύ πιο αποτελεσματική από την εύρεση της επιθυμητής ακολουθίας σε ολόκληρο το έγγραφο.

Σε ένα έγγραφο XML, κατά κανόνα, ορίζεται τουλάχιστον ένα στοιχείο, που ονομάζεται root, και οι αναλυτές ξεκινούν τη σάρωση του εγγράφου από εκεί. Στο παράδειγμα που δίνεται, αυτό το στοιχείο είναι .

Σε ορισμένες περιπτώσεις, οι ετικέτες μπορούν να αλλάξουν και να αποσαφηνίσουν τη σημασιολογία ορισμένων τμημάτων ενός εγγράφου, ορίζοντας τις ίδιες πληροφορίες με διαφορετικούς τρόπους και παρέχοντας έτσι στην εφαρμογή που αναλύει αυτό το έγγραφο πληροφορίες σχετικά με το πλαίσιο χρήσης των περιγραφόμενων δεδομένων. Για παράδειγμα, αφού διαβάσετε το απόσπασμα Χόλιγουντ, μπορούμε να μαντέψουμε ότι αυτό το μέρος του εγγράφου αφορά την πόλη, αλλά στο απόσπασμα Χόλιγουντ- για το εστιατόριο.

Σύναψη

Η γλώσσα μορφοποίησης ιστοσελίδας HTML εισήχθη αρχικά ως εφαρμογή του SGML. Αργότερα, με την ταχεία ανάπτυξη του WWW, η HTML άρχισε να επεκτείνεται με κάθε δυνατό τρόπο προκειμένου να δώσει στον συγγραφέα περισσότερο έλεγχο στην εξωτερική παρουσίαση των πληροφοριών. Νέα στοιχεία και χαρακτηριστικά όπως π.χ ή , επικεντρώθηκε στην οπτική μορφοποίηση. Εμφανίστηκαν και άρχισαν να χρησιμοποιούνται ενεργά εργαλεία που δεν αποτελούν μέρος της ίδιας της γλώσσας σήμανσης: χάρτες εικόνας, Java και JavaScript, πρόσθετα κ.λπ. Υπάρχουν επίσης πολλά στοιχεία HTML που υποστηρίζονται μόνο από συγκεκριμένα προγράμματα περιήγησης ή που λειτουργούν διαφορετικά σε διαφορετικά προγράμματα περιήγησης. Επομένως, είναι πλέον δύσκολο να πούμε εάν η HTML είναι εφαρμογή SGML ή όχι. Πολύ λίγες σελίδες δημιουργούνται σύμφωνα με τις προδιαγραφές HTML και τα αντίστοιχα DTD.

Αυτό το πρόβλημα προορίζεται εν μέρει να αμβλυνθεί από τα στυλ cascading, το πρότυπο για το οποίο έχει υιοθετηθεί από την κοινοπραξία W3. Το CSS1 διαχωρίζει το στυλ που ορίζει την οπτική εμφάνιση των στοιχείων από τη σήμανση του στοιχείου.

Μεγάλο ενδιαφέρον παρουσιάζει η γλώσσα XML, η οποία υποτίθεται ότι αντικαθιστά την HTML ως γλώσσα σήμανσης για ιστοσελίδες. Αυτή είναι μια παραλλαγή του SGML, που στοχεύει κυρίως στη χρήση στο WWW. Δεν απαιτεί DTD και η ίδια η γλώσσα είναι απλοποιημένη λόγω των πολύπλοκων δομών που χρησιμοποιούνται σπάνια. Αυτό θα κάνει τους αναλυτές απλούς, γεγονός που θα καταστήσει δυνατή την ενεργή χρήση XML σε προγράμματα περιήγησης. (Η πιθανότητα του οποίου είναι αρκετά υψηλή, δεδομένης της γνέφωσης και των δύο σημαντικών παικτών στον τομέα του προγράμματος περιήγησης προς την XML).


ΕΚΤΥΠΩΣΗ ΕΚΔΟΣΗ>>
Διαβάστηκε το άρθρο:μια φορά.
Σχετικά άρθρα

2024 liveps.ru. Εργασίες για το σπίτι και έτοιμα προβλήματα στη χημεία και τη βιολογία.