ทำไมเราต้องมีภาษามาร์กอัป? ภาษามาร์กอัปเอกสาร - อะไรคืองานหลักที่ใช้ระบบที่สร้างขึ้นในภาษามาร์กอัปต่างๆ

ในระบบประมวลผลคำ ข้อมูลเพิ่มเติมจะรวมอยู่ในเอกสารที่เรียกว่า เครื่องหมายและทำหน้าที่ดังต่อไปนี้:

  • เน้นองค์ประกอบเชิงตรรกะของเอกสารที่กำหนด
  • ฟังก์ชั่นการตั้งค่าสำหรับการประมวลผลองค์ประกอบที่เลือก

โปรแกรมประมวลผลคำทั่วไปมีคำสั่งในตัวสำหรับเปิด/ปิดแบบอักษรและอื่นๆ คล้ายกับคำสั่งสำหรับควบคุมการวางข้อมูลบนหน้าจอหรือเมื่อพิมพ์ (ที่เรียกว่าลำดับ Escare) วิธีนี้เรียกว่า ทีมหรือ มาร์กอัปขั้นตอน.

เทคนิคอื่นในการมาร์กอัปคือการเลือกส่วนของข้อความโดยไม่ต้องระบุว่าควรจัดการกับการเลือกอย่างไร คำสั่งอื่นๆ จะกำหนดวิธีการประมวลผลแฟรกเมนต์ มาร์กอัปนี้เรียกว่า พรรณนา(บรรยาย). โดยมีแท็กที่จุดเริ่มต้นและจุดสิ้นสุดขององค์ประกอบข้อความ และระบุวิธีการตีความส่วนนี้

ด้วยการเปลี่ยนชุดขั้นตอนที่สอดคล้องกับมาร์กอัปเชิงอธิบาย คุณสามารถเปลี่ยนรูปลักษณ์ของเอกสารเดียวกันได้ การพัฒนาแนวคิดเกี่ยวกับมาร์กอัปเชิงพรรณนานำไปสู่คำจำกัดความของมาร์กอัปเป็นภาษาที่เป็นทางการ วิธีนี้ช่วยให้คุณตรวจสอบความถูกต้องของมาร์กอัปและลดปริมาณให้เหลือน้อยที่สุดโดยการแทนที่ค่าเริ่มต้น

ข้อดี

ข้อได้เปรียบหลักของมาร์กอัปเชิงพรรณนาคือความยืดหยุ่น เนื่องจากชิ้นส่วนของข้อความถูกทำเครื่องหมายว่า "คืออะไร" (แทนที่จะเป็น "วิธีที่ควรแสดงผล") และซอฟต์แวร์อาจถูกเขียนขึ้นในอนาคตเพื่อจัดการกับชิ้นส่วนเหล่านี้ด้วยวิธีที่แม้แต่ ตั้งใจโดยนักออกแบบภาษา ตัวอย่างเช่น ไฮเปอร์ลิงก์ HTML ซึ่งเดิมมีจุดประสงค์เพื่อให้ผู้ใช้สามารถนำทางผ่านชุดการเชื่อมต่อบนเครือข่าย ต่อมาเริ่มถูกใช้โดยกลไกการค้นหาและการจัดทำดัชนีบนเครือข่าย เพื่อประเมินความนิยมของทรัพยากร และอื่นๆ

มาร์กอัปเชิงอธิบายยังช่วยให้ฟอร์แมตเอกสารใหม่ได้ง่ายขึ้นหากจำเป็น เนื่องจากคำอธิบายของรูปแบบไม่เกี่ยวข้องกับเนื้อหา ตัวอย่างเช่น, ตัวเอียงสามารถใช้เพื่อเน้นข้อความ ทำเครื่องหมายคำภาษาต่างประเทศ (หรือสแลง) หรือเพื่อวัตถุประสงค์อื่น อย่างไรก็ตาม หากคำต่างๆ ถูกเน้นเพียงอย่างเดียว (โดยอธิบายหรือตามขั้นตอน) เป็นตัวเอียง ความกำกวมนี้ก็ไม่สามารถแก้ไขได้ทั้งหมด หากทั้งสองกรณีมีป้ายกำกับต่างกันตั้งแต่เริ่มแรก แต่ละกรณีสามารถจัดรูปแบบใหม่ได้โดยแยกจากกรณีอื่นๆ มาร์กอัปทั่วไปเป็นอีกชื่อหนึ่งของมาร์กอัปที่สื่อความหมาย

องค์ประกอบที่เป็นประโยชน์ ชั้นเรียนต่างๆโดยทั่วไปแล้วมาร์กอัปจะอยู่ร่วมกันบนระบบใดก็ตาม ตัวอย่างเช่น HTML มีทั้งองค์ประกอบมาร์กอัปที่เป็นขั้นตอน (b สำหรับตัวหนา) และองค์ประกอบอื่นๆ ที่เป็นคำอธิบาย (แอตทริบิวต์ "blockquote" หรือ "href") HTML ยังมีองค์ประกอบ PRE ซึ่งจำกัดพื้นที่ของข้อความที่จะอยู่ในตำแหน่งที่พิมพ์ทุกประการ

ระบบมาร์กอัปเชิงพรรณนา

มากที่สุด ระบบที่ทันสมัยมาร์กอัปเชิงพรรณนาถือว่าเอกสารเป็นโครงสร้างแบบลำดับชั้น (ต้นไม้) และยังจัดเตรียมวิธีการบางอย่างสำหรับการอ้างอิงโยงในตัว ดังนั้นเอกสารดังกล่าวจึงสามารถตีความและประมวลผลได้ดังนี้ ฐานข้อมูลซึ่งมีโครงสร้างที่กำหนดไว้ค่อนข้างดี (อย่างไรก็ตาม เนื่องจากไม่มีสคีมาที่เข้มงวดเช่นฐานข้อมูลเชิงสัมพันธ์ จึงมักเรียกว่า "ฐานข้อมูลกึ่งโครงสร้าง")

เมื่อถึงสหัสวรรษที่ 3 ความสนใจก็เกิดขึ้นในเอกสารที่มีโครงสร้างที่ไม่ใช่ลำดับชั้น ตัวอย่างเช่น วรรณกรรมโบราณและวรรณกรรมทางศาสนามักจะมีโครงสร้างวาทศิลป์หรือร้อยแก้ว (เรื่องราว บท ย่อหน้า ฯลฯ) และยังรวมถึง ข้อมูลความเป็นมา(หนังสือ บท บท บรรทัด) เนื่องจากขอบเขตของโมดูลเหล่านี้มักจะทับซ้อนกัน จึงไม่สามารถเข้ารหัสได้อย่างสมบูรณ์โดยใช้เพียงระบบมาร์กอัปที่มีโครงสร้างแบบต้นไม้เท่านั้น ระบบการสร้างแบบจำลองเอกสารที่รองรับโครงสร้างดังกล่าว ได้แก่ MECS, TEI Guidelines, LMNL และ CLIX

คำว่า "มาร์กอัป" มาจากการปฏิบัติแบบดั้งเดิมในการทำเครื่องหมายต้นฉบับก่อนตีพิมพ์ (นั่นคือ การเพิ่มคำสั่งเชิงสัญลักษณ์ที่ระยะขอบและระหว่างบรรทัดของต้นฉบับบนกระดาษ) เป็นเวลาหลายศตวรรษแล้วที่สิ่งนี้ทำโดยผู้จัดพิมพ์ (บรรณาธิการและผู้พิสูจน์อักษร) ซึ่งสังเกตว่าควรพิมพ์แบบอักษรสไตล์และขนาดจุดใดของข้อความจากนั้นส่งมอบต้นฉบับให้กับผู้เรียงพิมพ์ซึ่งพิมพ์ข้อความด้วยตนเองโดยคำนึงถึงมาร์กอัป สัญลักษณ์

ปัจจุบันมีภาษามาร์กอัปหลายภาษาซึ่งเป็นที่รู้จักกันอย่างแพร่หลาย ได้แก่ DocBook, MathML, SVG, Open eBook, XBRL และอื่น ๆ มีวัตถุประสงค์หลักเพื่อแสดงเอกสารข้อความต่าง ๆ แต่ภาษาพิเศษสามารถใช้ได้ในด้านอื่น ๆ อีกมากมาย แน่นอนว่าภาษามาร์กอัปที่รู้จักกันดีที่สุดคือ HTML (HyperText Markup Language) ซึ่งเป็นหนึ่งในรากฐานของ WWW (เวิลด์ไวด์เว็บ)

เอกสารใด ๆ มีองค์ประกอบสามประการ:

· โครงสร้าง;

เนื้อหาคือข้อมูลที่แสดงในเอกสาร เนื้อหาของเอกสารบนกระดาษอาจเป็นข้อความล้วนๆ และยังมีรูปภาพด้วย ถ้ายื่นเอกสารแล้ว. แบบฟอร์มอิเล็กทรอนิกส์อาจมีข้อมูลมัลติมีเดีย รวมถึงลิงก์ไปยังเอกสารอื่นๆ แม้ว่าเนื้อหาของเอกสารที่แตกต่างกันจะแตกต่างกันไป แต่ก็สามารถจำแนกออกเป็นประเภทต่างๆ ได้ เช่น หนังสือหรือตั๋วรถไฟ

รูปแบบของเอกสารจะกำหนดรูปแบบที่เนื้อหาจะแสดงบนอุปกรณ์เฉพาะ (เช่น เครื่องพิมพ์หรือจอแสดงผล) แนวคิดของสไตล์ประกอบด้วยลักษณะของแบบอักษร (ชื่อ ขนาด สี) ของเอกสารเอาต์พุตทั้งหมดหรือแต่ละบล็อก ลำดับของการแบ่งหน้า ตำแหน่งของบล็อกบนหน้า และพารามิเตอร์อื่น ๆ สามารถส่งออกเอกสารเดียวกันได้ สไตล์ที่แตกต่างทั้งในสื่อต่าง ๆ และในสื่อเดียวกัน

ภาษามาร์กอัปเอกสารคือ ภาษาประดิษฐ์มีวัตถุประสงค์เพื่ออธิบายโครงสร้างของเอกสารและความสัมพันธ์ระหว่างวัตถุต่างๆ ของโครงสร้าง ข้อมูลมาร์กอัปเรียกอีกอย่างว่าข้อมูลเมตา

ภาษามาร์กอัปแรกคือ GML (ภาษามาร์กอัปทั่วไป) ซึ่งพัฒนาโดยพนักงาน IBM ย้อนกลับไปในยุค 60 ของศตวรรษที่ผ่านมา ผู้สืบทอดทันทีคือภาษา SGML (ภาษามาร์กอัปมาตรฐานทั่วไป) ซึ่งกำหนดกฎสำหรับการบันทึกองค์ประกอบมาร์กอัปเอกสาร เอกสารที่เป็นไปตามกฎของภาษาเรียกว่าเอกสาร SGML

ภาษา SGML ถูกกำหนดไว้ในมาตรฐาน ISO 8879 ซึ่งระบุข้อกำหนดพื้นฐานต่อไปนี้สำหรับภาษามาร์กอัปเอกสาร:

· ภาษาจะต้องเป็นภาษาที่มนุษย์สามารถอ่านได้

· ไฟล์เอกสารที่มาร์กอัปจะต้องเป็นข้อความและเข้ารหัสโดยใช้อักขระรหัส ASCII (รหัส American Standard สำหรับการแลกเปลี่ยนข้อมูล) อย่างไรก็ตาม เนื้อหาของเอกสารไม่จำเป็นต้องเข้ารหัส ASCII หรือข้อความ

SGML และภาษาที่คล้ายกันใช้เครื่องมือมาร์กอัปเอกสารพิเศษ:

· องค์ประกอบและคุณลักษณะที่มาพร้อมกัน

· หน่วยงาน;

·ความคิดเห็น

หน่วยโครงสร้างของเอกสาร SGML คือองค์ประกอบ ในข้อความที่มาร์กอัป แต่ละองค์ประกอบจะต้องถูกเน้นในลักษณะใดลักษณะหนึ่ง การไฮไลต์ทำได้โดยการใส่แท็กเริ่มต้น (from คำภาษาอังกฤษ tag – label) ที่จุดเริ่มต้นขององค์ประกอบ (แท็กเริ่มต้น) และแท็กปิด (แท็กปิด) ที่ส่วนท้ายขององค์ประกอบ แท็กเริ่มต้นและแท็กสิ้นสุดมีชื่อเดียวกัน หากต้องการแยกแท็กออกจากข้อความธรรมดา แท็กจะต้องขึ้นต้นด้วยอักขระเพื่อระบุจุดเริ่มต้นของแท็ก และลงท้ายด้วยอักขระเพื่อระบุจุดสิ้นสุดของแท็ก นอกจากนี้ยังมีการระบุสัญลักษณ์ไว้ในแท็กปิดท้าย - สัญลักษณ์ของแท็กปิดท้าย ใน SGML สามารถระบุสัญลักษณ์ใดๆ ให้เป็นคุณลักษณะดังกล่าวได้ แต่สัญลักษณ์ที่ใช้บ่อยที่สุดเป็นจุดเริ่มต้นของแท็กคือ "<" (левая угловая скобка), в качестве признака окончания тега используется символ ">" (วงเล็บมุมซ้าย) และอักขระแท็กปิดท้ายคือ "/" (เครื่องหมายสแลช) องค์ประกอบในเอกสาร SGML สามารถล้อมรอบองค์ประกอบอื่นๆ ส่งผลให้มีการแสดงเอกสาร SGML แบบกราฟิกเป็นโครงสร้างแบบลำดับชั้น (ต้นไม้)


ตัวอย่างที่ 4.3.1 เอกสาร SGML ระบุรายชื่อนักเรียนพร้อมผลการสอบสามารถระบุได้ดังนี้

รายชื่อแบบประเมินนักเรียนในภาคเรียน

อีวานอฟ อีวาน อิวาโนวิช

มส-61

บี

บี

บี

เปตรอฟ เปตรอฟ เปโตรวิช

มส-62

ดี

ในเอกสารนี้ องค์ประกอบแรกคือองค์ประกอบรายชื่อนักเรียน องค์ประกอบนี้ประกอบด้วยองค์ประกอบชื่อเดียว (ชื่อ) และองค์ประกอบนักเรียนหลายรายการ (ข้อมูลนักเรียน) ในทางกลับกัน องค์ประกอบนักเรียนแต่ละองค์ประกอบประกอบด้วยองค์ประกอบชื่อเต็มหนึ่งองค์ประกอบ (นามสกุล ชื่อและนามสกุลของนักเรียน) องค์ประกอบหมายเลขกลุ่มหนึ่งรายการ (หมายเลขกลุ่ม) และองค์ประกอบรายการเครื่องหมายหนึ่งรายการ (รายการคะแนนของนักเรียนในช่วงเซสชั่น) และสุดท้าย องค์ประกอบเครื่องหมายรายการประกอบด้วยองค์ประกอบเครื่องหมายหลายรายการ (คะแนน)

การแสดงกราฟิกของรายการนี้ในรูป 4.3.1 มีโครงสร้างแบบต้นไม้:

ข้าว. 4.3.1. โครงสร้างเอกสาร SGML ในการนำเสนอแบบกราฟิก

คุณสมบัติสามารถใช้เพื่อปรับแต่งองค์ประกอบ SGML คุณลักษณะถูกเขียนไว้ในแท็กเริ่มต้นขององค์ประกอบดังนี้:

คุณลักษณะชื่อ = "แอตทริบิวต์ค่า"

องค์ประกอบสามารถระบุแอตทริบิวต์ได้หลายรายการ แอตทริบิวต์จะถูกแยกออกจากกันและชื่อองค์ประกอบด้วยการเว้นวรรคอย่างน้อยหนึ่งช่อง

ตัวอย่างที่ 4.3.2 สำหรับองค์ประกอบเครื่องหมายในตัวอย่าง 4.3.1 คุณสามารถตั้งค่าแอตทริบิวต์หัวเรื่องได้ โดยค่าจะเป็นชื่อของสาขาวิชาที่ทำการสอบ จากนั้นสำหรับนักเรียนคนแรก องค์ประกอบจะอยู่ในรูปแบบต่อไปนี้:

บี

บี

บี

ภาษาเช่น SGML ใช้เอนทิตีเพื่อทำงานกับกลุ่มข้อมูล เอนทิตีคือข้อมูลที่มีชื่อใดๆ ทั้งข้อความและไม่ใช่ข้อความ เมื่อดูเอกสาร ชื่อเอนทิตีจะถูกแทนที่ด้วยค่าของมัน ตัวอย่างเช่น ชื่อของเอนทิตีข้อความ kpi จะถูกแทนที่ด้วยค่าของมัน: Kyiv Polytechnic Institute และเอนทิตีที่ไม่ใช่ข้อความ image1 จะถูกแทนที่ด้วยรูปภาพชื่อ image1

ภาษามาร์กอัปแบบน้ำหนักเบา

ภาษาที่ออกแบบมาเพื่อการเขียนข้อความที่ง่ายและรวดเร็วในโปรแกรมแก้ไขข้อความแบบง่ายเรียกว่า เบาลง(th:ภาษามาร์กอัปแบบไลท์เวท) คุณสมบัติของภาษาดังกล่าว:

  • ฟังก์ชั่นขั้นต่ำ
  • แท็กที่รองรับชุดเล็กๆ
  • ง่ายต่อการเรียนรู้
  • ข้อความต้นฉบับในภาษานี้อ่านได้ง่ายเช่นเดียวกับเอกสารที่เสร็จสมบูรณ์

ใช้ในกรณีที่บุคคลต้องเตรียมข้อความในโปรแกรมแก้ไขข้อความทั่วไป (บล็อก ฟอรัม วิกิ) หรือเมื่อผู้ใช้ที่มีโปรแกรมแก้ไขข้อความทั่วไปสามารถอ่านข้อความได้ ต่อไปนี้คือภาษามาร์กอัปแบบไลท์เวทที่ใช้กันทั่วไปบางส่วน:

  • มาร์กอัป Wiki (ดู Wikipedia: วิธีแก้ไขบทความ)
  • ระบบเอกสารอัตโนมัติต่างๆ (เช่น Javadoc)

เรื่องราว

คำว่า “มาร์กอัป” มาจากวลี “มาร์กอัป” ( การทำเครื่องหมาย, การทำเครื่องหมาย- ภาษาอังกฤษ) จากการฝึกพิมพ์แบบดั้งเดิมโดยการวางบันทึกแบบมีเงื่อนไขพิเศษไว้ตรงขอบและในข้อความของต้นฉบับหรือหลักฐานก่อนส่งพิมพ์ ดังนั้น "คนมาร์กอัป" จึงระบุแบบอักษร สไตล์ และขนาดตัวอักษรสำหรับแต่ละส่วนของข้อความ ปัจจุบันมาร์กอัปข้อความทำได้โดยบรรณาธิการ ผู้ตรวจทาน นักออกแบบกราฟิก และแน่นอน โดยผู้เขียนเอง

เจนโค้ด

แนวคิดของการใช้ภาษามาร์กอัปในการประมวลผลคำด้วยคอมพิวเตอร์น่าจะถูกนำมาใช้ครั้งแรกโดย William Tunnicliffe วิลเลียม ดับเบิลยู. ทันนิคคลิฟ ) ในการประชุมใหญ่เมื่อปี พ.ศ. 2510 ตัวเขาเองเรียกข้อเสนอของเขาว่า "การเข้ารหัสสากล" (อังกฤษ "การเข้ารหัสทั่วไป"- ในปี 1970 Tunnicliffe เป็นผู้นำการพัฒนามาตรฐาน GenCode สำหรับอุตสาหกรรมการพิมพ์ และต่อมาได้กลายมาเป็นหัวหน้าคณะกรรมการชุดหนึ่งขององค์การระหว่างประเทศเพื่อการมาตรฐาน (ISO) องค์การระหว่างประเทศเพื่อการมาตรฐาน ) ซึ่งเป็นผู้สร้าง SGML ซึ่งเป็นภาษามาร์กอัปเชิงอธิบายภาษาแรก ไบรอัน รีด (คุณ. ไบรอัน รีด ) ในวิทยานิพนธ์ของเขา ซึ่งเขาปกป้องในปี 1980 ที่มหาวิทยาลัยคาร์เนกี้ มหาวิทยาลัยคาร์เนกีเมลลอน ) ในการพัฒนาแนวคิดที่นำเสนอได้ดำเนินการใช้งานมาร์กอัปเชิงพรรณนาในทางปฏิบัติ

อย่างไรก็ตามในปัจจุบัน "บิดา" ของภาษามาร์กอัปมักเรียกว่านักวิจัยของ IBM Charles Goldfarb ชาร์ลส์ โกลด์ฟาร์บ - แนวคิดพื้นฐานนี้ถือกำเนิดขึ้นในปี 1969 ขณะที่ทำงานเกี่ยวกับระบบการจัดการเอกสารแบบดั้งเดิมสำหรับสำนักงานกฎหมาย ในปีเดียวกันนั้นเอง เขาได้มีส่วนร่วมในการสร้างภาษา IBM GML ซึ่งเปิดตัวครั้งแรกในปี 1973

การใช้งานภาษามาร์กอัปคอมพิวเตอร์ในช่วงแรกๆ สามารถพบได้ในยูทิลิตี้การพิมพ์ของ UNIX เช่น troff และ nroff ช่วยให้คุณสามารถแทรกคำสั่งการจัดรูปแบบลงในข้อความของเอกสารเพื่อจัดรูปแบบตามความต้องการของบรรณาธิการ

ความพร้อมใช้งานของซอฟต์แวร์การเผยแพร่ที่มีฟังก์ชัน WYSIWYG “สิ่งที่คุณเห็นคือสิ่งที่คุณได้รับ” - "สิ่งที่คุณเห็นคือสิ่งที่คุณได้รับ") ได้แทนที่ภาษาเหล่านี้ส่วนใหญ่ในหมู่ผู้ใช้ทั่วไป แม้ว่างานเผยแพร่ที่จริงจังยังคงใช้มาร์กอัปสำหรับโครงสร้างข้อความที่ไม่ใช่ภาพเฉพาะ และขณะนี้บรรณาธิการแบบ WYSIWYG มักจะบันทึกเอกสารในรูปแบบตาม ภาษามาร์กอัป

เท็กซ์

มาตรฐานการเผยแพร่ที่สำคัญอีกประการหนึ่งคือ TeX ซึ่งสร้างและปรับปรุงในเวลาต่อมาโดย Donald Knuth ในช่วงทศวรรษที่ 70 และ 80 ของศตวรรษที่ 20 TeX รวบรวมความสามารถในการจัดรูปแบบข้อความระดับสูงและคำอธิบายแบบอักษร โดยเฉพาะสำหรับหนังสือคณิตศาสตร์ คุณภาพระดับมืออาชีพ- สิ่งนี้ทำให้ Knuth ใช้เวลาอย่างมากในการเรียนรู้ศิลปะการเรียงพิมพ์ อย่างไรก็ตาม TeX ได้ตกต่ำลง ดังนั้นปัจจุบันจึงถูกนำมาใช้เป็นหลัก โลกวิทยาศาสตร์มาตรฐานโดยพฤตินัยในหลาย ๆ คนอยู่ที่ไหน สาขาวิชาวิทยาศาสตร์- นอกจากเทคโนโลยีแล้ว ยังมี LaTeX ซึ่งเป็นระบบมาร์กอัปเชิงพรรณนาที่ใช้กันอย่างแพร่หลายบนพื้นฐานของ TeX

อาลักษณ์, GML และ SGML

ภาษาแรกที่มีความแตกต่างที่ชัดเจนและชัดเจนระหว่างโครงสร้างเอกสารและรูปลักษณ์ของเอกสารคือ Scribe ซึ่งสร้างขึ้นและอธิบายไว้ในวิทยานิพนธ์ระดับปริญญาเอกของ Brian Reid ในปี 1980 Scribe เป็นการปฏิวัติในหลายวิธีที่สามารถประมวลผลได้ ไม่น้อยเพราะมันแนะนำแนวคิดเกี่ยวกับสไตล์ แยกจากข้อความและไวยากรณ์จริง และควบคุมการใช้องค์ประกอบเชิงพรรณนา Scribe มีอิทธิพลต่อการพัฒนา GML (ภายหลัง SGML) และยังเป็นบรรพบุรุษโดยตรงของ HTML และ LaTeX

ในช่วงต้นทศวรรษ 1980 แนวคิดที่ว่ามาร์กอัปควรมุ่งเน้นไปที่ลักษณะโครงสร้างของเอกสารและปล่อยให้การตีความเอกสารภายนอกเป็นหน้าที่ของล่าม ซึ่งนำไปสู่การสร้าง SGML ภาษาได้รับการพัฒนาโดยคณะกรรมการที่นำโดย Goldfarb เขาผสมผสานแนวคิดจากหลายแหล่ง รวมถึงโครงการ Tunnikoflick, GenCode Sharon Adler, Anders Berglund และ James A. Marke เป็นสมาชิกคนสำคัญของคณะกรรมการ SGML เช่นกัน

SGML กำหนดไวยากรณ์อย่างชัดเจนสำหรับการรวมมาร์กอัปในข้อความ และยังอธิบายแยกต่างหากว่าแท็กใดบ้างที่ได้รับอนุญาตและตำแหน่ง (DTD - คำจำกัดความประเภทเอกสาร) สิ่งนี้ทำให้ผู้เขียนสามารถสร้างและใช้มาร์กอัปใดๆ ที่พวกเขาต้องการ โดยเลือกแท็กที่จะใช้และตั้งชื่อเป็นภาษาปกติ ดังนั้น SGML จึงควรได้รับการพิจารณาว่าเป็นภาษาเมตา หลายรายการ ภาษาพิเศษเครื่องหมายมีต้นกำเนิดมาจากเขา ช่วงปลายทศวรรษ 1980 มีภาษามาร์กอัปใหม่เพิ่มขึ้นโดยใช้ SGML เช่น TEI และ DocBook

ในปี พ.ศ. 2529 SGML ได้รับการเผยแพร่เป็นมาตรฐานสากลโดยหมายเลข ISO 8879 SGML ได้รับการยอมรับอย่างกว้างขวางและมีการใช้กันอย่างแพร่หลายในโครงการขนาดใหญ่มาก อย่างไรก็ตาม โดยทั่วไปพบว่ามีความยุ่งยากและเรียนรู้ได้ยาก โดยผลข้างเคียงของภาษาคือการพยายามทำมากเกินไปและยืดหยุ่นเกินไป ตัวอย่างเช่น SGML ได้สร้างแท็กปิดที่ไม่จำเป็นเสมอไป (หรือแท็กเปิด หรือแม้แต่ทั้งสองอย่าง) เนื่องจากเชื่อว่ามาร์กอัปนี้จะถูกเพิ่มด้วยตนเองโดยเจ้าหน้าที่ฝ่ายสนับสนุนโครงการ ซึ่งยินดีกับการประหยัดค่ากดแป้นพิมพ์

HTML

ภายในปี 1991 การใช้ SGML ถูกจำกัดอยู่เพียงโปรแกรมธุรกิจและฐานข้อมูล และเครื่องมือ WYSIWYG (ซึ่งจัดเก็บเอกสารในรูปแบบไบนารีที่เป็นกรรมสิทธิ์) ถูกนำมาใช้สำหรับโปรแกรมประมวลผลเอกสารอื่นๆ สถานการณ์เปลี่ยนไปเมื่อ Sir Tim Berners-Lee ได้เรียนรู้เกี่ยวกับ SGML จาก Anders Bergland เพื่อนร่วมงานของเขา แอนเดอร์ส เบิร์กลันด์ ) และผู้ร่วมงานคนอื่นๆ ที่ CERN ใช้ไวยากรณ์ SGML เพื่อสร้าง HTML ภาษามีความคล้ายคลึงกับภาษามาร์กอัปที่ใช้ไวยากรณ์ SGML อื่นๆ แต่เริ่มต้นได้ง่ายกว่ามาก แม้แต่สำหรับนักพัฒนาที่ไม่เคยทำมาก่อนก็ตาม Steven DeRose แย้งว่า HTML ที่ใช้มาร์กอัปเชิงอธิบาย (และโดยเฉพาะ SGML) เป็นปัจจัยสำคัญในการพัฒนาเว็บเนื่องจากได้รับการออกแบบให้มีความยืดหยุ่นและความสามารถในการขยายได้ (เช่นเดียวกับปัจจัยอื่น ๆ รวมถึงแนวคิดของ URL และการใช้งานฟรีโดยเบราว์เซอร์) . ปัจจุบัน HTML เป็นภาษามาร์กอัปที่น่าดึงดูดและใช้กันมากที่สุดในโลก

อย่างไรก็ตาม สถานะของ HTML ในฐานะภาษามาร์กอัปถูกโต้แย้งโดยนักวิทยาศาสตร์คอมพิวเตอร์บางคน ข้อโต้แย้งหลักของพวกเขาคือ HTML จำกัดตำแหน่งของแท็ก โดยกำหนดให้ทั้งสองแท็กซ้อนกันภายในแท็กอื่นหรือภายในแท็กหลักของเอกสาร ด้วยเหตุนี้ นักวิชาการเหล่านี้จึงถือว่า HTML เป็นภาษาคอนเทนเนอร์ที่เป็นไปตามแบบจำลองลำดับชั้น

XML

XML (Extensible Markup Language) เป็นภาษาเมตามาร์กอัปที่ใช้กันอย่างแพร่หลายในปัจจุบัน XML ได้รับการพัฒนาโดย World Wibe Web Consortium ในคณะกรรมการที่นำโดย Jon Bosak วัตถุประสงค์หลักของ XML คือเพื่อให้ง่ายกว่า SGML และมุ่งเน้นไปที่ปัญหาเฉพาะ - เอกสารบนอินเทอร์เน็ต XML เป็นภาษาเมตาเช่น SGML ผู้ใช้สามารถสร้างแท็กใดๆ ที่พวกเขาต้องการได้ (ดังนั้นจึง "ขยายได้") การเพิ่มขึ้นของ XML ได้รับการช่วยเหลือเนื่องจากเอกสาร XML ทุกฉบับสามารถเขียนได้ในลักษณะเดียวกับเอกสาร SGML และโปรแกรมและผู้ใช้ที่ใช้ SGML สามารถโยกย้ายไปยัง XML ได้อย่างง่ายดาย

อย่างไรก็ตาม XML สูญเสียคุณลักษณะที่มุ่งเน้นมนุษย์จำนวนมากของ SGML ซึ่งทำให้ใช้งานง่ายขึ้น (จนกว่าจะขยายจำนวนมาร์กอัปและกลับมาสามารถอ่านและแก้ไขได้อีกครั้ง) การปรับปรุงอื่นๆ ได้แก้ไขปัญหา SGML บางอย่างในระดับสากล และทำให้สามารถแยกวิเคราะห์เอกสารตามลำดับชั้นได้ แม้ว่าจะไม่มี DTD ก็ตาม

XML ได้รับการออกแบบมาเพื่อสภาพแวดล้อมแบบกึ่งโครงสร้างเป็นหลัก เช่น เอกสารและสิ่งพิมพ์ อย่างไรก็ตาม มันเป็นสื่อกลางที่น่าพึงพอใจระหว่างความยืดหยุ่นและความเรียบง่าย และผู้ใช้จำนวนมากก็นำไปใช้อย่างรวดเร็ว ขณะนี้ XML ถูกนำมาใช้กันอย่างแพร่หลายในการถ่ายโอนข้อมูลระหว่างโปรแกรม เช่นเดียวกับ HTML มันสามารถกำหนดลักษณะเป็นภาษา "คอนเทนเนอร์" ได้

XHTML

เริ่มตั้งแต่เดือนมกราคม พ.ศ. 2543 คำแนะนำ W3C ทั้งหมดอิงตาม XML แทนที่จะเป็น SGML และเสนอตัวย่อ XHTML (Extensible HyperText Markup Languge) ข้อกำหนดด้านภาษากำหนดให้เอกสาร XHTML ต้องได้รับการจัดรูปแบบเป็นเอกสาร XML ซึ่งช่วยให้สามารถใช้ XHTML สำหรับเอกสารที่ชัดเจนและแม่นยำยิ่งขึ้นโดยใช้แท็กจาก HTML

ความแตกต่างที่น่าสังเกตที่สุดประการหนึ่งระหว่าง HTML และ XHTML คือกฎที่ต้องปิดแท็กทั้งหมด เช่น แท็กว่าง เป็นต้น<พี่ชาย/> ทั้งคู่ต้องปิดด้วยแท็กปิดมาตรฐานหรือรายการพิเศษ:<พี่ชาย/> (ช่องว่างก่อน “/” ในแท็กปิดเป็นทางเลือก แต่มักใช้เนื่องจากเบราว์เซอร์ก่อน XML และโปรแกรมแยกวิเคราะห์ SGML บางตัวใช้ช่องว่างนี้) คุณลักษณะอื่นๆ ในแท็กจะต้องอยู่ในเครื่องหมายคำพูด สุดท้าย แท็กและชื่อแอตทริบิวต์ทั้งหมดจะต้องเขียนด้วยตัวพิมพ์เล็กเพื่อให้อ่านได้อย่างถูกต้อง HTML ไม่คำนึงถึงขนาดตัวพิมพ์

การพัฒนาอื่น ๆ ที่ใช้ XML

ขณะนี้มีการใช้งานการพัฒนาที่ใช้ XML จำนวนมาก เช่น RDF (Resource Description Framework), XFORMS, DocBook, SOAP และ OWL (Ontology Web Language)

ลักษณะเฉพาะ

คุณลักษณะทั่วไปของภาษามาร์กอัปทั้งหมดคือผสมข้อความในเอกสารกับคำแนะนำมาร์กอัปในสตรีมข้อมูลหรือไฟล์ สิ่งนี้ไม่จำเป็น แต่สามารถแยกมาร์กอัปออกจากข้อความได้โดยใช้พอยน์เตอร์ ป้ายกำกับ ตัวระบุ หรือเทคนิคการประสานงานอื่นๆ “มาร์กอัปแยก” นี้เป็นเรื่องปกติสำหรับการเป็นตัวแทนภายในของโปรแกรมที่ทำงานกับเอกสารมาร์กอัป อย่างไรก็ตาม มาร์กอัปแบบฝังหรือ "อินไลน์" เป็นที่ยอมรับมากกว่าในที่อื่น ตัวอย่างเช่น นี่คือส่วนเล็กๆ ของข้อความที่มาร์กอัปโดยใช้ HTML:

อนาติดี

ครอบครัว อนาติดีได้แก่เป็ด ห่าน หงส์ แต่ ไม่เสียงกรีดร้องที่เกี่ยวข้องอย่างใกล้ชิด

รหัสคำสั่งมาร์กอัป (เรียกว่าแท็ก) อยู่ในวงเล็บมุม<как здесь>- ข้อความระหว่างคำแนะนำเหล่านี้คือข้อความของเอกสาร รหัส h1, พีและ em- ตัวอย่างของมาร์กอัปโครงสร้าง อธิบายตำแหน่ง วัตถุประสงค์ หรือความหมายของข้อความที่รวมอยู่ในนั้น

แม่นยำยิ่งขึ้น h1หมายถึง "นี่คือหัวข้อระดับแรก" พีหมายถึง "นี่คือย่อหน้า" และ emหมายถึง "นี่คือคำหรือวลีที่ขีดเส้นใต้" โปรแกรมล่ามสามารถใช้กฎหรือสไตล์เหล่านี้เพื่อแสดง ส่วนต่างๆข้อความโดยใช้แบบอักษร ขนาดตัวอักษร ระยะห่าง สี หรือลักษณะอื่นๆ ที่แตกต่างกันตามต้องการ ตัวอย่างเช่น แท็ก เช่น h1 อาจแสดงด้วยแบบอักษรตัวพิมพ์ขนาดใหญ่ตัวหนา หรือในเอกสารที่มีข้อความแบบเว้นวรรค (เช่น บนเครื่องพิมพ์ดีด) อาจถูกขีดเส้นใต้ หรืออาจไม่เปลี่ยนรูปลักษณ์เลย

เพื่อความคมชัด ให้แท็ก ฉันใน HTML - ตัวอย่างของมาร์กอัปแบบภาพ โดยปกติจะใช้เพื่อระบุคุณลักษณะเฉพาะของข้อความ (ใช้แบบอักษรตัวเอียงในบล็อกนี้) โดยไม่ต้องอธิบายเหตุผล

TEI (Tex Encoding Initiative) ได้เผยแพร่เอกสารคำแนะนำที่ครอบคลุมเพื่อเข้ารหัสข้อความเพื่อประโยชน์ของมนุษยชาติและ สังคมวิทยาศาสตร์- คู่มือเหล่านี้ใช้ในการเข้ารหัสเอกสารทางประวัติศาสตร์ งานเฉพาะของนักวิทยาศาสตร์ วารสาร และอื่นๆ

การใช้งานทางเลือก

แม้ว่าแนวคิดในการใช้ภาษามาร์กอัปกับเอกสารข้อความจะได้รับการพัฒนา แต่ก็มีการใช้ภาษามาร์กอัปในด้านอื่น ๆ เพิ่มขึ้น โดยแนะนำว่าสามารถใช้เพื่อแสดงข้อมูลประเภทต่าง ๆ รวมถึงเพลย์ลิสต์ กราฟิกแบบเวกเตอร์, บริการเว็บ, ส่วนต่อประสานกับผู้ใช้ แอปพลิเคชันเหล่านี้ส่วนใหญ่ใช้ XML เนื่องจากเป็นภาษาที่มีโครงสร้างที่ดีและสามารถขยายได้

การใช้ XHTML ยังแสดงให้เห็นว่าสามารถรวมกับภาษามาร์กอัปที่แตกต่างกันของโปรไฟล์เดียวกันได้ เช่น XHTML+SMIL หรือ XHTML+MathML+SVG

ภาษามาร์กอัป HTML

ปัจจุบันมีเทคโนโลยีมากมายสำหรับการสร้างเว็บเพจที่เว็บมาสเตอร์ไม่สามารถทำได้หากไม่มี แต่พื้นฐานสำหรับการพัฒนาเอกสารบนเว็บคือภาษา HTML มาร์กอัปไฮเปอร์เท็กซ์

HTML เป็นภาษามาร์กอัปเป็นหลัก และโค้ดที่เขียนในภาษานั้นจะถูกดำเนินการบนคอมพิวเตอร์ของลูกค้าในแอปพลิเคชันเว็บเบราว์เซอร์ นี่เป็นเพราะความเรียบง่ายและความสะดวกในการเรียนรู้

ทำไมเราต้องมีภาษามาร์กอัป?

เมื่อคุณสร้างเอกสารปกติในโปรแกรมประมวลผลคำ คุณสามารถจัดรูปแบบเอกสารได้อย่างง่ายดาย เช่น การตั้งค่าอักขระให้เป็นตัวเอียงหรือตัวหนา การตั้งค่าย่อหน้าให้เป็นสไตล์หัวเรื่องหรือข้อความธรรมดา และอื่นๆ สิ่งที่คุณทำในฐานะเอกสารบนหน้าจอมอนิเตอร์จะถูกถ่ายโอนในรูปแบบเดียวกันลงบนกระดาษเมื่อพิมพ์บนเครื่องพิมพ์

ไม่ว่าคุณจะเลือกตัวเลือกจากเมนูแบบเลื่อนลงหรือออกคำสั่งแป้นพิมพ์ คุณจะเห็นผลลัพธ์ของความพยายามของคุณบนหน้าจอทันที อย่างไรก็ตาม คำสั่งเฉพาะที่ใช้แสดงเอกสารบนหน้าจอหรือบนกระดาษจะถูกซ่อนจากคุณ

ในกรณีของเว็บเพจ ผู้ใช้ไม่ได้เกี่ยวข้องกับกระดาษ แต่เกี่ยวข้องกับเอกสารอิเล็กทรอนิกส์ที่ได้รับทางอินเทอร์เน็ต หลักการของการแสดงเอกสารโดยใช้เครื่องมือการจัดรูปแบบของแอปพลิเคชันหลักไม่เป็นที่ยอมรับที่นี่ ผู้ใช้จะต้องมีแอปพลิเคชั่นมากเกินไปหรือมีตัวแปลงทุกประเภทบนคอมพิวเตอร์ของเขาเพื่อที่จะทำงานกับรูปแบบเอกสารที่เป็นไปได้ได้อย่างมีประสิทธิภาพ

แนวคิดในการแก้ปัญหาการแลกเปลี่ยนเอกสารระหว่างคอมพิวเตอร์และแอพพลิเคชั่นต่าง ๆ ผ่านทางอินเทอร์เน็ตนั้นมีพื้นฐานมาจากภาษามาร์กอัปไฮเปอร์เท็กซ์ HTML (HyperText Markup Language) ภาษานี้ถูกสร้างขึ้นเมื่อ 15 ปีที่แล้วเพื่อเป็นมาตรฐานการจัดรูปแบบเอกสาร และได้รับการยอมรับจากผู้ใช้อินเทอร์เน็ตส่วนใหญ่ และที่สำคัญที่สุดคือจากผู้ผลิตทุกราย ซอฟต์แวร์และอุปกรณ์สำหรับทำเว็บ เอกสารที่ทำเครื่องหมายตาม HTML สามารถอ่านได้บนคอมพิวเตอร์ทุกเครื่องที่ติดตั้งโปรแกรมเดียวสำหรับการดูเอกสารดังกล่าว - เบราว์เซอร์

ต้องขอบคุณภาษามาร์กอัป HTML เว็บไคลเอ็นต์สามารถดูเอกสารบนหน้าจอคอมพิวเตอร์ของเขาในรูปแบบที่นักพัฒนาตั้งใจไว้: ด้วยขนาดตัวอักษรและการแบ่งย่อหน้าที่แน่นอน พร้อมการจัดเรียงรูปภาพ ไฮเปอร์ลิงก์ ฯลฯ

เอกสารข้อความที่เขียนด้วย HTML มีขนาดเป็นไบต์เล็กกว่าขนาดของเอกสารที่คล้ายกันที่จัดทำในโปรแกรมประมวลผลคำหลายเท่า (เช่น Word)

Berners-Lee (ผู้พัฒนา) ใช้ภาษาที่ได้รับการพัฒนาโดยใช้ภาษา SGML และเทคนิคในการทำงานกับไฮเปอร์เท็กซ์ ซึ่งเป็นเหตุผลว่าทำไมชื่อภาษาที่เขาสร้างขึ้น - HTML - ถึงเชื่อมโยงกัน ภาษาใหม่ใช้โครงสร้าง SGML พื้นฐานเพื่ออธิบายเอกสารและลิงก์ไฮเปอร์เท็กซ์


ไฮเปอร์เท็กซ์เป็นวิธีการจัดข้อความ กราฟิก และข้อมูลอื่นๆ โดยที่องค์ประกอบข้อมูลมีความสัมพันธ์กัน องค์ประกอบของเอกสารฉบับเดียวและองค์ประกอบของเอกสารที่แตกต่างกันสามารถเชื่อมโยงกันได้ โครงสร้างไฮเปอร์เท็กซ์รองรับเวิลด์ไวด์เว็บ

ไฮเปอร์เท็กซ์คือ เอกสารอิเล็กทรอนิกส์- คุณสามารถทำงานกับไฮเปอร์เท็กซ์บนคอมพิวเตอร์เท่านั้น ไม่มีไฮเปอร์เท็กซ์ในรูปแบบที่พิมพ์ ตัวอย่างของระบบไฮเปอร์เท็กซ์คือระบบวิธีใช้ Windows ที่รู้จักกันดี

การเชื่อมต่อในโครงสร้างไฮเปอร์เท็กซ์จะดำเนินการโดยใช้ ลิงค์ด้วยลิงก์ ผู้ใช้สามารถเรียกเอกสารอื่นจากเอกสารหนึ่ง เอกสารถัดไปจากเอกสารนั้น เป็นต้น

ในปี 1989 เบอร์เนอร์ส-ลีได้พัฒนาขึ้น ระบบสารสนเทศชวนให้นึกถึงเส้นทางของเอกสารที่เชื่อมโยงด้วยลิงก์ เอกสารจะถูกจัดเก็บไว้ในเซิร์ฟเวอร์ที่ตั้งอยู่ทั่วโลกและเชื่อมต่อถึงกันโดยช่องทางอินเทอร์เน็ต เขาพัฒนาขึ้น โปรโตคอล HTTP - ภาษาที่เซิร์ฟเวอร์ต้องแลกเปลี่ยนเอกสารไฮเปอร์เท็กซ์และเขียนโปรแกรมเว็บเซิร์ฟเวอร์และเบราว์เซอร์ตัวแรก เขาดึงดูดชุมชนอินเทอร์เน็ตโดยตรง และผู้สนใจเริ่มสร้างเว็บไซต์แรกในปี 1991

ในปีต่อๆ มา เวิลด์ ไวด์ เว็บ เติบโตอย่างรวดเร็วและกลายเป็นบริการที่ได้รับความนิยมสูงสุดบนอินเทอร์เน็ต ปัจจุบันตอบสนองความต้องการข้อมูลของผู้ใช้ที่หลากหลาย รวมถึงเว็บไซต์นับล้านแห่ง ไซต์ขนาดใหญ่โฮสต์เอกสารนับพันนับแสนเอกสาร และจำนวนเอกสารทั้งหมดใน WWW เพิ่มขึ้นทุก ๆ วินาที เนื่องจากกองทัพผู้เชี่ยวชาญและมือสมัครเล่นจำนวนมากในส่วนต่าง ๆ ของโลกกำลังทำงานเพื่อสร้างสรรค์สิ่งเหล่านั้น

เวิลด์ไวด์เว็บหรือเรียกสั้น ๆเว็บ- เป็นระบบระดับโลกสำหรับการกระจายข้อมูลไฮเปอร์เท็กซ์โดยใช้อินเทอร์เน็ตเป็นช่องทางการขนส่ง

ในความเป็นจริง เวิลด์ไวด์เว็บเป็นพื้นที่เอกสารไฮเปอร์เท็กซ์ที่ไม่เกี่ยวข้องกับภูมิศาสตร์ของเว็บไซต์เอง ดังนั้นในพื้นที่นี้ ระยะห่างทางกายภาพระหว่างโหนดจึงไม่สมเหตุสมผล คุณสามารถดูเว็บเพจบนหน้าจอมอนิเตอร์ได้ในลักษณะเดียวกันซึ่งจัดเก็บไว้ในดิสก์คอมพิวเตอร์ในห้องถัดไปและบนเซิร์ฟเวอร์ที่อยู่ในประเทศอื่น

เวิลด์ไวด์เว็บดำเนินงานตามมาตรฐานบางประการที่ได้รับการพัฒนาและดำเนินการโดยสมาคมการวิจัยและองค์กรอุตสาหกรรม - สมาคม W3C(ย่อมาจาก World Wide Web Consortium) -

ภาษามาร์กอัป HTML ขึ้นอยู่กับภาษา SGML วิธีการทำเครื่องหมายย่อหน้า หัวข้อ รายการ และองค์ประกอบอื่นๆ ที่มีอยู่ใน HTML ก็มีให้ใน SGML เช่นกัน ข้อดีของผู้ประดิษฐ์ HTML คือการที่เขานำสิ่งที่ SGML ไม่มีมาใช้ในภาษามาร์กอัป - นี่คือลิงก์ไฮเปอร์เท็กซ์

เอกสารใด ๆ มีองค์ประกอบสามประการ:

  • เนื้อหา;
  • โครงสร้าง;
  • สไตล์.

โดยปกติแล้ว เนื้อหาของเอกสารจะไม่แสดงตามลำดับใดๆ แต่จะมีเนื้อหาที่แน่นอนโครงสร้าง - โครงสร้างคือองค์ประกอบและลำดับของส่วนต่างๆ (บล็อก) ของเอกสาร

สไตล์ document กำหนดรูปแบบเอาต์พุตของเนื้อหาไปยังอุปกรณ์เฉพาะ (เช่น เครื่องพิมพ์หรือจอแสดงผล) แนวคิดของสไตล์ประกอบด้วยลักษณะของแบบอักษร (ชื่อ ขนาด สี) ของเอกสารเอาต์พุตทั้งหมดหรือแต่ละบล็อก ลำดับของการแบ่งหน้า ตำแหน่งของบล็อกบนหน้า และพารามิเตอร์อื่น ๆ

ภาษามาร์กอัปเอกสารเป็นภาษาประดิษฐ์ที่ออกแบบมาเพื่ออธิบายโครงสร้างของเอกสารและความสัมพันธ์ระหว่างวัตถุต่างๆ ของโครงสร้าง ข้อมูลมาร์กอัปเรียกอีกอย่างว่าข้อมูลเมตา

ภาษามาร์กอัปแรกคือภาษาจีเอ็มแอล . ทายาทโดยทันทีของเขาคือภาษาเอสจีเอ็มแอล ภาษามาร์กอัปทั่วไปมาตรฐานที่กำหนดกฎสำหรับการเขียนองค์ประกอบมาร์กอัปเอกสาร

ข้อกำหนดภาษามาร์กอัปเอกสาร:

  1. ภาษาจะต้องเป็นภาษาที่มนุษย์สามารถอ่านได้
  2. ไฟล์เอกสารที่มาร์กอัปต้องเป็นข้อความและเข้ารหัสโดยใช้สัญลักษณ์โค้ดแอสกี
  3. ภาษาสามารถใช้ลิงก์ไปยังทรัพยากรภายใน (ในเอกสารเดียวกัน) และทรัพยากรภายนอก (ในเอกสารอื่น)

ใน SGML และภาษาที่คล้ายกันใช้เครื่องมือมาร์กอัปเอกสารพิเศษ:

  • โครงสร้างเอกสาร
  • คำอธิบายหรือองค์ประกอบและคุณลักษณะที่เกี่ยวข้อง
  • หน่วยงาน;
  • ความคิดเห็น

เอกสาร SGML มีโครงสร้างเป็นต้นไม้

ตัวอธิบายใน SGML วางไว้ที่จุดเริ่มต้น (ตัวอธิบายการเปิด) และส่วนท้าย (ตัวอธิบายปิด) ของแต่ละรายการองค์ประกอบ (รายการ)

คุณสมบัติ สิ่งเหล่านี้คือโครงสร้างเชิงสัญลักษณ์ที่เรียบง่าย (รายการ ) ซึ่งถูกเพิ่มเข้าไปในองค์ประกอบเพื่อชี้แจงผลกระทบของตัวอธิบาย

ภาษามาร์กอัปทั่วไปเช่นเอสจีเอ็มแอล อนุญาตให้ใช้แอตทริบิวต์ที่สามารถเชื่อมโยงกับค่าประเภทต่างๆ ได้ถึง 15 ประเภท รวมถึง:

  • การอ้างอิงถึงแหล่งข้อมูลภายนอกเอกสาร ซึ่งโดยปกติจะเรียกว่าเอนทิตี (เอนทิตี)
  • ตัวระบุที่ไม่ซ้ำ (บัตรประจำตัวประชาชน ) องค์ประกอบในเอกสาร
  • ตัวชี้ตัวระบุ (ตัวชี้ ID ) มีการอ้างอิงโยงสำหรับองค์ประกอบเหล่านั้นที่มีบัตรประจำตัวประชาชน กล่าวถึงในเอกสาร
  • ตัวกำหนดหรือแอตทริบิวต์ขององค์ประกอบที่กำหนดการกำหนดในเนื้อหาขององค์ประกอบ
  • ข้อมูลตัวละคร (ข้อมูลอักขระ) หรือ CDATA ซึ่งเป็นอักขระที่ถูกต้องซึ่งไม่สามารถทำหน้าที่เป็นค่าแอตทริบิวต์ได้

ความคิดเห็น อนุญาตให้คุณเพิ่มข้อมูลที่จะไม่ปรากฏให้เห็นหลังจากประมวลผลเอกสาร ความคิดเห็นไม่ส่งผลต่อความเร็วของการประมวลผลเอกสาร และไม่ถือเป็นหรือประมวลผลเป็นส่วนหนึ่งของเนื้อหาเอสจีเอ็มแอล -เอกสาร. สิ่งเหล่านี้รวมอยู่ในข้อความต้นฉบับ

ในการตรวจสอบความสอดคล้องของเอกสารด้วยมาร์กอัปประเภทที่กำหนดจะใช้โปรแกรมพิเศษเครื่องวิเคราะห์ (พาร์เซอร์) Parsers เป็นโปรแกรมแบบสแตนด์อโลนหรือเป็นส่วนหนึ่งของโปรแกรมประมวลผลเอกสาร SGML เพื่อให้ parser ดำเนินการตรวจสอบเอกสาร จะมีการสร้างเอกสารพิเศษขึ้นการกำหนดประเภทเอกสาร

ภาษา HTML เป็นแอปพลิเคชั่นภาษาเอสจีเอ็มแอล เพื่อใช้ในอินเทอร์เน็ต ด้วยโครงสร้างคงที่ ชุดองค์ประกอบคงที่ (ตัวอธิบาย) และคุณลักษณะ ตลอดจนชุดเอนทิตีคงที่ ภาษามาร์กอัปขั้นสูง XML (ภาษามาร์กอัปที่ขยายได้) ภาษาเอ็กซ์เอ็มแอล เป็นส่วนย่อยของภาษาเอสจีเอ็มแอล เข้ากันได้อย่างสมบูรณ์กับมัน

XML มีหลากหลายรูปแบบ ฟังก์ชั่นซึ่งขาดหายไปใน HTML

4 . 3 .2. เวอร์ชันและส่วนขยาย HTML XML

รุ่นแรก ภาษามาร์กอัปไฮเปอร์เท็กซ์ HTML (HyperText Markup Language) เช่นเดียวกับตัวเธอเอง เทคโนโลยีเว็บได้รับการพัฒนาโดย Tim Berners Lee ในปี 1991 ภาษา HTMLเป็นการดำเนินการตามกฎภาษา SGML สำหรับประเภทเอกสารที่ได้รับการตั้งชื่อเอกสาร HTML. ภาษาระบุโครงสร้างคงที่ ชุดแท็กและคุณลักษณะคงที่ และชุดเอนทิตีคงที่ โปรแกรมประมวลผล เอกสาร HTMLเรียกว่าเว็บ-เบราว์เซอร์ - ผลลัพธ์ของการประมวลผลเอกสารคือเว็บ-หน้าหนังสือ ปรากฏบนหน้าจอแสดงผล

ในปี 1994 กลุ่มสนับสนุนอินเทอร์เน็ต IETF (คณะทำงานเฉพาะกิจวิศวกรรมอินเทอร์เน็ต) พัฒนาข้อกำหนด HTML 2.0 ซึ่งเริ่มใช้ HTML อย่างแพร่หลายบนอินเทอร์เน็ตอินเทอร์เน็ต - ในปีเดียวกันนั้น กลุ่ม W3C (World Wide Web Corporation) ได้ถูกสร้างขึ้น โดยรวบรวมองค์กรเชิงพาณิชย์และวิชาการ นักพัฒนา และผู้ใช้ 165 แห่ง (ตั้งแต่ก่อตั้งจนถึงปัจจุบัน องค์กรนี้นำโดย T.B. Lee) ข้อกำหนด HTML เวอร์ชันล่าสุดคือ HTML 4.01 ถูกนำมาใช้โดยสมาคมในเดือนธันวาคม พ.ศ. 2542

  • XML มีฟังก์ชันการทำงานมากมายที่ HTML ไม่มี

ข้อกำหนดภาษา XML เวอร์ชันล่าสุด XML 1.1 ถูกนำมาใช้ในเดือนเมษายน พ.ศ. 2547

จากภาษา XML ข้อกังวลของ W3C ได้พัฒนาการพัฒนาภาษาเพิ่มเติมภาษา HTML XHTML (ขยาย HTML HTML แบบขยาย) เวอร์ชันแรกของภาษานี้คือ XHTML 1.0 ถูกนำมาใช้ในเดือนมกราคม พ.ศ. 2543 จริงๆ แล้วเวอร์ชันนี้เป็นการปรับปรุง HTML 4 ใหม่เป็นแอปพลิเคชันของ XML 1.0 คาดว่าการพัฒนาภาษา HTML เพิ่มเติมจะดำเนินการตามข้อกำหนด XHTML

XHTML เวอร์ชันใหม่ XHTML 1.1 ถูกนำมาใช้โดย W3C ในเดือนพฤษภาคม พ.ศ. 2544 คำแนะนำนี้กำหนดประเภทเอกสาร XHTML ที่ใช้โมดูลใหม่ แต่ละโมดูล XHTML 1.1 มีองค์ประกอบภาษา HTML และ/หรือแอตทริบิวต์ตั้งแต่หนึ่งรายการขึ้นไป

ตามข้อกำหนดเอกสาร XHTML 1.1 ประกอบด้วยกลุ่มโมดูลดังต่อไปนี้ XHTML:

โมดูลหลักคือโมดูลที่จำเป็นต้องแสดงอยู่ในเอกสารประเภทใดก็ตามที่สอดคล้องกับข้อกำหนด XHTML (กลุ่มนี้รวมถึงโมดูลด้วยโครงสร้าง ข้อความ ไฮเปอร์เท็กซ์ และรายการ)

โมดูลแอปเพล็ต ซึ่งมีองค์ประกอบเดียว< applet > (องค์ประกอบนี้เลิกใช้แล้ว และขอแนะนำให้ใช้องค์ประกอบแทน< object > ).

โมดูลส่วนขยายข้อความ ซึ่งกำหนดโมดูลมาร์กอัปข้อความเพิ่มเติมต่างๆ (กลุ่มนี้รวมถึงโมดูลด้วยการนำเสนอ แก้ไข และข้อความสองทิศทาง)

โมดูลแบบฟอร์ม (กลุ่มนี้รวมถึงโมดูลด้วยแบบฟอร์มพื้นฐานและแบบฟอร์ม)

โมดูลตาราง (กลุ่มนี้รวมถึงโมดูลตารางพื้นฐานและตาราง)

โมดูลรูปภาพ ซึ่งให้ความสามารถในการฝังรูปภาพขั้นพื้นฐาน (โมดูลนี้ยังสามารถใช้งานได้อย่างอิสระในการใช้งานบางอย่างด้วยการ์ดรูปภาพไคลเอนต์)

โมดูลแผนที่รูปภาพฝั่งไคลเอ็นต์ ซึ่งมีองค์ประกอบสำหรับการแมปรูปภาพไคลเอ็นต์ (เพื่อให้โมดูลนี้ทำงานได้ ต้องเปิดใช้งานโมดูลภาพ).

โมดูลวัตถุ ซึ่งให้การสนับสนุนสำหรับการรวมวัตถุวัตถุประสงค์ทั่วไป

โมดูลเฟรม ซึ่งมีองค์ประกอบที่เกี่ยวข้องกับเฟรม

URL (องค์ประกอบนี้จะคำนวณ URL ของเอกสารที่เกี่ยวข้อง)

โมดูลระบุชื่อ ใช้เพื่อระบุองค์ประกอบบางอย่างในเอกสาร HTML

โมดูลดั้งเดิม ซึ่งกำหนดองค์ประกอบและคุณลักษณะที่ไม่แนะนำใน HTML และ XHTML เวอร์ชันก่อนหน้าอีกต่อไป และไม่แนะนำอีกต่อไป

4. 3 .3. ประเภทของโครงสร้าง HTML และ XHTML

ตามข้อกำหนด HTML 4.01 สำหรับเอกสาร HTML กำหนดสามโครงสร้าง อธิบายโดย DTD สามตัว นักพัฒนาเว็บ -pages ต้องมีการประกาศประเภทใดประเภทหนึ่งจากสามประเภทในเอกสาร ความแตกต่างระหว่าง DTD อยู่ที่องค์ประกอบที่รองรับ ประกาศดีทีดี ควรวางไว้ที่จุดเริ่มต้นของเอกสาร

HTML 4.01 DTD ที่เข้มงวด (คำจำกัดความที่เข้มงวด) รวมถึงองค์ประกอบและคุณลักษณะทั้งหมดที่ไม่ได้ถูกยกเลิก (เลิกใช้แล้ว ) และจะไม่ใช้ในเอกสารที่มีกรอบ

คำจำกัดความ DTD ชั่วคราวของ HTML 4.0 (คำจำกัดความเฉพาะกาล) รวมถึงองค์ประกอบทั้งหมดที่รวมอยู่ในความเข้มงวดดีทีดี รวมถึงองค์ประกอบและคุณลักษณะที่ถูกยกเลิก

นิยาม HTML 4.0 เฟรมเซ็ต DTD (คำจำกัดความสำหรับเฟรม) รวมถึงเฟรมนอกเหนือจากองค์ประกอบของการเปลี่ยน DTD

บรรทัดแรกของเอกสาร HTML กำหนดตามข้อกำหนด XHTML

บรรทัดนี้ระบุเวอร์ชันที่จะใช้ XML และการเข้ารหัสอักขระเอกสาร เมื่อเข้ารหัสอักขระใน XML ใช้รหัสไบต์คู่ยูนิโค้ด - เป็นค่าพารามิเตอร์การเข้ารหัส การเข้ารหัสที่ใช้บ่อยที่สุด UTF-8 ซึ่งค่าของอักขระ 128 ตัวแรกจะแสดงเป็นการเข้ารหัสหนึ่งไบต์ อักขระของภาษาที่พบบ่อยที่สุด (รวมถึงภาษารัสเซียและยูเครน) จะแสดงเป็นสองไบต์ และอักขระที่เหลือจะแสดงเป็นสามไบต์ เข้ารหัสแล้ว UTF-16 อักขระทั้งหมดแสดงด้วยไบต์ 2 ไบต์ (แนะนำให้ใช้การเข้ารหัสเหล่านี้สำหรับเอกสารภาษารัสเซียและยูเครน HTML)

บทความที่เกี่ยวข้อง

2024 liveps.ru การบ้านและปัญหาสำเร็จรูปในวิชาเคมีและชีววิทยา