การวิเคราะห์ทางสถิติหลายตัวแปร การวิเคราะห์ทางสถิติหลายตัวแปรเบื้องต้น - คาลินินา

เศรษฐมิติ

การวิเคราะห์ทางสถิติหลายตัวแปร


ในการวิเคราะห์ทางสถิติหลายตัวแปร ตัวอย่างประกอบด้วยองค์ประกอบของปริภูมิหลายมิติ จึงเป็นที่มาของวิธีการทางเศรษฐมิติส่วนนี้ จากปัญหาต่างๆ มากมายของการวิเคราะห์ทางสถิติหลายตัวแปร เราจะพิจารณาการกู้คืนและการจำแนกประเภทการพึ่งพาแบบสองตัวแปร

การประมาณค่าฟังก์ชันการทำนายเชิงเส้น

เริ่มจากปัญหาการประมาณค่าจุดและความเชื่อมั่นของฟังก์ชันทำนายเชิงเส้นของตัวแปรตัวหนึ่งกันก่อน

ข้อมูลเริ่มต้น - ชุดของตัวเลข n คู่ (t k, x k), k = 1,2,...,n โดยที่ t k เป็นตัวแปรอิสระ (เช่น เวลา) และ x k เป็นตัวแปรตาม (เช่น ดัชนีเงินเฟ้อ อัตราแลกเปลี่ยนเงินดอลลาร์สหรัฐ ปริมาณการผลิตต่อเดือน หรือจำนวนรายได้รายวันของร้านค้าปลีก) ตัวแปรจะถือว่ามีความสัมพันธ์กันโดยการขึ้นต่อกัน

x k = a (t k - t เฉลี่ย)+ b + e k , k = 1,2,…,n,

โดยที่ a และ b เป็นพารามิเตอร์ที่สถิติไม่รู้จักและขึ้นอยู่กับการประมาณค่า และ e k คือข้อผิดพลาดที่บิดเบือนการพึ่งพา ค่าเฉลี่ยเลขคณิตของจุดเวลา

เสื้อ av = (เสื้อ 1 + เสื้อ 2 +…+t n) / n

เข้าสู่แบบจำลองเพื่ออำนวยความสะดวกในการคำนวณต่อไป

โดยทั่วไปแล้ว พารามิเตอร์ a และ b ของความสัมพันธ์เชิงเส้นจะถูกประมาณโดยใช้วิธีกำลังสองน้อยที่สุด จากนั้นการพึ่งพาที่กู้คืนจะถูกใช้สำหรับการพยากรณ์จุดและช่วงเวลา

ดังที่ทราบกันดีว่าวิธีกำลังสองน้อยที่สุดได้รับการพัฒนาโดยนักคณิตศาสตร์ชาวเยอรมันผู้ยิ่งใหญ่ K. Gauss ในปี 1794 ตามวิธีนี้ ในการคำนวณฟังก์ชันที่ดีที่สุดที่ประมาณเชิงเส้นตรงของการพึ่งพา x บน t เราควรพิจารณาฟังก์ชันของตัวแปรสองตัว


การประมาณกำลังสองน้อยที่สุดคือค่าของ a* และ b* ซึ่งฟังก์ชัน f(a,b) ถึงค่าต่ำสุดของค่าทั้งหมดของอาร์กิวเมนต์

ในการค้นหาค่าประมาณเหล่านี้ คุณต้องคำนวณอนุพันธ์ย่อยของฟังก์ชัน f(a,b) เทียบกับอาร์กิวเมนต์ a และ b แล้วจัดให้เป็น 0 จากนั้นหาค่าประมาณจากสมการผลลัพธ์: เรามี:

ให้เราแปลงทางด้านขวาของความสัมพันธ์ที่เกิดขึ้น ให้เรานำตัวประกอบร่วม 2 และ (-1) ออกมาเป็นเครื่องหมายผลรวม แล้วเรามาดูเงื่อนไขกัน. ลองเปิดวงเล็บในนิพจน์แรกแล้วพบว่าแต่ละเทอมแบ่งออกเป็นสามส่วน ในนิพจน์ที่สอง แต่ละเทอมคือผลรวมของสามด้วย ซึ่งหมายความว่าแต่ละจำนวนจะถูกแบ่งออกเป็นสามจำนวน เรามี:


ให้เราถืออนุพันธ์ย่อยเป็น 0 จากนั้นในสมการผลลัพธ์เราสามารถลดตัวประกอบ (-2) ได้ เนื่องจาก

(1)

สมการจะอยู่ในรูปแบบ

ดังนั้นค่าประมาณกำลังสองน้อยที่สุดจึงมีรูปแบบ

(2)

โดยอาศัยความสัมพันธ์ (1) การประมาณค่า a* สามารถเขียนได้ในรูปแบบสมมาตรมากกว่า:

การประมาณนี้สามารถแปลงเป็นรูปแบบได้อย่างง่ายดาย

ดังนั้นฟังก์ชันที่สร้างขึ้นใหม่ซึ่งสามารถใช้เพื่อทำนายและประมาณค่าจึงมีรูปแบบ

x*(t) = a*(t - t av)+ b*

ให้เราใส่ใจกับความจริงที่ว่าการใช้ t cf ในสูตรสุดท้ายไม่ได้จำกัดความทั่วไปของมัน แต่อย่างใด เปรียบเทียบกับรุ่นของแบบฟอร์ม

x k = c เสื้อ k + d + e k , k = 1,2,…,n

มันชัดเจนว่า

การประมาณค่าพารามิเตอร์มีความสัมพันธ์กันในลักษณะเดียวกัน:

ไม่จำเป็นต้องอ้างอิงถึงแบบจำลองความน่าจะเป็นใดๆ เพื่อรับค่าประมาณพารามิเตอร์และสูตรการทำนาย อย่างไรก็ตาม เพื่อศึกษาข้อผิดพลาดในการประมาณค่าพารามิเตอร์และฟังก์ชันที่สร้างขึ้นใหม่ เช่น สร้างช่วงความเชื่อมั่นสำหรับ a*, b* และ x*(t) จำเป็นต้องมีแบบจำลองดังกล่าว

แบบจำลองความน่าจะเป็นแบบไม่มีพารามิเตอร์ ปล่อยให้ค่าของตัวแปรอิสระ t ถูกกำหนดไว้และข้อผิดพลาด e k , k = 1,2,...,n เป็นตัวแปรสุ่มที่กระจายอย่างอิสระเหมือนกันโดยมีศูนย์ ความคาดหวังทางคณิตศาสตร์และความแปรปรวน

สถิติที่ไม่รู้จัก

ในอนาคต เราจะใช้ทฤษฎีบทขีดจำกัดจุดศูนย์กลาง (CLT) ของทฤษฎีความน่าจะเป็นซ้ำๆ สำหรับปริมาณ e k , k = 1.2,...,n (พร้อมน้ำหนัก) ดังนั้น จึงจำเป็นต้องถือว่าเงื่อนไขต่างๆ เป็นไปตามเงื่อนไข ตัวอย่าง ข้อผิดพลาด e k , k = 1.2 ,…,n มีขอบเขตจำกัดหรือมีโมเมนต์สัมบูรณ์ที่สามที่จำกัด อย่างไรก็ตาม ไม่จำเป็นต้องมุ่งเน้นไปที่ "เงื่อนไขความสม่ำเสมอ" ทางคณิตศาสตร์เหล่านี้

การแจกแจงเชิงเส้นกำกับของการประมาณค่าพารามิเตอร์ จากสูตร (2) จะได้ว่า

(5)

จากข้อมูลของ CLT การประมาณค่า b* มีการแจกแจงแบบปกติเชิงเส้นกำกับพร้อมความคาดหวังทางคณิตศาสตร์ b และความแปรปรวน

การประเมินที่ได้รับด้านล่าง

จากสูตร (2) และ (5) เป็นไปตามนั้น

เทอมสุดท้ายในความสัมพันธ์ที่สองเมื่อรวมส่วน i กลายเป็น 0 ดังนั้นจากสูตร (2-4) จึงเป็นไปตามนั้น

(6)

สูตร (6) แสดงค่าประมาณว่า

เป็นเรื่องปกติเชิงเส้นกำกับโดยมีความคาดหวังและความแปรปรวนทางคณิตศาสตร์

โปรดทราบว่าภาวะปกติหลายมิติมีอยู่เมื่อแต่ละพจน์ในสูตร (6) มีขนาดเล็กเมื่อเทียบกับผลรวมทั้งหมด นั่นคือ


สูตร (5) และ (6) และข้อสันนิษฐานเบื้องต้นเกี่ยวกับข้อผิดพลาดยังบอกเป็นนัยว่าการประมาณค่าพารามิเตอร์นั้นไม่มีอคติ

ความเป็นกลางและภาวะปกติเชิงเส้นกำกับของการประมาณค่ากำลังสองน้อยที่สุดทำให้ง่ายต่อการระบุขีดจำกัดความเชื่อมั่นเชิงเส้นกำกับสำหรับค่าเหล่านี้ (คล้ายกับขีดจำกัดในบทที่แล้ว) และทดสอบสมมติฐานทางสถิติ เช่น เกี่ยวกับความเท่าเทียมกันของค่าบางค่า โดยหลักแล้วคือ 0 เราจัดเตรียมไว้ให้ผู้อ่าน พร้อมโอกาสในการเขียนสูตรคำนวณขีดจำกัดความเชื่อมั่นและกำหนดหลักเกณฑ์ในการทดสอบสมมติฐานดังกล่าว

การกระจายเชิงเส้นกำกับของฟังก์ชันทำนาย จากสูตร (5) และ (6) เป็นไปตามนั้น

เหล่านั้น. การประมาณค่าฟังก์ชันการทำนายที่พิจารณาแล้วมีความเป็นกลาง นั่นเป็นเหตุผล

นอกจากนี้เนื่องจากข้อผิดพลาดมีความเป็นอิสระโดยรวมและ

, ที่

ดังนั้น,

จากคำนำของผู้เขียน
บทที่ 1 บทนำ
1.1. การแจกแจงแบบปกติหลายตัวแปรเป็นแบบจำลอง
1.2. ภาพรวมทั่วไปของวิธีการหลายตัวแปร
วรรณกรรม
บทที่ 2 การแจกแจงแบบปกติหลายตัวแปร
2.1. การแนะนำ
2.2. แนวคิดที่เกี่ยวข้องกับการแจกแจงหลายตัวแปร
2.3. การแจกแจงแบบปกติหลายตัวแปร
2.4. การแจกแจงของผลรวมเชิงเส้นของค่าการแจกแจงแบบปกติ ความเป็นอิสระของปริมาณ การแจกแจงส่วนตัว
2.5. การแจกแจงแบบมีเงื่อนไขและสัมประสิทธิ์สหสัมพันธ์พหุคูณ
2.6. ฟังก์ชั่นลักษณะเฉพาะ ช่วงเวลา
วรรณกรรม
งาน
บทที่ 3: การประมาณค่าเวกเตอร์เฉลี่ยและเมทริกซ์ความแปรปรวนร่วม
3.1. การแนะนำ
3.2. การประมาณความน่าจะเป็นสูงสุดสำหรับเวกเตอร์เฉลี่ยและเมทริกซ์ความแปรปรวนร่วม
3.3. ตัวอย่างการกระจายเวกเตอร์เฉลี่ย การอนุมานเกี่ยวกับค่าเฉลี่ยเมื่อทราบเมทริกซ์ความแปรปรวนร่วม
วรรณกรรม
งาน
บทที่ 4: การแจกแจงและการใช้สัมประสิทธิ์สหสัมพันธ์ตัวอย่าง
4.1. การแนะนำ
4.2. สัมประสิทธิ์สหสัมพันธ์ตัวอย่างแบบไบวาเรียต
4.3. ค่าสัมประสิทธิ์สหสัมพันธ์บางส่วน
4.4. ค่าสัมประสิทธิ์สหสัมพันธ์พหุคูณ
วรรณกรรม
งาน
บทที่ 5 สถิติ T2 ทั่วไป
5.1. การแนะนำ
5.2. สถิติ T2 ทั่วไปและการแจกแจง
5.3. การประยุกต์สถิติ T2
5.4. การกระจายสถิติ T2 ต่อหน้าสมมติฐานที่แข่งขันกัน ฟังก์ชั่นพลังงาน
5.5. คุณสมบัติที่เหมาะสมบางประการของเกณฑ์ T2
5.6. ปัญหาเบห์เรนส์-ฟิชเชอร์หลายมิติ
วรรณกรรม
งาน
บทที่ 6 การจำแนกประเภทของข้อสังเกต
6.1. ปัญหาการจำแนกประเภท
6.2. หลักการจำแนกประเภทที่ถูกต้อง
6.3. วิธีการจำแนกประเภทข้อสังเกตในกรณีของประชากรสองกลุ่มที่มีการแจกแจงความน่าจะเป็นที่ทราบ
6.4. การจำแนกประเภทของข้อสังเกตในกรณีของประชากรสองกลุ่มที่มีการแจกแจงแบบปกติหลายตัวแปร
6.5. การจำแนกประเภทของการสังเกตในกรณีของประชากรปกติหลายตัวแปรจำนวน 2 กลุ่ม ซึ่งพารามิเตอร์ดังกล่าวประมาณจากกลุ่มตัวอย่าง
6.6. การจำแนกประเภทของข้อสังเกตในกรณีของประชากรทั่วไปหลายกลุ่ม
6.7. การจำแนกประเภทของข้อสังเกตในกรณีของประชากรปกติหลายตัวแปรหลายตัว
6.8. ตัวอย่างการจำแนกประเภทในกรณีของประชากรปกติหลายตัวแปรหลายตัว
วรรณกรรม
งาน
บทที่ 7 การกระจายตัวของเมทริกซ์ความแปรปรวนร่วมตัวอย่างและความแปรปรวนทั่วไปของตัวอย่าง
7.1. การแนะนำ
7.2. การกระจายสินค้า Wishart
7.3. คุณสมบัติบางประการของการแจกแจง Wishart
7.4. ทฤษฎีบทของคอเครน
7.5. ความแปรปรวนทั่วไป
7.6. การกระจายชุดของสัมประสิทธิ์สหสัมพันธ์ในกรณีของเมทริกซ์ความแปรปรวนร่วมประชากรในแนวทแยง
วรรณกรรม
งาน
บทที่ 8 การทดสอบสมมติฐานเชิงเส้นทั่วไป การวิเคราะห์ความแปรปรวน
8.1. การแนะนำ
8.2. การประมาณค่าพารามิเตอร์การถดถอยเชิงเส้นหลายตัวแปร
8.3. การทดสอบอัตราส่วนความน่าจะเป็นสำหรับการทดสอบสมมติฐานเชิงเส้นเกี่ยวกับค่าสัมประสิทธิ์การถดถอย
8.4. โมเมนต์ของอัตราส่วนความน่าจะเป็นในกรณีที่สมมติฐานว่างเป็นจริง
8.5. การแจกแจงค่า U บางส่วน
8.6. การขยายตัวเชิงเส้นกำกับของการกระจายอัตราส่วนความน่าจะเป็น
8.7. การทดสอบสมมติฐานเกี่ยวกับเมทริกซ์สัมประสิทธิ์การถดถอยและขอบเขตความเชื่อมั่น
8.8. ทดสอบสมมติฐานเกี่ยวกับความเท่าเทียมกันของค่าเฉลี่ยของการแจกแจงแบบปกติด้วยเมทริกซ์ความแปรปรวนร่วมทั่วไป
8.9. การวิเคราะห์ความแปรปรวนทั่วไป
8.10. เกณฑ์อื่นๆ สำหรับการทดสอบสมมติฐานเชิงเส้น
8.11. รูปแบบที่ยอมรับได้
วรรณกรรม
งาน
บทที่ 9 การทดสอบสมมติฐานเกี่ยวกับความเป็นอิสระของเซตของตัวแปรสุ่ม
9.1. การแนะนำ
9.2. อัตราส่วนความน่าจะเป็นเป็นเกณฑ์ในการทดสอบสมมติฐานเกี่ยวกับความเป็นอิสระของเซตของตัวแปรสุ่ม
9.3. โมเมนต์ของอัตราส่วนความน่าจะเป็นโดยมีเงื่อนไขว่าสมมติฐานว่างเป็นจริง
9.4. การแจกแจงอัตราส่วนความน่าจะเป็นบางส่วน
9.5. การขยายตัวเชิงเส้นแสดงของการแจกแจงของ h (อัตราส่วนความน่าจะเป็น)
9.6. ตัวอย่าง
9.7. กรณีของตัวแปรสุ่มสองชุด
วรรณกรรม
งาน
บทที่ 10 การทดสอบสมมติฐานเกี่ยวกับความเท่าเทียมกันของเมทริกซ์ความแปรปรวนร่วมและความเท่าเทียมกันของทั้งเวกเตอร์เฉลี่ยและเมทริกซ์ความแปรปรวนร่วม
10.1 บทนำ
10.2 เกณฑ์สำหรับการทดสอบสมมติฐานเกี่ยวกับความเท่าเทียมกันของเมทริกซ์ความแปรปรวนร่วมหลายตัว
10.3. เกณฑ์ในการทดสอบสมมติฐานความเท่าเทียมกันของประชากรปกติหลายกลุ่ม
10.4. โมเมนต์อัตราส่วนความน่าจะเป็น
10.5. การขยายเชิงเส้นกำกับของฟังก์ชันการกระจายของปริมาณ V1 และ V
10.6. กรณีของคนสองคน
10.7. ทดสอบสมมติฐานว่าเมทริกซ์ความแปรปรวนร่วมเป็นสัดส่วนกับเมทริกซ์ที่กำหนด เกณฑ์ความเป็นทรงกลม
10.8. ทดสอบสมมติฐานว่าเมทริกซ์ความแปรปรวนร่วมเท่ากับเมทริกซ์ที่กำหนด
10.9. การทดสอบสมมติฐานที่ว่าเวกเตอร์เฉลี่ยและเมทริกซ์ความแปรปรวนร่วมเท่ากันตามลำดับ เวกเตอร์นี้และเมทริกซ์นี้
วรรณกรรม
งาน
บทที่ 11 ส่วนประกอบหลัก
11.1. การแนะนำ
11.2. การกำหนดองค์ประกอบหลักของประชากร
11.3. การประมาณความน่าจะเป็นสูงสุดสำหรับองค์ประกอบหลักและความแปรปรวน
11.4. การคำนวณการประมาณความน่าจะเป็นสูงสุดสำหรับองค์ประกอบหลัก
11.5. ตัวอย่าง
วรรณกรรม
งาน
บทที่ 12 ความสัมพันธ์ที่เป็นที่ยอมรับและปริมาณที่เป็นที่ยอมรับ
12.1. การแนะนำ
12.2. ความสัมพันธ์แบบ Canonical และปริมาณแบบ Canonical ประชากร
12.3. การประมาณค่าสหสัมพันธ์แบบบัญญัติและปริมาณแบบบัญญัติ
12.4. วิธีการคำนวณ
12.5. ตัวอย่าง
วรรณกรรม
งาน
บทที่ 13 การกระจายตัวของรากและเวกเตอร์ลักษณะเฉพาะบางอย่างที่ไม่ขึ้นกับพารามิเตอร์
13.1. การแนะนำ
13.2. กรณีของเมทริกซ์ Wishart สองตัว
13.3. กรณีของเมทริกซ์ Wishart ที่ไม่ใช่เอกพจน์
13.4. ความสัมพันธ์ที่ยอมรับได้
วรรณกรรม
งาน
บทที่ 14 ทบทวนผลงานอื่นๆ เกี่ยวกับ การวิเคราะห์หลายตัวแปร
14.1. การแนะนำ
14.2 การทดสอบสมมติฐานเกี่ยวกับอันดับและการประเมินข้อจำกัดเชิงเส้นเกี่ยวกับค่าสัมประสิทธิ์การถดถอย ความสัมพันธ์แบบ Canonical และปริมาณแบบ Canonical
14.3. การกระจาย Wishart แบบ noncentral
14.4. การกระจายตัวของรากและเวกเตอร์ลักษณะเฉพาะบางอย่างขึ้นอยู่กับพารามิเตอร์
14.5. การกระจายเชิงเส้นกำกับของรากและเวกเตอร์ที่มีลักษณะเฉพาะบางอย่าง
14.6. ส่วนประกอบหลัก
14.7. การวิเคราะห์ปัจจัย
14.8. สมการสุ่ม
14.9. การวิเคราะห์อนุกรมเวลา
วรรณกรรม
แอปพลิเคชัน. ทฤษฎีเมทริกซ์
1. คำจำกัดความของเมทริกซ์ การดำเนินการกับเมทริกซ์
2. ลักษณะรากและเวกเตอร์
3. การแบ่งพาร์ติชันเวกเตอร์และเมทริกซ์ออกเป็นบล็อก
4. ผลลัพธ์บางอย่าง
5. วิธีการลดดูลิตเติ้ลและวิธีการเพิ่มความหนาของแกนสำหรับการแก้ระบบ สมการเชิงเส้น
วรรณกรรม
ดัชนีหัวเรื่อง

การวิเคราะห์ทางสถิติหลายตัวแปร

ส่วนคณิตศาสตร์ สถิติที่อุทิศให้กับคณิตศาสตร์ วิธีการสร้างแผนที่เหมาะสมที่สุดสำหรับการรวบรวม การจัดระบบ และการประมวลผลสถิติหลายตัวแปร ข้อมูลที่มีวัตถุประสงค์เพื่อระบุธรรมชาติและโครงสร้างของความสัมพันธ์ระหว่างองค์ประกอบของลักษณะหลายมิติภายใต้การศึกษาและมีวัตถุประสงค์เพื่อให้ได้ข้อมูลทางวิทยาศาสตร์และการปฏิบัติ ข้อสรุป คุณลักษณะหลายมิติถูกเข้าใจว่าเป็นตัวบ่งชี้ p มิติ (สัญญาณ, ตัวแปร) ซึ่งอาจมี: เชิงปริมาณเช่น การวัดแบบสเกลาร์ในระดับหนึ่งของการสำแดงของคุณสมบัติที่ศึกษาของวัตถุลำดับ (หรือลำดับ) เช่น อนุญาตให้จัดเรียง วัตถุที่วิเคราะห์ตามระดับของการสำแดงของคุณสมบัติที่ศึกษาในนั้น และการจำแนกประเภท (หรือระบุ) กล่าวคือ ทำให้สามารถแบ่งชุดของวัตถุที่ศึกษาออกเป็นคลาสที่เป็นเนื้อเดียวกัน (ตามคุณสมบัติที่วิเคราะห์) ที่ไม่สามารถเรียงลำดับได้ ผลการวัดตัวชี้วัดเหล่านี้

ในแต่ละวัตถุของประชากรที่กำลังศึกษา จะก่อให้เกิดการสังเกตหลายมิติ หรืออาร์เรย์เริ่มต้นของข้อมูลหลายมิติสำหรับการดำเนินการ MS ก. ส่วนสำคัญของม. ก. ให้บริการในสถานการณ์ที่คุณลักษณะหลายมิติภายใต้การศึกษาถูกตีความว่าเป็นหลายมิติและตามลำดับของการสังเกตหลายมิติ (1) - จากประชากรทั่วไป

ในกรณีนี้ การเลือกวิธีการประมวลผลข้อมูลทางสถิติเบื้องต้น ข้อมูลและการวิเคราะห์คุณสมบัติดำเนินการบนพื้นฐานของสมมติฐานบางประการเกี่ยวกับธรรมชาติของกฎหมายการกระจายความน่าจะเป็นแบบหลายมิติ (ร่วม)

การวิเคราะห์ทางสถิติหลายตัวแปรของการแจกแจงหลายตัวแปรและคุณลักษณะหลักจะครอบคลุมเฉพาะสถานการณ์ที่การสังเกตที่ประมวลผล (1) มีลักษณะความน่าจะเป็น กล่าวคือ ตีความว่าเป็นตัวอย่างจากประชากรทั่วไปที่เกี่ยวข้อง วัตถุประสงค์หลักของส่วนย่อยนี้ได้แก่: เชิงสถิติ การประเมินการแจกแจงหลายมิติที่กำลังศึกษา คุณลักษณะเชิงตัวเลขหลักและพารามิเตอร์ การศึกษาคุณสมบัติของข้อมูลทางสถิติที่ใช้ เกรด; การศึกษาการแจกแจงความน่าจะเป็นสำหรับสถิติจำนวนหนึ่ง โดยอาศัยความช่วยเหลือในการสร้างสถิติ เกณฑ์สำหรับการทดสอบสมมติฐานต่างๆ เกี่ยวกับลักษณะความน่าจะเป็นของข้อมูลหลายมิติที่วิเคราะห์ ผลลัพธ์หลักเกี่ยวข้องกับกรณีพิเศษเมื่อคุณลักษณะภายใต้การศึกษาอยู่ภายใต้กฎการแจกแจงแบบปกติหลายมิติ ซึ่งฟังก์ชันความหนาแน่นจะได้รับจากความสัมพันธ์ คณิตศาสตร์เวกเตอร์อยู่ที่ไหน องค์ประกอบความคาดหวังตัวแปรสุ่ม คือเมทริกซ์ความแปรปรวนร่วมของเวกเตอร์สุ่ม กล่าวคือ ความแปรปรวนร่วมของส่วนประกอบของเวกเตอร์ (จะพิจารณากรณีที่ไม่เสื่อมลงเมื่อ มิฉะนั้น กล่าวคือ ด้วยอันดับ ผลลัพธ์ทั้งหมดยังคงใช้ได้ แต่เกี่ยวข้องกับสเปซย่อยของมิติที่ต่ำกว่า ซึ่งกลายเป็นเวกเตอร์สุ่มที่มีความเข้มข้นภายใต้การศึกษา)

ดังนั้น ถ้า (1) เป็นลำดับของการสังเกตอย่างอิสระซึ่งสร้างตัวอย่างสุ่ม จากนั้นการประมาณความน่าจะเป็นสูงสุดสำหรับพารามิเตอร์และการมีส่วนร่วมใน (2) จะเป็นสถิติตามลำดับ (ดู , )

และเวกเตอร์สุ่มเป็นไปตามกฎปกติของมิติ p และไม่ขึ้นอยู่กับ และการกระจายร่วมขององค์ประกอบเมทริกซ์อธิบายโดยสิ่งที่เรียกว่า การกระจายตัวของอำเภอวิชชา (ดู) โต-โรโก

ภายในกรอบของรูปแบบเดียวกัน การแจกแจงและโมเมนต์ของคุณลักษณะตัวอย่างดังกล่าวของตัวแปรสุ่มหลายตัวแปรเป็นค่าสัมประสิทธิ์สหสัมพันธ์คู่ บางส่วน และหลายค่า ทั่วไป (เช่น) สถิติทั่วไป - การโรงแรม (ดู) โดยเฉพาะอย่างยิ่ง (ดู) หากเรากำหนดการประมาณที่แก้ไข "สำหรับความไม่เอนเอียง" เป็นเมทริกซ์ความแปรปรวนร่วมตัวอย่าง กล่าวคือ:

แล้วตัวแปรสุ่ม มีแนวโน้มที่จะ เมื่อ และตัวแปรสุ่ม

ปฏิบัติตามการแจกแจงแบบ F ด้วยจำนวนระดับความเป็นอิสระ ตามลำดับ (p, p-p) และ (p, หมายเลข 1 + หมายเลข 2-p-1) ในอัตราส่วน (7) หมายเลข 1และ n 2 - ปริมาตรของตัวอย่างอิสระสองตัวอย่างประเภท (1) ที่สกัดจากประชากรทั่วไปกลุ่มเดียวกัน - การประมาณประเภท (3) และ (4) - (5) สร้างจากตัวอย่างที่ i และ

ความแปรปรวนร่วมตัวอย่างทั้งหมด สร้างจากการประมาณค่าและ

การวิเคราะห์ทางสถิติหลายมิติของธรรมชาติและโครงสร้างของความสัมพันธ์ระหว่างองค์ประกอบของลักษณะหลายมิติภายใต้การศึกษาผสมผสานแนวคิดและผลลัพธ์ที่รองรับวิธีการและแบบจำลองของ MS ดังกล่าว ก. หลายมิติ, หลายมิติ การวิเคราะห์ความแปรปรวนและ การวิเคราะห์ความแปรปรวนร่วม การวิเคราะห์ปัจจัยและการวิเคราะห์องค์ประกอบหลัก การวิเคราะห์แบบบัญญัติ ความสัมพันธ์ ผลลัพธ์ที่ประกอบขึ้นเป็นเนื้อหาของส่วนย่อยนี้สามารถแบ่งออกเป็นสองประเภทหลัก

1) การสร้างข้อมูลทางสถิติที่ดีที่สุด (ในแง่หนึ่ง) การประมาณค่าพารามิเตอร์ของแบบจำลองดังกล่าวและการวิเคราะห์คุณสมบัติ (ความแม่นยำ และในการกำหนดความน่าจะเป็น - กฎการกระจายตัว ขอบเขตความเชื่อมั่น ฯลฯ) ดังนั้น ให้ตีความคุณลักษณะหลายมิติที่กำลังศึกษาอยู่ว่าเป็นเวกเตอร์แบบสุ่ม ซึ่งอยู่ใต้บังคับบัญชาของมิติ p การกระจายตัวตามปกติและแบ่งออกเป็นเวกเตอร์ย่อยสองตัว - คอลัมน์และมิติ q และ p-q ตามลำดับ สิ่งนี้จะกำหนดการหารที่สอดคล้องกันของเวกเตอร์ทางคณิตศาสตร์ ความคาดหวัง เมทริกซ์ความแปรปรวนร่วมทางทฤษฎีและตัวอย่าง ได้แก่

จากนั้น (ดู , ) เวกเตอร์ย่อย (โดยมีเงื่อนไขว่าเวกเตอร์ย่อยที่สองได้รับค่าคงที่) จะเป็นปกติเช่นกัน ในกรณีนี้ การประมาณความน่าจะเป็นสูงสุด สำหรับเมทริกซ์ของสัมประสิทธิ์การถดถอยและตัวแปรร่วมของแบบจำลองการถดถอยพหุตัวแปรหลายตัวแปรคลาสสิกนี้

จะมีสถิติที่เป็นอิสระต่อกันตามลำดับ

ในที่นี้การกระจายการประเมินจะอยู่ภายใต้กฎหมายปกติ และประมาณการ n - กฎของ Wishart พร้อมพารามิเตอร์และ (องค์ประกอบของเมทริกซ์ความแปรปรวนร่วมแสดงในรูปขององค์ประกอบเมทริกซ์)

ผลลัพธ์หลักในการสร้างการประมาณค่าพารามิเตอร์และการศึกษาคุณสมบัติในแบบจำลองการวิเคราะห์ปัจจัย องค์ประกอบหลัก และสหสัมพันธ์แบบบัญญัติ เกี่ยวข้องกับการวิเคราะห์คุณสมบัติความน่าจะเป็น-สถิติของค่าลักษณะเฉพาะและเวกเตอร์ของเมทริกซ์ความแปรปรวนร่วมตัวอย่างต่างๆ

ในรูปแบบที่ไม่เข้ากับกรอบงานแบบคลาสสิก แบบจำลองปกติ และโดยเฉพาะอย่างยิ่งภายในกรอบของแบบจำลองความน่าจะเป็น ผลลัพธ์หลักเกี่ยวข้องกับการสร้างอัลกอริทึม (และการศึกษาคุณสมบัติของพวกมัน) สำหรับการคำนวณการประมาณค่าพารามิเตอร์ที่ดีที่สุดจากมุมมองของฟังก์ชันที่ได้รับจากภายนอกบางอย่างของ คุณภาพ (หรือความเพียงพอ) ของแบบจำลอง

2) การสร้างข้อมูลทางสถิติ เกณฑ์การทดสอบสมมติฐานต่างๆ เกี่ยวกับโครงสร้างของความสัมพันธ์ที่กำลังศึกษา ภายในกรอบของแบบจำลองปกติหลายตัวแปร (ลำดับของการสังเกตประเภท (1) จะถูกตีความว่าเป็นตัวอย่างสุ่มจากประชากรปกติหลายตัวแปรที่สอดคล้องกัน) ตัวอย่างเช่น ทางสถิติ เกณฑ์ในการทดสอบสมมติฐานดังต่อไปนี้

I. สมมติฐานเกี่ยวกับความเท่าเทียมกันของเวกเตอร์ทางคณิตศาสตร์ ความคาดหวังของตัวบ่งชี้ที่ศึกษาต่อเวกเตอร์เฉพาะที่กำหนด ตรวจสอบโดยใช้ Hotelling -statistics พร้อมการทดแทนเป็นสูตร (6)

ครั้งที่สอง สมมติฐานเกี่ยวกับความเท่าเทียมกันของเวกเตอร์ทางคณิตศาสตร์ ความคาดหวังในสองประชากร (ที่มีเมทริกซ์ความแปรปรวนร่วมที่เหมือนกันแต่ไม่ทราบ) แสดงด้วยสองตัวอย่าง ตรวจสอบโดยใช้สถิติ (ดู)

III. สมมติฐานเกี่ยวกับความเท่าเทียมกันของเวกเตอร์ทางคณิตศาสตร์ ความคาดหวังในประชากรทั่วไปหลายกลุ่ม (ที่มีเมทริกซ์ความแปรปรวนร่วมที่เหมือนกันแต่ไม่ทราบ) แสดงโดยกลุ่มตัวอย่าง ตรวจสอบโดยใช้สถิติ

ในการตัดก็มี p-มิติที่ iการสังเกตในขนาดตัวอย่างที่เป็นตัวแทน เจทั่วไปประชากร และ และ เป็นค่าประมาณของแบบฟอร์ม (3) ซึ่งสร้างขึ้นตามลำดับ แยกกันสำหรับแต่ละตัวอย่างและสำหรับตัวอย่างปริมาตรรวม

IV. สมมติฐานเกี่ยวกับความเท่าเทียมกันของประชากรปกติหลายกลุ่มที่แสดงโดยกลุ่มตัวอย่างได้รับการทดสอบโดยใช้สถิติ

ในการตัด - การประมาณประเภท (4) สร้างแยกจากการสังเกต เจ-ตัวอย่าง, j=1, 2, ... , เค

V. สมมติฐานเกี่ยวกับความเป็นอิสระร่วมกันของเวกเตอร์ย่อย - คอลัมน์ของมิติตามลำดับซึ่งแบ่งเวกเตอร์ p- มิติดั้งเดิมของตัวบ่งชี้ที่ศึกษาได้รับการตรวจสอบโดยใช้สถิติ

โดยที่ และ เป็นเมทริกซ์ความแปรปรวนร่วมตัวอย่างของรูปแบบ (4) สำหรับเวกเตอร์ทั้งหมดและสำหรับเวกเตอร์ย่อย x(i) ตามนั้น

การวิเคราะห์ทางสถิติหลายมิติของโครงสร้างทางเรขาคณิตของชุดการสังเกตหลายมิติที่ศึกษาจะรวมแนวคิดและผลลัพธ์ของแบบจำลองและโครงร่างดังกล่าวเป็น การวิเคราะห์จำแนกการผสมผสานของการแจกแจงความน่าจะเป็น การวิเคราะห์คลัสเตอร์และอนุกรมวิธาน การปรับขนาดหลายมิติ แนวคิดหลักในรูปแบบทั้งหมดเหล่านี้คือแนวคิดเรื่องระยะทาง (การวัดความใกล้ชิด การวัดความคล้ายคลึงกัน) ระหว่างองค์ประกอบที่วิเคราะห์ ในกรณีนี้สามารถวิเคราะห์ได้เหมือนวัตถุจริงซึ่งแต่ละค่าของตัวบ่งชี้จะถูกบันทึก - จากนั้นเป็นเรขาคณิต รูปภาพของวัตถุที่ตรวจสอบ i-th จะเป็นจุดในพื้นที่ p- มิติที่สอดคล้องกันและตัวบ่งชี้นั้นเอง - จากนั้นเป็นเรขาคณิต รูปภาพของตัวบ่งชี้ที่ l จะเป็นจุดในพื้นที่ n มิติที่สอดคล้องกัน

วิธีการและผลลัพธ์ของการวิเคราะห์จำแนก (ดู , , ) มุ่งเป้าไปที่งานต่อไปนี้ เป็นที่ทราบกันว่ามีประชากรจำนวนหนึ่ง และผู้วิจัยมีหนึ่งตัวอย่างจากประชากรแต่ละกลุ่ม ("ตัวอย่างการฝึกอบรม") จำเป็นต้องสร้างกฎการจำแนกประเภทที่ดีที่สุดตามตัวอย่างการฝึกอบรมที่มีอยู่ซึ่งอนุญาตให้เรากำหนดองค์ประกอบใหม่บางอย่าง (การสังเกต) ให้กับประชากรทั่วไปในสถานการณ์ที่ผู้วิจัยไม่ทราบ ล่วงหน้าว่าองค์ประกอบนี้เป็นของประชากรใด โดยปกติแล้วกฎการจำแนกประเภทจะเข้าใจเป็นลำดับของการกระทำ: โดยการคำนวณฟังก์ชันสเกลาร์ของตัวบ่งชี้ที่กำลังศึกษาอยู่บนพื้นฐานของค่าของการตัดจะมีการตัดสินใจกำหนดองค์ประกอบให้กับหนึ่งในคลาส (การสร้าง ฟังก์ชั่นจำแนก); โดยการจัดลำดับตัวบ่งชี้ตามระดับของเนื้อหาข้อมูลในแง่ของการกำหนดองค์ประกอบให้กับคลาสที่ถูกต้อง โดยการคำนวณความน่าจะเป็นของการจำแนกประเภทที่ผิดที่สอดคล้องกัน

งานวิเคราะห์ส่วนผสมของการแจกแจงความน่าจะเป็น (ดู) บ่อยที่สุด (แต่ไม่เสมอไป) ก็เกิดขึ้นจากการศึกษา "โครงสร้างทางเรขาคณิต" ของประชากรที่อยู่ระหว่างการพิจารณา ในกรณีนี้ แนวคิดของคลาสเอกพันธ์ที่ r ถูกทำให้เป็นทางการโดยใช้ประชากรทั่วไปที่อธิบายโดยกฎการกระจายที่แน่นอน (โดยปกติจะเป็นแบบเดียว) เพื่อให้อธิบายการกระจายตัวของประชากรทั่วไปซึ่งดึงตัวอย่าง (1) ออกมาได้ ส่วนผสมของการแจกแจงของรูปแบบโดยที่ p r - ความน่าจะเป็นแบบนิรนัย (องค์ประกอบเฉพาะ) ของคลาส r-th ในประชากรทั่วไป ความท้าทายคือสถิติที่ “ดี” การประมาณค่า (จากตัวอย่าง) พารามิเตอร์ที่ไม่รู้จักและบางครั้ง ถึง.โดยเฉพาะอย่างยิ่งสิ่งนี้ช่วยให้เราสามารถลดงานในการจำแนกองค์ประกอบให้เป็นแผนการวิเคราะห์แบบแบ่งแยกได้ แม้ว่าในกรณีนี้จะไม่มีตัวอย่างการฝึกอบรมก็ตาม

วิธีการและผลลัพธ์ของการวิเคราะห์คลัสเตอร์ (การจำแนกประเภท อนุกรมวิธาน การจดจำรูปแบบที่ไม่ได้รับการดูแล ดู , , ) มีวัตถุประสงค์เพื่อแก้ไขปัญหาต่อไปนี้ เรขาคณิต ชุดองค์ประกอบที่วิเคราะห์จะได้รับจากพิกัดของจุดที่เกี่ยวข้อง (เช่นโดยเมทริกซ์ ..., n) , หรือชุดเรขาคณิต ลักษณะของพวกเขา ตำแหน่งสัมพัทธ์ตัวอย่างเช่น เมทริกซ์ของระยะทางแบบคู่ จำเป็นต้องแบ่งชุดองค์ประกอบที่ศึกษาออกเป็นคลาสที่ค่อนข้างเล็ก (เคยรู้จักหรือไม่) เพื่อให้องค์ประกอบของคลาสหนึ่งอยู่ห่างจากกันเล็กน้อย ในขณะที่คลาสที่แตกต่างกันถ้าเป็นไปได้ ก็จะอยู่ห่างจากกันอย่างเพียงพอ และจะไม่แยกออกเป็นส่วนที่ห่างไกลจากกัน

ปัญหาของการปรับขนาดหลายมิติ (ดู) หมายถึงสถานการณ์เมื่อมีการระบุชุดขององค์ประกอบภายใต้การศึกษาโดยใช้เมทริกซ์ระยะทางคู่และประกอบด้วยการกำหนดพิกัด (p) ที่กำหนดให้กับแต่ละองค์ประกอบในลักษณะที่ โครงสร้างของระยะห่างร่วมแบบคู่ระหว่างองค์ประกอบที่วัดโดยใช้พิกัดเสริมเหล่านี้ โดยเฉลี่ยจะแตกต่างจากที่กำหนดน้อยที่สุด ควรสังเกตว่าผลลัพธ์หลักและวิธีการวิเคราะห์คลัสเตอร์และการปรับขนาดหลายมิติมักจะได้รับการพัฒนาโดยไม่มีสมมติฐานใด ๆ เกี่ยวกับลักษณะความน่าจะเป็นของแหล่งข้อมูล

วัตถุประสงค์ที่ใช้ของการวิเคราะห์ทางสถิติหลายตัวแปรคือเพื่อรองรับปัญหาสามประการต่อไปนี้เป็นหลัก

ปัญหาการศึกษาทางสถิติของการพึ่งพาระหว่างตัวบ่งชี้ที่วิเคราะห์ สมมติว่าชุดการศึกษาของตัวบ่งชี้ที่บันทึกทางสถิติ x จะถูกแบ่งตามความหมายที่มีความหมายของตัวบ่งชี้เหล่านี้และเป้าหมายสุดท้ายของการศึกษา ออกเป็นเวกเตอร์ย่อยมิติ q ของตัวแปรทำนาย (ขึ้นอยู่กับ) และเวกเตอร์ย่อยมิติ (p-q) ของ ตัวแปรทำนาย (อิสระ) เราสามารถพูดได้ว่าปัญหาคือการกำหนดตามตัวอย่าง (1) ฟังก์ชันเวกเตอร์มิติ q จากคลาสของโซลูชันที่ยอมรับได้ edge จะให้สิ่งที่ดีที่สุดในการประมาณพฤติกรรมของเวกเตอร์ย่อยของตัวบ่งชี้ ขึ้นอยู่กับประเภทของฟังก์ชันเฉพาะ คุณภาพของการประมาณและลักษณะของตัวบ่งชี้ที่วิเคราะห์จะมาในรูปแบบใดรูปแบบหนึ่งของการวิเคราะห์การถดถอยพหุคูณ ความแปรปรวน ความแปรปรวนร่วม หรือการบรรจบกัน

ปัญหาของการจำแนกองค์ประกอบ (วัตถุหรือตัวบ่งชี้) ในสูตรทั่วไป (ไม่เข้มงวด) คือการแบ่งชุดองค์ประกอบที่วิเคราะห์ทั้งหมด ซึ่งนำเสนอทางสถิติในรูปแบบของเมทริกซ์หรือเมทริกซ์ ออกเป็นจำนวนที่ค่อนข้างน้อยที่เป็นเนื้อเดียวกันใน ความรู้สึกบางอย่างกลุ่ม ขึ้นอยู่กับลักษณะของข้อมูลนิรนัยและประเภทการทำงานเฉพาะที่กำหนดเกณฑ์คุณภาพการจำแนกประเภท การวิเคราะห์จำแนก การวิเคราะห์กลุ่ม (อนุกรมวิธาน การจดจำรูปแบบ "ไม่ได้รับการดูแล") และการแยกส่วนผสมของการแจกแจง .

ปัญหาในการลดมิติของพื้นที่ปัจจัยภายใต้การศึกษาและการเลือกตัวบ่งชี้ที่ให้ข้อมูลมากที่สุดคือการกำหนดชุดตัวบ่งชี้จำนวนค่อนข้างน้อยที่พบในระดับของการเปลี่ยนแปลงที่ยอมรับได้ของตัวบ่งชี้เริ่มต้น ซึ่งกลุ่มบนของการวัดเนื้อหาข้อมูลของระบบคุณสมบัติมิติ m ที่กำหนดจากภายนอกทำได้สำเร็จ (ดู) การระบุฟังก์ชันที่ระบุการวัดความเป็นข้อมูลอัตโนมัติ (เช่น มุ่งเป้าไปที่การเพิ่มการรักษาข้อมูลที่มีอยู่ในอาร์เรย์ทางสถิติให้สูงสุด (1) สัมพันธ์กับคุณลักษณะดั้งเดิม) นำไปสู่รูปแบบต่างๆ ของการวิเคราะห์ปัจจัยและหลักการต่างๆ ส่วนประกอบไปจนถึงวิธีการจัดกลุ่มคุณลักษณะขั้นสูงสุด ฟังก์ชั่นที่กำหนดการวัดเนื้อหาข้อมูลภายนอก เช่น มุ่งเป้าไปที่การแยกจาก (1) ข้อมูลสูงสุดเกี่ยวกับข้อมูลอื่นๆ บางอย่างที่ไม่ได้อยู่ในตัวบ่งชี้หรือปรากฏการณ์โดยตรง นำไปสู่ วิธีการต่างๆการเลือกตัวบ่งชี้ที่ให้ข้อมูลมากที่สุดในรูปแบบทางสถิติ การวิจัยการพึ่งพาและการวิเคราะห์จำแนก

เครื่องมือทางคณิตศาสตร์พื้นฐานของ MS ก. เป็นวิธีการพิเศษของทฤษฎีระบบสมการเชิงเส้นและทฤษฎีเมทริกซ์ (วิธีการสำหรับการแก้ปัญหาค่าลักษณะเฉพาะและเวกเตอร์แบบง่ายและทั่วไป การผกผันอย่างง่ายและการผกผันแบบหลอกของเมทริกซ์ ขั้นตอนการทำเส้นทแยงมุมสำหรับเมทริกซ์ ฯลฯ ) และอัลกอริธึมการปรับให้เหมาะสมบางอย่าง (วิธีการ การสืบค้นพิกัด การไล่ระดับสีคอนจูเกต กิ่งก้านและขอบเขต เวอร์ชันต่างๆ ของการค้นหาแบบสุ่ม และการประมาณสุ่ม ฯลฯ)

สว่าง: Anderson T., บทนำสู่การวิเคราะห์ทางสถิติหลายตัวแปร, ทรานส์. จากภาษาอังกฤษ ม. 2506; Kendall M.J., Stewart A., การวิเคราะห์ทางสถิติหลายตัวแปรและอนุกรมเวลา, ทรานส์ จากภาษาอังกฤษ ม. 2519; Bolshev L.N., "Bull. Int. Stat. Inst.", 1969, ลำดับ 43, หน้า. 425-41; Wishart .J., "Biometrika", 1928, v. 20เอ หน้า 32-52: Hotelling H., "Ann. Math. Stat.", 1931, v. 2, น. 360-78; [c] Kruskal J. V., "Psychometrika", 1964, v. 29 น. 1-27; Ayvazyan S. A. , Bezhaeva Z. I. , . Staroverov O.V. การจำแนกประเภทของการสังเกตหลายมิติ, M. , 1974

เอส.เอ.ไอวาซยาน.


สารานุกรมทางคณิตศาสตร์. - ม.: สารานุกรมโซเวียต- ไอ. เอ็ม. วิโนกราดอฟ

พ.ศ. 2520-2528.

คู่มือนักแปลทางเทคนิค

หมวดสถิติทางคณิตศาสตร์ (ดู) เฉพาะด้านคณิตศาสตร์ วิธีการที่มีวัตถุประสงค์เพื่อระบุธรรมชาติและโครงสร้างของความสัมพันธ์ระหว่างองค์ประกอบของลักษณะหลายมิติภายใต้การศึกษา (ดู) และมีวัตถุประสงค์เพื่อให้ได้ทางวิทยาศาสตร์ และปฏิบัติได้จริง...... ในความหมายกว้าง ๆ เป็นส่วนหนึ่งของสถิติทางคณิตศาสตร์ (ดูสถิติทางคณิตศาสตร์) รวมวิธีการศึกษาข้อมูลทางสถิติที่เกี่ยวข้องกับวัตถุที่มีลักษณะเชิงคุณภาพหรือเชิงปริมาณหลายประการ... ...

สารานุกรมผู้ยิ่งใหญ่แห่งสหภาพโซเวียตการวิเคราะห์ทางสถิติหลายตัวแปร - ส่วนหนึ่งของสถิติทางคณิตศาสตร์ที่ออกแบบมาเพื่อวิเคราะห์ความสัมพันธ์ระหว่างตัวแปรตั้งแต่สามตัวแปรขึ้นไป เราสามารถแยกแยะปัญหา A.M.S. ได้สามประเภทตามเงื่อนไข เป็นการศึกษาโครงสร้างความสัมพันธ์ระหว่างตัวแปรกับการลดมิติของปริภูมิ...

สังคมวิทยา: สารานุกรมการวิเคราะห์ความแปรปรวนร่วม - – ชุดวิธีการทางคณิตศาสตร์ สถิติที่เกี่ยวข้องกับการวิเคราะห์แบบจำลองของการพึ่งพาค่าเฉลี่ยของตัวแปรสุ่ม Y บนชุดของปัจจัยที่ไม่ใช่เชิงปริมาณ F และในเวลาเดียวกันกับชุดของปัจจัยเชิงปริมาณ X ที่เกี่ยวข้องกับ Y... . ..

ส่วนคณิตศาสตร์ สถิติ ซึ่งมีเนื้อหาเป็นการพัฒนาและวิจัยสถิติ วิธีการแก้ไขปัญหาการเลือกปฏิบัติต่อไปนี้: จากผลการสังเกต ให้พิจารณาว่าวิธีใดที่เป็นไปได้... ... สารานุกรมคณิตศาสตร์, Orlova Irina Vladlenovna, Kontsevaya Natalya Valerievna, Turundaevsky Viktor Borisovich หนังสือเล่มนี้เกี่ยวข้องกับการวิเคราะห์ทางสถิติหลายตัวแปร (MSA) และการจัดระเบียบการคำนวณโดยใช้ MSA ในการใช้วิธีสถิติหลายตัวแปร จะใช้โปรแกรมประมวลผลทางสถิติ...


มีสถานการณ์ที่ความแปรปรวนแบบสุ่มแสดงด้วยสัญญาณและตัวแปรสุ่มหนึ่งหรือสองตัว

ตัวอย่างเช่น เมื่อศึกษาประชากรทางสถิติ เราจะสนใจเรื่องส่วนสูงและน้ำหนัก ในสถานการณ์นี้ ไม่ว่าประชากรทางสถิติจะมีกี่คน เราก็สามารถพล็อตแผนภาพกระจายและดูภาพรวมได้เสมอ อย่างไรก็ตาม หากมีคุณลักษณะสามประการ เช่น อายุของบุคคลถูกบวก จะต้องสร้างแผนภาพกระจายในพื้นที่สามมิติ เป็นเรื่องยากอยู่แล้วที่จะจินตนาการถึงการสะสมของจุดในอวกาศสามมิติ

ในความเป็นจริง ในทางปฏิบัติ การสังเกตแต่ละครั้งไม่ได้แสดงด้วยตัวเลขหนึ่ง สอง หรือสามตัว แต่ด้วยชุดตัวเลขที่เห็นได้ชัดเจนซึ่งอธิบายคุณลักษณะต่างๆ มากมาย ในสถานการณ์นี้ การสร้างแผนภาพกระจายจะต้องพิจารณาช่องว่างหลายมิติ

สาขาสถิติที่เกี่ยวข้องกับการศึกษาการทดลองด้วยการสังเกตหลายตัวแปรเรียกว่าการวิเคราะห์ทางสถิติหลายตัวแปร

การวัดสัญญาณต่างๆ (คุณสมบัติของวัตถุ) ในคราวเดียวในการทดลองครั้งเดียวโดยทั่วไปจะเป็นธรรมชาติมากกว่าการวัดเพียง 1 หรือ 2 รายการ ดังนั้น การวิเคราะห์ทางสถิติแบบหลายตัวแปรที่อาจเป็นไปได้จึงมีการใช้งานที่หลากหลาย

การวิเคราะห์ทางสถิติหลายตัวแปรประกอบด้วยส่วนต่อไปนี้:

การวิเคราะห์ปัจจัย

การวิเคราะห์จำแนก

การวิเคราะห์คลัสเตอร์

การปรับขนาดหลายมิติ

วิธีการควบคุมคุณภาพ

การวิเคราะห์ปัจจัย

เมื่อศึกษาวัตถุและระบบที่ซับซ้อน (เช่น ในด้านจิตวิทยา ชีววิทยา สังคมวิทยา ฯลฯ) ปริมาณ (ปัจจัย) ที่กำหนดคุณสมบัติของวัตถุเหล่านี้มักจะไม่สามารถวัดได้โดยตรง และบางครั้งก็ไม่ทราบจำนวนและความหมายที่มีความหมายด้วยซ้ำ . แต่อาจมีปริมาณอื่นสำหรับการวัดได้ ขึ้นอยู่กับปัจจัยที่น่าสนใจไม่ทางใดก็ทางหนึ่ง ยิ่งไปกว่านั้น เมื่ออิทธิพลของปัจจัยที่เราไม่ทราบซึ่งเราสนใจนั้นปรากฏในสัญญาณที่วัดได้หลายอย่าง สัญญาณเหล่านี้ก็สามารถเปิดเผยได้ การเชื่อมต่อที่ใกล้ชิดระหว่างกันกับจำนวนปัจจัยทั้งหมดอาจน้อยกว่าจำนวนตัวแปรที่วัดได้มาก

วิธีการวิเคราะห์ปัจจัยใช้ในการค้นหาปัจจัยที่มีอิทธิพลต่อตัวแปรที่วัดได้

ตัวอย่างการประยุกต์ใช้การวิเคราะห์ปัจจัยคือการศึกษาลักษณะบุคลิกภาพโดยอาศัย การทดสอบทางจิตวิทยา- คุณสมบัติบุคลิกภาพไม่สามารถวัดได้โดยตรง สามารถตัดสินได้จากพฤติกรรมของบุคคลหรือลักษณะของคำตอบสำหรับคำถามบางอย่างเท่านั้น เพื่ออธิบายผลลัพธ์ของการทดลอง พวกเขาจะต้องผ่านการวิเคราะห์ปัจจัยซึ่งช่วยให้เราสามารถระบุคุณสมบัติส่วนบุคคลเหล่านั้นที่มีอิทธิพลต่อพฤติกรรมของบุคคลที่ทำการทดสอบ


แบบจำลองการวิเคราะห์ปัจจัยต่างๆ มีพื้นฐานอยู่บนสมมติฐานต่อไปนี้: พารามิเตอร์ที่สังเกตหรือวัดได้เป็นเพียงลักษณะทางอ้อมของวัตถุหรือปรากฏการณ์ที่กำลังศึกษา ในความเป็นจริง มีสิ่งภายใน (ซ่อนอยู่ แฝงอยู่ไม่สามารถสังเกตได้โดยตรง) พารามิเตอร์และคุณสมบัติซึ่งมีจำนวนน้อยและกำหนดค่าของพารามิเตอร์ที่สังเกตได้ พารามิเตอร์ภายในเหล่านี้มักเรียกว่าปัจจัย

งานวิเคราะห์ปัจจัยคือการแทนค่าพารามิเตอร์ที่สังเกตได้ในรูปแบบของผลรวมเชิงเส้นของปัจจัย และบางทีอาจเป็นสัญญาณรบกวนเพิ่มเติมที่ไม่สำคัญ

ตามกฎแล้วขั้นตอนแรกของการวิเคราะห์ปัจจัยคือการเลือกคุณสมบัติใหม่ ซึ่งเป็นการรวมกันเชิงเส้นของคุณสมบัติก่อนหน้าและ "ดูดซับ" ความแปรปรวนโดยรวมส่วนใหญ่ในข้อมูลที่สังเกตได้ และดังนั้นจึงถ่ายทอดข้อมูลส่วนใหญ่ที่มีอยู่ใน ข้อสังเกตเดิม โดยปกติจะทำโดยใช้ วิธีองค์ประกอบหลักแม้ว่าบางครั้งจะใช้เทคนิคอื่น ๆ (วิธีความน่าจะเป็นสูงสุด)

วิธีการองค์ประกอบหลักอยู่ที่การเลือกระบบพิกัดมุมฉากใหม่ในพื้นที่สังเกตการณ์ ทิศทางที่อาร์เรย์ของการสังเกตมีการกระจายมากที่สุดจะถูกเลือกเป็นองค์ประกอบหลักแรก แต่ละองค์ประกอบหลักที่ตามมาจะถูกเลือก เพื่อให้การกระจายของการสังเกตมีค่าสูงสุด และองค์ประกอบหลักนี้จะตั้งฉากกับองค์ประกอบหลักอื่นๆ ที่เลือกไว้ก่อนหน้านี้ อย่างไรก็ตาม ปัจจัยที่ได้รับจากวิธีส่วนประกอบหลักมักจะไม่สามารถตีความได้ชัดเจนเพียงพอ ดังนั้นขั้นตอนต่อไปในการวิเคราะห์ปัจจัยคือ การแปลง การหมุนเวียนปัจจัยเพื่ออำนวยความสะดวกในการตีความ

การวิเคราะห์จำแนก

ให้มีการรวบรวมวัตถุที่แบ่งออกเป็นหลายกลุ่ม และสำหรับแต่ละวัตถุ คุณสามารถกำหนดได้ว่าวัตถุนั้นอยู่ในกลุ่มใด สำหรับแต่ละวัตถุจะมีการวัดลักษณะเชิงปริมาณหลายประการ มีความจำเป็นต้องค้นหาวิธีการค้นหากลุ่มที่วัตถุนั้นอยู่ตามลักษณะเหล่านี้ ซึ่งจะช่วยให้คุณสามารถระบุกลุ่มที่มีออบเจ็กต์ใหม่ของคอลเลกชันเดียวกันได้ เพื่อแก้ปัญหาก็ใช้ วิธีการวิเคราะห์จำแนก

การวิเคราะห์จำแนก- นี่คือสาขาวิชาสถิติซึ่งมีเนื้อหาเป็นการพัฒนาวิธีการแก้ไขปัญหาการเลือกปฏิบัติ (การเลือกปฏิบัติ) ของวัตถุการสังเกตตามลักษณะบางประการ

ลองดูตัวอย่างบางส่วน

การวิเคราะห์จำแนกมีประโยชน์ในการประมวลผลผลการทดสอบของแต่ละบุคคลเมื่อต้องจ้างงานในตำแหน่งใดตำแหน่งหนึ่ง ในกรณีนี้จำเป็นต้องแบ่งผู้สมัครทั้งหมดออกเป็นสองกลุ่ม: “เหมาะสม” และ “ไม่เหมาะสม”

ฝ่ายบริหารธนาคารสามารถใช้การวิเคราะห์แบบแบ่งแยกเพื่อประเมินได้ สภาพทางการเงินกิจการของลูกค้าเมื่อออกสินเชื่อ ธนาคารจัดประเภทความน่าเชื่อถือและไม่น่าเชื่อถือตามเกณฑ์หลายประการ

การวิเคราะห์จำแนกสามารถใช้เป็นวิธีการแบ่งกลุ่มวิสาหกิจออกเป็นหลาย ๆ กลุ่มได้ กลุ่มที่เป็นเนื้อเดียวกันตามมูลค่าของตัวชี้วัดการผลิตและกิจกรรมทางเศรษฐกิจ

วิธีการวิเคราะห์แบบแบ่งแยกทำให้สามารถสร้างฟังก์ชันของลักษณะที่วัดได้ซึ่งเป็นค่าที่อธิบายการแบ่งวัตถุออกเป็นกลุ่ม เป็นที่พึงประสงค์ว่าฟังก์ชันเหล่านี้ (ลักษณะจำแนก)มีไม่มาก ในกรณีนี้ ผลลัพธ์ของการวิเคราะห์จะตีความความหมายได้ง่ายกว่า

เนื่องจากความเรียบง่าย การวิเคราะห์จำแนกเชิงเส้นจึงมีบทบาทพิเศษ โดยเลือกคุณลักษณะการจัดหมวดหมู่เป็นฟังก์ชันเชิงเส้นของคุณลักษณะหลัก

การวิเคราะห์คลัสเตอร์

วิธีการวิเคราะห์คลัสเตอร์ทำให้สามารถแบ่งชุดวัตถุที่ศึกษาออกเป็นกลุ่มของวัตถุที่ "คล้ายกัน" ที่เรียกว่าคลัสเตอร์

คำ กลุ่มแหล่งกำเนิดภาษาอังกฤษ - คลัสเตอร์แปลว่า พุ่ม, พวง, หมู่, ฝูง, ฝูง.

การวิเคราะห์คลัสเตอร์ช่วยแก้ปัญหาต่อไปนี้:

จำแนกวัตถุโดยคำนึงถึงคุณลักษณะทั้งหมดที่กำหนดลักษณะของวัตถุ ความเป็นไปได้ของการจำแนกประเภททำให้เราเข้าใจในเชิงลึกมากขึ้นเกี่ยวกับจำนวนทั้งสิ้นภายใต้การพิจารณาและวัตถุต่างๆ ที่รวมอยู่ในนั้น

กำหนดภารกิจในการตรวจสอบการมีอยู่ของโครงสร้างหรือการจำแนกนิรนัยที่กำหนดในประชากรที่มีอยู่ การทดสอบดังกล่าวทำให้สามารถใช้รูปแบบมาตรฐานของการวิจัยทางวิทยาศาสตร์แบบนิรนัยได้

วิธีการจัดกลุ่ม (กลุ่มแบบลำดับชั้น) ส่วนใหญ่คือ รวมตัวกัน(การรวมกัน) - พวกมันเริ่มต้นด้วยการสร้างกระจุกพื้นฐาน ซึ่งแต่ละกระจุกประกอบด้วยการสังเกตเบื้องต้นเพียงจุดเดียว (จุดเดียว) และในแต่ละขั้นตอนต่อมา กระจุกที่ใกล้ที่สุดสองกระจุกจะรวมกันเป็นหนึ่งเดียว

ผู้วิจัยสามารถกำหนดช่วงเวลาที่จะหยุดกระบวนการนี้ได้ (เช่น โดยการระบุจำนวนกระจุกที่ต้องการหรือระยะทางสูงสุดที่จะบรรลุการรวมตัว)

การแสดงภาพกราฟิกของกระบวนการรวมคลัสเตอร์สามารถรับได้โดยใช้ เดนโดแกรม- ต้นไม้รวมกลุ่ม

ลองพิจารณาตัวอย่างต่อไปนี้ ให้เราจำแนกวิสาหกิจห้าแห่ง ซึ่งแต่ละแห่งมีลักษณะเฉพาะด้วยตัวแปรสามตัว:

x1– ต้นทุนเฉลี่ยต่อปีของสินทรัพย์การผลิตคงที่, พันล้านรูเบิล;

x2– ค่าวัสดุต่อ 1 รูเบิล ผลิตภัณฑ์ที่ผลิต kopecks;

x3– ปริมาณผลิตภัณฑ์ที่ผลิต พันล้านรูเบิล

บทความที่เกี่ยวข้อง

2024 liveps.ru การบ้านและปัญหาสำเร็จรูปในวิชาเคมีและชีววิทยา