Home | KTL nâng cao | Phương pháp phân tách – Discriminant analysis

Phương pháp phân tách – Discriminant analysis

I. GIỚI THIỆU PHƯƠNG PHÁP PHÂN TÍCH
Phương pháp phân tách (Discriminant analysis) là một phương pháp phân tích thống kê được dùng rất nhiều trong Data mining để phân loại các đối tượng (object) vào các nhóm dựa việc đo lường các đặc trưng của đối tượng.

Không giống như phân tích cluster không đòi hỏi biết trước số nhóm và các đối tượng ở mỗi nhóm, phương pháp phân tách đòi hỏi phải biết trước số nhóm và các đối tượng trong mỗi nhóm trước khi tiến hành phân tích. Điều này có nghĩa, trong thiết kế nghiên cứu phương pháp phân tách người nghiên cứu phải xác định trước đặc điểm của các nhóm và tiến hành thu thập dữ liệu (đối tượng) cho mỗi nhóm.

Mục đích chính của phương pháp phân tách là:

  • Tìm tập hợp những thuộc tính tốt nhất để mô tả đối tượng hay trích lọc thuộc tính (feature extraction) và trích chọn mẫu (sapmple extraction) nhằm làm giảm số chiều biểu diễn đối tượng;
  • Tìm một mô hình tốt nhất để phân nhóm các đối tượng.

Giả sử ta muốn dự báo quyết định lựa chọn chương trình học (prog) mà sinh viên sẽ đăng ký dựa vào điểm số các môn toán (math), môn đọc (read), viết (write). Biến phụ thuộc ở đây là chương trình học (prog) gồm 3 thuộc tính phân nhóm là chương trình tổng quát, chương trình hàn lâm, và chương trình hướng nghiệp. Các đặc trưng của đối tượng được thể hiện qua điểm số các môn học như math, read, write, science, socst (là những biến giải thích).

Các giả định của phương pháp phân tách

  • Các mẫu được chọn ngẫu nhiên
  • Các biến giải thích có phân phối chuẩn
  • Biến phụ thuộc phải có ít nhất 2 nhóm trở lên tách biệt rõ ràng và mỗi đối tượng chỉ thuộc một nhóm.
  • Số đối tượng trong mỗi nhóm không có sự chênh lệch lớn và tối thiểu gấp 5 lần số biến độc lập.

Phần nội dung có thu phí bên dưới đã được ẩn. Vui lòng đăng nhập hoặc đăng ký gói Premium. Trân trọng!