Phân tích sống còn

Minh họa thực hành

Estimated reading: 11 minutes 230 views

Giới thiệu lệnh stcox

Lệnh stcox trong Stata là một trong những lệnh quan trọng nhất để thực hiện phân tích survival analysis. Lệnh này được sử dụng để ước tính các hệ số hồi quy Cox và tính toán các giá trị liên quan đến thời gian sống sót của các đối tượng trong một nghiên cứu.

Cú pháp

Cú pháp của lệnh stcox như sau:

stcox [varlist] [if] [in] [, options]

Trong đó:

  • [varlist] là danh sách các biến độc lập sử dụng trong mô hình, bao gồm các biến liên tục và nhị phân (dạng số 0 và 1).
  • [if][in] là các điều kiện lọc dữ liệu để chỉ định tập hợp các đối tượng được sử dụng trong phân tích.
  • [options] là các tùy chọn để chỉnh sửa kết quả phân tích, bao gồm cả các tùy chọn để tính toán các giá trị thống kê khác nhau.

Tùy chọn

Các tùy chọn thường được sử dụng trong lệnh stcox bao gồm:

  • noconstant: không bao gồm hằng số cắt trong mô hình.
  • robust: tính toán hệ số hồi quy Cox với phương sai hiệu chỉnh cho các sai số không phân phối chuẩn.
  • cluster: tính toán hệ số hồi quy Cox với phương sai hiệu chỉnh cho sự phụ thuộc giữa các đối tượng trong cùng một nhóm (cluster).
  • eform: tính toán các hệ số hồi quy Cox dưới dạng mũ của giá trị thực.

Sau khi thực hiện lệnh stcox, Stata sẽ hiển thị các kết quả phân tích, bao gồm các hệ số hồi quy Cox và giá trị liên quan đến thời gian sống sót, như giá trị p, khoảng tin cậy, tỉ lệ nguy cơ, hàm sống còn,…

Dữ liệu thực hành survival analysis

Bộ dữ liệu thực hành Lung (Lung Cancer Survival Data) là một bộ dữ liệu được sử dụng rộng rãi trong các nghiên cứu về phân tích survival analysis. Bộ dữ liệu này bao gồm thông tin về thời gian sống sót và các yếu tố ảnh hưởng đến sự sống sót của các bệnh nhân bị ung thư phổi.

Bộ dữ liệu Lung được thu thập từ năm 1969 đến 1973 bởi Hội chẩn đoán ung thư Mỹ (American College of Surgeons’ Commission on Cancer) và chứa thông tin của 228 bệnh nhân bị ung thư phổi. Các bệnh nhân này được chẩn đoán bệnh ung thư phổi và điều trị bằng phẫu thuật. Thông tin về thời gian sống sót của các bệnh nhân được theo dõi trong khoảng thời gian từ khi chẩn đoán bệnh cho đến khi bệnh nhân qua đời hoặc được kiểm tra lần cuối.

Các yếu tố ảnh hưởng đến sự sống sót của các bệnh nhân bao gồm tuổi, giới tính, phân loại bệnh lý (cấp độ của bệnh), kích thước của khối u phổi, thời gian từ khi bệnh nhân có triệu chứng đến lúc chẩn đoán bệnh, phẫu thuật bao nhiêu lần và liệu pháp trị liệu.

Bộ dữ liệu Lung là một bộ dữ liệu phổ biến trong lĩnh vực phân tích survival analysis và đã được sử dụng trong nhiều nghiên cứu và bài báo về phương pháp và ứng dụng của survival analysis. Bộ dữ liệu này có thể được sử dụng để thực hành các kỹ thuật phân tích survival analysis trên các phần mềm phổ biến như Stata, R hoặc SAS.

Các bước thực hiện survival analysis

Để minh họa cách thực hiện survival analysis trên Stata, chúng ta có thể sử dụng bộ dữ liệu lung.dta đi kèm với Stata. Bộ dữ liệu này chứa thông tin về thời gian sống sót và các biến liên quan đến bệnh nhân ung thư phổi.

Bước 1: Tải bộ dữ liệu lung.dta lên Stata bằng lệnh sau:

use http://www.stata-press.com/data/r14/lung

Bước 2: Kiểm tra dữ liệu bằng cách sử dụng lệnh describe:

describe

Bước 3: Thực hiện phân tích survival analysis bằng cách sử dụng lệnh stset. Để thực hiện phân tích này, chúng ta cần chỉ định biến thời gian sống sót và biến sự kiện. Trong bộ dữ liệu lung.dta, biến thời gian sống sót là “time” và biến sự kiện là “status“. Cú pháp của lệnh stset như sau:

stset time, failure(status)

Bước 4: Vẽ đồ thị Kaplan-Meier để mô tả tỷ lệ sống sót của các nhóm bệnh nhân. Chúng ta có thể sử dụng lệnh sts graph để thực hiện điều này:

sts graph, by(age)

Lệnh này sẽ vẽ đồ thị Kaplan-Meier cho các nhóm bệnh nhân theo độ tuổi.

Bước 5: Thực hiện phân tích hồi quy Cox để tìm hiểu tác động của các biến độc lập đến thời gian sống sót của bệnh nhân. Chúng ta có thể sử dụng lệnh stcox để thực hiện điều này:

stcox age sex ph.ecog ph.karno pat.karno wt.loss, efron

Trong lệnh trên, chúng ta đã chỉ định các biến độc lập để thực hiện phân tích hồi quy Cox. Tùy chọn efron được sử dụng để chọn phương pháp tính toán hợp lý (Efron hoặc Breslow).

Bước 6: Kiểm tra các giả định của phân tích hồi quy Cox bằng cách sử dụng lệnh stcoxcheck:

stcoxcheck, graph

Lệnh này sẽ kiểm tra các giả định của phân tích hồi quy Cox và vẽ các đồ thị để mô tả kết quả. Nếu các giả định của phân tích không được đáp ứng, chúng ta cần thực hiện các điều chỉnh để cải thiện mô hình.

Bước 7: Tính toán các hệ số hồi quy Cox và giá trị p bằng cách sử dụng lệnh estat:

estat phtest

Lệnh này sẽ tính toán hệ số phương sai của các hệ số hồi quy Cox và giá trị p tương ứng.

Bước 8: Tính toán khoảng tin cậy 95% cho các hệ số hồi quy Cox bằng cách sử dụng lệnh estat ci:

estat ci, level(95)

Lệnh này sẽ tính toán khoảng tin cậy cho các hệ số hồi quy Cox với mức độ tin cậy là 95%.

Bước 9: Kiểm tra sự phù hợp của mô hình bằng cách sử dụng lệnh estat concordance:

estat concordance

Lệnh này sẽ tính toán chỉ số C, viết tắt là C-index, (concordance index) để đánh giá khả năng dự đoán của mô hình. Giá trị của C-index càng gần 1 thì mô hình càng tốt trong việc dự đoán thời gian sống sót của bệnh nhân.

Tổng kết

Khi thực hiện phân tích survival analysis, cần lưu ý một số điểm sau:

  • Kiểm tra tính phân phối của thời gian sống sót: Trước khi áp dụng bất kỳ phương pháp phân tích survival analysis nào, cần kiểm tra tính phân phối của thời gian sống sót. Nếu phân phối đối xứng và ít giá trị bị censored (được theo dõi đến hết thời gian sống sót), phương pháp phân tích tỉ lệ nguy cơ Cox, CPH có thể được sử dụng. Nếu phân phối không đối xứng hoặc có nhiều giá trị bị kiểm duyệt, cần sử dụng các phương pháp khác như Kaplan-Meier hay log-rank test.
  • Xác định các yếu tố ảnh hưởng đến sự sống sót: Các yếu tố ảnh hưởng đến sự sống sót có thể bao gồm tuổi, giới tính, tình trạng hôn nhân, đặc tính bệnh lý, tình trạng điều trị và các biến liên quan. Các yếu tố này có thể được xác định bằng cách sử dụng các phương pháp phân tích survival analysis như CPH.
  • Đánh giá mô hình phân tích: Các mô hình phân tích survival analysis cần được đánh giá bằng cách sử dụng các chỉ số như log-likelihood, Akaike Information Criterion (AIC), Bayesian Information Criterion (BIC), và Concordance Index (C-index). Các chỉ số này giúp đánh giá tính chính xác của mô hình và giúp lựa chọn mô hình phù hợp nhất.
  • Kiểm tra giả định: Khi sử dụng các phương pháp phân tích survival analysis như Cox proportional hazards regression, cần kiểm tra các giả định như giả định về phân phối của biến độc lập, giả định về sự độc lập giữa các quan sát và giả định về đồng nhất của sức khỏe ban đầu.
  • Tạo biểu đồ: Các biểu đồ như Kaplan-Meier survival curves và forest plots có thể giúp trực quan hóa kết quả phân tích và giúp dễ dàng giải thích kết quả cho người đọc.

 

Back to top button