Độ Chính Xác Trong Xác Suất Thống Kê Là Gì

  -  

Bài này nhằm tìm hiểu sâu hơn về Suy luận Thống kê (Statistical Inference), trong đó, cố gắng hiểu hơn về bản chất, ý nghĩa của môn...

Bạn đang xem: độ chính xác trong xác suất thống kê là gì

Bạn đang xem: độ chính xác trong xác suất thống kê là gì


*

Bài này nhằm tìm hiểu sâu hơn về Suy luận Thống kê (Statistical Inference), trong đó, cố gắng hiểu hơn về bản chất, ý nghĩa của môn học Thống kê trong ứng dụng giải quyết các bài toán thực tế trong cuộc sống, cũng như, làm rõ các khái niệm cơ bản nhưng dễ nhầm lẫn, như mô hình xác suất, mô hình thống kê, phân phối xác suất, ...Mình lược dịch Chương 5. Suy luận Thống kê của quyển sách Probability and Statistics: The Science of Uncertainty (Link cuối bài). Đồng thời, bài viết cũng bổ sung, tổng hợp thêm các kiến thức liên quan (để sách tham khảo cuối bài), ví dụ, phần 0 của bài là nhắc lại khái niệm, các thuật ngữ về Xác suất.Phần 0. Đôi nét về Xác suấtPhần 1. Ý nghĩa của Thống kêPhần 2. Kiểm định sử dụng mô hình Xác suấtPhần 3. Mô hình thống kêPhần 4. Thu thập dữ liệuPhần 5. Một vài kiểm định cơ bảnXác suất là việc định lượng khả năng sẽ xảy ra của một sự kiện trong cuộc sống, dựa trên các quy tắc toán học để dự báo, ước lượng. Nói cách khác, xác suất đo đạc mức độ không chắc chắn (uncertainty) của một sự kiện."Khả năng hôm nay trời mưa là 30%" là một nhận định mà định lượng cảm nhận về khả năng trời mưa. Xác suất luôn được gán cho một số từ khoảng (hoặc tỷ lệ phần trăm từ 0 đến 100%). Con số cao hơn cho thấy kết quả có nhiều khả năng hơn con số thấp hơn. 0 cho biết kết quả sẽ không xảy ra. Xác suất 1 cho thấy kết quả chắc chắn sẽ xảy ra.Có 3 phương pháp chủ yếu để gán xác định xác suất cho một kết quả, sự kiện, đó là:phương pháp cổ điển (classical method), tần suất tương đối (relative frequency method) và phương pháp chủ quan (subjective method).Phương pháp cổ điển để gán xác suất là phù hợp khi tất cả các kết quả đều có khả năng xảy ra như nhau. Nếu có thể xay ra n kết quả thử nghiệm, từng kết quả thử nghiệm có xác suất là 1 / n.Phương pháp tần suất tương đối được sử dụng khi dữ liệu có sẵn để ước tính số lần kết quả thử nghiệm sẽ xảy ra nếu thí nghiệm được lặp đi lặp lại rất nhiều lần. Ví dụ, khi ta tung đồng xu đến hàng ngàn lần, thì xác suất để đồng xu ở mặt ngửa là 0.5. Dù cách hiểu theo lối tần suất này dễ hiểu, nhưng hạn chế ở điểm: không phải sự kiện nào trong cuộc sống cũng có thể lặp đi lặp lại (ví dụ, xác suất để A được bầu chọn làm Tổng thống).Phương pháp chủ quan là thích hợp nhất trong trường hợp không thể thực tế cho rằng các kết quả thử nghiệm có khả năng như nhau và khi có ít dữ liệu liên quan. Khi phương pháp chủ quan được sử dụng để gán xác suất cho kết quả thử nghiệm, ta có thể sử dụng bất kỳ thông tin nào có sẵn, chẳng hạn như kinh nghiệm hoặc trực giác của mình. Sau khi xem xét tất cả các thông tin có sẵn, chỉ định một giá trị xác suất thể hiện mức độ tin tưởng (degreeof belief) (trên thang điểm từ 0 đến 1) rằng kết quả thử nghiệm sẽ xảy ra. Bởi vì xác suất chủ quan thể hiện mức độ niềm tin của một người, nó mang tính cá nhân. Sử dụng phương pháp chủ quan, những người khác nhau có thể được dự kiến sẽ gán các xác suất khác nhau cho cùng một kết quả thử nghiệm.Lý thuyết về xác suất giúp ta có thể đưa ra quyết định tốt hơn trong các điều kiện bất định trong cuộc sống.Không gian mẫu rời rạc (discreet)bao gồm hữu hạn các phần tử và không gian mẫuliên tục (continuous)bao gồm vô hạn các phần tử. Ví dụ, không gian mẫu về thời tiết là hữu hạn, nhưng không gian mẫu về chiều cao của dân số Việt Nam là liên tục.Ví dụ, không gian mẫu {nắng, mưa, âm u} có sự kiện {nắng}, {mưa}, {âm u}, {nắng, âm u}, {mưa, âm u}, {nắng, mưa}, {nắng, mưa, âm u}.+ Phép đo xác suất (Probability measure): thể hiện xác suất của các sự kiện. Phép đo xác suất, hay phân phối xác suất (probability distribution) là một hàm P mà gán một số thực P(A) cho mỗi sự kiện A. Ta sẽ tìm hiểu kĩ hơn ở mục 0.4. phương pháp cổ điển, tần suất tương đối và phương pháp chủ quan.Biến ngẫu nhiên của một mô hình xác suất là một hàm gắn 1 giá trị số (numeric value) cho một giá trị trong không gian mẫu. Ví dụ, gọi X là hàm số giới tính của người dân thành phố A. Không gian mẫu (gần như là tập xác định của hàm số) là {Nam, Nữ, Khác}. Khi đó, ta có X(Nam) = 2 triệu, X(Nữ) = 2.5 triệu, X(Khá) = 0.3 triệu. Hay ta có thể viết, Dân_số_VN(Nam) = 2 triệu; Dân_số_VN(Nữ) = 2.5 triệu. Hoặc theo cách khác, f(x)= Dân_số_VN. f(Nam) = 2 triệu; f(Nữ) = 2.5 triệu.Ví dụ. S = {nắng, mưa, âm u}.

Xem thêm: Cập Nhật Lịch Mdcs Mùa Hè 2021, Lịch Thi Đấu King Of Sea Và Mdcs Mùa

Gắn X là thời tiết trong tuần. X(nắng) = 3; X(mưa) = 2; X(âm u) = 2; X = 3 khi trời nắng; X = 2 khi trời mưa, và X = 2 khi trời âm u. Nếu P(mưa) = 0.4; P(nắng) = 0.3; P(âm u) = 0.3. Thi P(X = 3) = P(nắng) = 0.4; P(X=4) = P(mưa) = 0.4; P(X=-1) = P(âm u) = 0.3.Một ví dụ khác, lật một đồng xu hai lần và gọi X là số lượng mặt ngửa. Sau đó, P (X = 0) = P ({X X}) = 1/4, P (X = 1) = P ({XN, NX}) = 1/2 và P (X = 2) = P ({HH}) = 1/4.

Xem thêm: Chương Trình: Nhận Ngay Quà Tặng Khi Like Và Share Để Nhận Quà Liền Tay

Xác suất thống kê - Kiểm định giả thuyết (Phần I)Bài viết gửi bởi kemmanolic trong mục Khoa học - Công nghệonaga.vnNhắc lại, Phân phối xác suất hay phép đo xác suất của biến ngẫu nhiên X là sự mô tả xác suất của các giá trị có thể có của X. Hay có thể nói, là của hàm số X (với biến số là kết quả đầu ra). Một cách định nghĩa khác, phép đo xác suất, hay phân phối xác suất là một hàm P mà gán một số thực P(A) cho mỗi sự kiện A. Như vậy, phân phối xác suất là một hàm số, mà "biến" một giá trị của hàm số X với một giá trị xác suất tương ứng nằm trong khoảng .Người ta sử dụng hàm phân phối dồn tích (cumulative distribution functions, CDF) để mô tả phân phối xác suất của biến ngẫu nhiên.Ngoài ra, người ta còn sử dụng hàm xác suất (probability function),đối vớibiến ngẫu nhiên rời rạc, thì gọi là probability mass function,đối với biến liên tụchàm mật độ xác suất (probability density function). Xác suất này được biểu trưng bởi tích phân, tức là phần diện tích dưới hàm mật độ xác suất. Do đó, xác suất để X tại một điểm bất kì bằng 0, còn xác suất để X thuộc khoảng (a; b) là tích phân của hàm mật độ xác suất từ a tới b.Probability mass function của một biến ngẫu nhiên rời rạc là sự thay đổi của CDF tại một giá trị xác định. Đối với biến liên tục, hàm mật độ xác suất là đạo hàm của hàm CDF. (Đọc thêm tại Applied Statisticsfor Engineering).Đối với biến ngẫu nhiên, bất kể rời rạc hay liên tục, người ta quan tâm tới các tham số, như giá trị trung bình (mean), hay giá trị kì vọng (expected value), phương sai (variance) và độ lệch chuẩn (standard deviation) của biến ngẫu nhiên đó. Đồng thời, ta cũng quan tâm tới các dạng phân phối xác suất điển hình, được sử dụng rộng rãi trong Thống kê, như phân phối chuẩn (normal distribution), phân phối chi-bình phương (chi-square distribution).Cùng tìm hiểu ví dụ về Nghiên cứu sự hiệu quả của chương trình ghép tim của Đại học Stanford. Nghiên cứu này nhằm kết luận xem liệu chương trình ghép tim của Đại học Stanford có mang lại hiệu quả như đã dự định không, tức là gia tăng tuổi thọ của bệnh nhân. Nói cách khác, câu hỏi nghiên cứu đề ra là, liệu một bệnh nhân được ghép tim có sống lâu hơn so với một bệnh nhân không được ghép tim hay không.Khi cân nhắc chấp nhận một phương pháp điều trị y tế mới được đề xuất cho một căn bệnh, ta cần xem xét các yêu tố như những cải thiện của phương pháp điều trị, chi phí, cũng như đau đớn sẽ gây ra thêm cho bệnh nhân. Nếu phương pháp điều trị mới chỉ tạo ra một cải tiến nhỏ, thì có thể không có giá trị nếu nó rất tốn kém hoặc gây thêm nhiều đau đớn cho bệnh nhân.Ta không bao giờ có thể biết liệu một bệnh nhân đã nhận được trái tim mới có sống lâu hơn vì cấy ghép so với việc không thực hiện cấy ghép hay không. Vì vậy, hy vọng duy nhất trong việc xác định sự hiệu quả của phương pháp điều trị có hiệu quả là so sánh tuổi thọ của bệnh nhân đã được ghép tim mới với tuổi thọ của bệnh nhân không cấy ghép. Tuổi thọ của một bệnh nhân bị ảnh hưởng bởi nhiều yếu tố, nhiều trong số đó sẽ không liên quan gì đến sức khỏe của tim. Ví dụ, mỗi bệnh nhân có sự sai khác rất nhiều về lối sống hay mắc các bệnh lý khác, và điều này sẽ có ảnh hưởng lớn tới sự sai khác về tuổi thọ giữa các bệnh nhân. Vậy làm thế nào để có thể so sánh, trả lời câu hỏi nghiên cứu đã đặt ra?Một cách tiếp cận vấn đề này là tưởng tượng rằng có phân phối xác suất (probability distribution) mô tả tuổi thọ của hai nhóm bệnh nhân. Gọi mật độ fT và fC là phân phối xác suất của 2 nhóm, trong đó T biểu thị cho nhóm được cấy ghép và C biểu thị cho nhóm không được ghép. Ở đây, dùng nhãn C bởi vì nhóm này được coi là một kiểm soát (control) trong nghiên cứu để đưa ra một số so sánh với việc điều trị (ghép tim). Sau đó, coi tuổi thọ của một bệnh nhân được cấy ghép như một quan sát ngẫu nhiên từ fT và tuổi thọ của một bệnh nhân không được cấy ghép như một quan sát ngẫu nhiên từ fC. Do vậy, ta muốn so sánh fT và fC để xác định liệu cấy ghép có hiệu quả hay không. Ví dụ, ta có thể tính và so sánh tuổi thọ trung bình của mỗi phân phối. Nếu tuổi thọ trung bình của fT lớn hơn fC, thì có thể khẳng định rằng việc điều trị là hiệu quả. Tất nhiên, ta vẫn sẽ phải đánh giá liệu cải tiến có đủ lớn để vượt qua chi phí tăng thêm và tăng phần đau đớn của bệnh nhân hay không.Nếu chúng ta có thể có một số lượng lớn các quan sát tùy ý từ fT và fC, thì ta có thể xác định các phân phối này với độ chính xác cao. Tuy nhiên, trong thực tế, ta bị hạn chế với một số lượng quan sát tương đối nhỏ. Ví dụ, trong nghiên cứu được trích dẫn có 30 bệnh nhân trong nhóm người không được cấy ghép và 52 bệnh nhân trong nhóm người đã được cấy ghép.Đối với mỗi bệnh nhân không được cấy ghép, giá trị của X - số ngày họ còn sống sau ngày họ được xác định là ứng viên cho ca ghép tim cho đến khi ngày kết thúc nghiên cứu - đã được ghi lại. Vì nhiều lý do, những bệnh nhân này đã làm không nhận được trái tim mới, ví dụ, họ đã chết trước khi một trái tim mới có thể được tìm thấy cho họ. Những dữ liệu này, cùng với một chỉ báo về tình trạng của bệnh nhân khi chấm dứt ngày nghiên cứu, được trình bày trong Bảng 5.1. Giá trị chỉ báo S = a biểu thị rằng Bệnh nhân còn sống khi kết thúc nghiên cứu và S = d biểu thị rằng bệnh nhân đã chết.