Mean Difference Là Gì, Nghĩa Của Từ Mean Difference, Nghĩa Của Từ Mean Difference Trong Tiếng Việt

Related Articles

Đây là bài dịch tiếng Việt của mình về một bài viết rất hay giải thích ý nghĩa của phương pháp t-test (hay phương pháp kiểm định t – trong bài viết mình chỉ gọi là t-test cho ngắn gọn) của tác giả Patrick Runkel. Bài gốc bằng tiếng Anh có tên đầy đủ là “What Is a t-test? And Why Is It Like Telling a Kid to Clean Up that Mess in the Kitchen?” và các bạn có thể đọc bài gốc tại đây.

Bạn đang xem : Mean difference là gì

Phương pháp t-test là một trong những thủ tục được sử dụng phổ biến nhất trong khoa học thống kê.

Nhưng thậm chí còn những người sử dụng t-test một cách liên tục cũng không biết đúng chuẩn giải pháp này hoạt động giải trí như thế nào bởi tổng thể những tài liệu đều được giải quyết và xử lý sau tấm màn che của những ứng dụng thống kê, ví dụ như Minitab .Và thật là đáng để tất cả chúng ta bỏ một chút ít thời hạn để xem chiêu thức t-test hoạt động giải trí như thế nào ở đằng sau tấm màn che đó .Bởi vì nếu bạn hiểu được cách chiêu thức t-test hoạt động giải trí, bạn hoàn toàn có thể hiểu ở một mức độ sâu hơn về tài liệu của bạn dựa trên tác dụng mà giải pháp t-test mang lại. Và bạn cũng hiểu sâu hơn tại sao hiệu quả điều tra và nghiên cứu của bạn đạt được ( hoặc không đạt được ) “ ý nghĩa thống kê ” ( statistical significant ) .Thực tế là nếu bạn có một đứa con đang trong tuổi teen thích ăn chơi nhiều hơn là thích thao tác nhà thì có lẽ rằng là bạn đã có một thưởng thức giống như những nguyên tắc cơ bản đằng sau giải pháp t-test .*

Giải phẫu phương pháp t-test

Phương pháp t-test được dùng một cách phổ cập để xác lập xem liệu giá trị trung bình của một quần thể ( the mean of a population ) có độc lạ với một giá trị nào đó ( gọi là giá trị trung bình giả thuyết – a hypothesized mean ) hoặc với giá trị trung bình của một quần thể khác .

Ví dụ, phương pháp 1-sample t-test (hay phương pháp kiểm định t cho một mẫu) được dùng để kiểm định xem liệu thời gian chờ trung bình của các bệnh nhân trong một phòng khám y khoa có lâu hơn so với thời gian mong muốn là 15 phút hay không, dựa trên dữ liệu từ một nhóm ngẫu nhiên các bệnh nhân.

Để xác lập xem liệu sự độc lạ ( giữa thời hạn chờ trong thực tiễn và thời hạn mong ước ) có ý nghĩa thống kê hay không, giải pháp t-test sẽ đo lường và thống kê một giá trị gọi là t-value ( giá trị p-value nổi tiếng cũng được lấy trực tiếp từ t-value ). Giá trị này được tính như sau :

t = frac{bar{x} – mu _{0}}{frac{s}{sqrt{n}}}

Công thức toán học này trông có vẻ như bí hiểm nhưng thực ra bạn trọn vẹn hoàn toàn có thể làm chủ được nó nếu bạn hiểu được hai động lực quan trọng đằng sau nó : phần tử số ( ở phía trên ) và phần mẫu số ( ở phía dưới ) .

Phần tử số là Tín Hiệu

Phần tử số trong công thức 1-sample t-test đo lường độ mạnh của tín hiệu (signal): sự khác biệt giữa giá trị trung bình của mẫu dữ liệu của bạn (bar{x}) và giá trị trung bình giả thuyết của quần thể (mu_{0}).

*Trở lại với ví dụ về thời hạn chờ của những bệnh nhân, giá trị trung bình giả thuyết là 15 phút .

Nếu các bệnh nhân trong mẫu dữ liệu ngẫu nhiên của bạn có thời gian chờ trung bình là 15.1 phút, tín hiệu bằng 15.1 – 15 = 0.1 phút. Giá trị khác biệt này tương đối nhỏ, do vậy tín hiệu ở phần tử số thì yếu.

Tuy nhiên, nếu thời gian chờ trung bình của bệnh nhân là 68 phút, sự khác biệt sẽ lớn hơn và bằng 68-15=53 phút. Do vậy, tín hiệu sẽ mạnh hơn.

Xem thêm : Lk Xuân Này Con Sẽ Về Mẹ Ở Đâu, Thư Xuân Hải Ngoại, Xuân Này Con Về Mẹ Ở Đâu

Phần mẫu số là Nhiễu

Phần mẫu số thống kê giám sát mức độ xê dịch hay “ nhiễu ” ( noise ) trong mẫu tài liệu của bạn .

*Kí hiệu*s càng lớn, mức độ nhiễu trong dữ liệu của bạn càng lớn. Mặc khác, nếu bạn có một bệnh nhân chờ 14 phút, một người khác chờ 16 phút, một bệnh nhân khác chờ 12 phút, thì có thể nói rằng dữ liệu của bạn có ít dao động. Điều này có nghĩa rằng nếu giá trị s càng nhỏ thì dữ liệu của bạn sẽ ít “nhiễu” hơn.là độ lệch chuẩn ( standard deviation ) – miêu tả mức xê dịch trong tài liệu của bạn. Nếu bạn có một bệnh nhân chờ 50 phút, một bệnh nhân khác chờ 12 phút, một người khác nữa chờ 0.5 phút, một người khác nữa chờ 175 phút, … thì hoàn toàn có thể nói rằng tài liệu của bạn có rất nhiều giao động. Điều này có nghĩa rằng nếu giá trịcàng lớn, mức độ nhiễu trong tài liệu của bạn càng lớn. Mặc khác, nếu bạn có một bệnh nhân chờ 14 phút, một người khác chờ 16 phút, một bệnh nhân khác chờ 12 phút, thì hoàn toàn có thể nói rằng tài liệu của bạn có ít giao động. Điều này có nghĩa rằng nếu giá trịcàng nhỏ thì tài liệu của bạn sẽ ít “ nhiễu ” hơn .

Còn kí hiệu sqrt{n} ở phía dưới s có ý nghĩa là gì? Đó là căn bậc hai kích thước mẫu dữ liệu của bạn (ví dụ nếu mẫu của bạn có 30 người thì n = 30). Nếu mọi thứ đều bằng nhau thì dữ liệu của bạn sẽ bị nhiễu nhiều hơn nếu kích thước mẫu dữ liệu của bạn nhỏ và sẽ ít nhiễu hơn nếu kích thước mẫu dữ liệu của bạn lớn.

Giá trị t-value là tỉ lệ của Tín Hiệu so với Nhiễu

Công thức phía trên cho thấy t-value đơn thuần là so sánh độ mạnh của tín hiệu với độ nhiễu trong mẫu tài liệu của bạn .Nếu tín hiệu tương đối yếu so với mức độ nhiễu thì t-value sẽ nhỏ hơn. Do đó mức độ độc lạ sẽ ít có năng lực có ý nghĩa thống kê .*

Ở biểu đồ bên phải của hình phía trên, sự khác biệt giữa giá trị trung bình của dữ liệu bar{x} và giá trị trung bình giả thuyết mu_{0} là 16 phút. Nhưng bởi vì các dữ liệu trong mẫu bị trải rộng ra nên sự khác biệt này không có ý nghĩa thống kê. Tại sao lại như vậy? Bởi vì t – value — tỉ lệ giữa tín hiệu và nhiễu — thì tương đối bé do mẫu số lớn.

Tuy nhiên, nếu tín hiệu thì mạnh tương đối so với nhiễu, kích thước (tuyệt đối) của t-value sẽ lớn hơn. Do đó, sự khác biệt giữa bar{x}mu_{0} sẽ có nhiều khả năng có ý nghĩa thống kê hơn.

*

Ở hình trên, sự khác biệt giữa bar{x}mu_{0} cũng là 16 phút. Kích thước dữ liệu cũng bằng nhau. Nhưng lần này, các điểm dữ liệu co cụm lại gần nhau hơn. Vì dữ liệu ít dao động hơn, nên sự khác biệt của 16 phút giờ đây lại mang ý nghĩa thống kê.

Thông điệp về ý nghĩa thống kê

Phương pháp t-test là như thế nào với việc bảo nhóc teenager nhà bạn đi lau nhà bếp ?Nếu như nhóc teenager đang nghe nhạc, đang chơi video game, gửi tin nhắn cho bạn hữu, hoặc bị sao nhãng bởi những nguồn “ nhiễu ” khác, bạn cần phải nói to hơn và mạnh hơn để hoàn toàn có thể đạt được mức “ ý nghĩa ”. Hoặc nếu bạn hoàn toàn có thể xóa bỏ được những nguồn nhiễu thì bạn trọn vẹn không cần phải ăn to nói lớn với nhóc teenager nhà bạn .Một cách tương tự như, nếu như tác dụng t-test của bạn không đạt được ý nghĩa thống kê thì hoàn toàn có thể là do một trong những nguyên do sau đây :Độ khác biệt (tín hiệu) là chưa đủ lớn. Bạn không thể làm gì được hơn nếu điều này xảy ra, giả sử rằng nghiên cứu của bạn sử dụng đúng phương pháp và mẫu dữ liệu mà bạn thu thập mang tính đại diện cho quần thể.Độ dao động dữ liệu (nhiễu) quá lớn. Đây là lý do tại sao việc remove các điểm bất thường (outlier) trong dữ liệu của bạn là điều rất quan trọng. Bạn có thể dùng control chart để phát hiện và loại trừ các điểm outlier ra khỏi dữ liệu trước khi thực hiện t-test.Mẫu dữ liệu quá nhỏ. Mức độ dao động sẽ nhỏ đi nếu kích thước dữ liệu lớn. Điều này có nghĩa là nếu có cùng một độ khác biệt và cùng một giá trị dao động, nếu kích thước dữ liệu càng lớn thì càng có khả năng đạt được ý nghĩa thống kê – như biểu đồ bên dưới.. Bạn không hề làm gì được hơn nếu điều này xảy ra, giả sử rằng điều tra và nghiên cứu của bạn sử dụng đúng giải pháp và mẫu tài liệu mà bạn tích lũy mang tính đại diện thay mặt cho quần thể .. Đây là nguyên do tại sao việc remove những điểm không bình thường ( outlier ) trong tài liệu của bạn là điều rất quan trọng. Bạn hoàn toàn có thể dùng control chart để phát hiện và loại trừ những điểm outlier ra khỏi tài liệu trước khi triển khai t-test .. Mức độ xê dịch sẽ nhỏ đi nếu kích cỡ tài liệu lớn. Điều này có nghĩa là nếu có cùng một độ độc lạ và cùng một giá trị giao động, nếu size tài liệu càng lớn thì càng có năng lực đạt được ý nghĩa thống kê – như biểu đồ bên dưới .*

( Điều này giải thích tại sao một mẫu dữ liệu có kích thước cực lớn có thể tạo ra được ý nghĩa thống kê mặc dù độ khác biệt rất nhỏ và hoàn toàn không có ảnh hưởng thực tế.)

Công thức này cũng lý giải tại sao những nhà thống kê học lại than vãn trong phản ứng với ngôn từ nhiều lúc được sử dụng để Tóm lại về một hiệu quả t-test. Ví dụ, một tác dụng t-test không mong đợi sẽ được phát biểu : “ There is no significant difference … ”Không nhất thiết phải như vậy …Thực tế là hoàn toàn có thể có một độ độc lạ mang ý nghĩa. Nhưng hoàn toàn có thể chính bới mẫu tài liệu của bạn quá nhỏ, hoặc hoàn toàn có thể độ xê dịch của những điểm tài liệu quá lớn làm cho điều tra và nghiên cứu của bạn không bộc lộ được ý nghĩa thống kê. Bạn hoàn toàn có thể phát biểu một cách bảo đảm an toàn hơn rằng : “ Nghiên cứu của chúng tôi đã không tìm thấy chứng cứ của một độ độc lạ mang ý nghĩa thống kê. ”

More on this topic

Comments

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Advertismentspot_img

Popular stories