Phân bố chuẩn
Bách khoa toàn thư mở Wikipedia
Hàm mật độ xác suất![]() Đường màu xanh lá cây là phân bố chuẩn chuẩn hóa |
|
Hàm phân bố tích lũy![]() Màu sắc tương ứng với hình trên |
|
Tham số | μ cho biết vị trí (thực) σ2 > 0 bình phương tỉ lệ (thực) |
Giá | ![]() |
Hàm mật độ xác suất | ![]() |
Hàm phân bố tích lũy | ![]() |
Giá trị kỳ vọng | μ |
Trung vị | μ |
Mode | μ |
Phương sai | σ2 |
Độ xiên (skewness) | 0 |
Độ nhọn (kurtosis) | 0 |
Entropy | ![]() |
Hàm sinh mômen | ![]() |
Hàm đặc trưng | ![]() |
Phân bố chuẩn, còn gọi là phân bố Gauss, là một phân bố xác suất cực kì quan trong trọng trong nhiều lĩnh vực. Nó là họ phân bố có dạng tổng quát giống nhau, chỉ khác tham số vị trí và tỉ lệ: trung bình ("mean") và độ lệch chuẩn ("variability"), tương ứng. Phân bố chuẩn chuẩn hóa (tiếng Anh: standard normal distribution) là phân bố chuẩn với mean là 0 và độ lệch chuẩn là 1 (đường cong màu xanh vẽ bên phải). Ta còn gọi là đường cong chuông (tiếng Anh: bell curve) vì đồ thị của mật độ xác suất có dạng chuông.
Mục lục |
[sửa] Lịch sử
Phân bố chuẩn đưa ra lần đầu bởi Abraham de Moivre trong bài báo năm 1734 (được in lại trong ấn bản lần 2 The Doctrine of Chances, 1738) khi muốn xấp xỉ một phân bố nhị phân với n lớn. Kết quả được mở rộng bởi Laplace trong cuốn sách Analytical Theory of Probabilities (1812), và bây giờ gọi là định lý Moivre-Laplace.
Laplace dùng phân bố chuẩn để phân tích sai số các thử nghiệm. Phương pháp quan trọng bình phương cực tiểu được giới thiệu bởi Legendre năm 1805. Gauss, người tuyên bố đã từng sử dụng phương pháp này từ năm 1794, giả sử rằng có phân bố chuẩn trong sai số.
Tên gọi "đường cong chuông" do Jouffret, người đầu tiên dùng thuật ngữ "bề mặt chuông" năm 1872 cho phân bố chuẩn nhị thành phần với các thành phần là độc lập. Tên gọi "phân bố chuẩn" được tạo ra bởi Charles S. Peirce, Francis Galton và Wilhelm Lexis khoảng năm 1875.
Việc phân bố được gọi là chuẩn hay Gauss là do định luật lấy tên người đặt tên của Stigler (Stigler's law of eponymy): "Không có khám phá khoa học nào được đặt tên bởi người đầu tiên tìm ra nó." (No scientific discovery is named after its original discoverer)
[sửa] Đặc tính của phân bố chuẩn
Có nhiều cách để chỉ định một biến ngẫu nhiên. Cách dễ thấy nhất là thông qua hàm mật độ xác suất (vẻ ở hình đầu tiên), cho biết khả năng xảy ra của mỗi giá trị của biến ngẫu nhiên. Hàm phân bố tích lũy cũng cho cùng thông tin, nhưng hình ảnh của nó thì thông tin chứa đựng không được dễ nhận thấy cho lắm (hình đi sau). Các cách tương đương khi chỉ định một phân bố chuẩn là thông qua: mômen, ước lượng, hàm đặc trưng, hàm khởi tạo mômen, và hàm khởi tạo ước lượng và định lí Maxwell. Một số rất hữu ích về mặt lí thuyết, nhưng không trực quan. Xem phân bố xác suất.
Mọi ước lượng của phân bố chuẩn đều bằng 0, ngoại trừ 2 cái đầu tiên.
[sửa] Hàm mật độ xác suất
Hàm mật độ xác suất của phân bố chuẩn với trung bình μ và phương sai σ2 (hay, độ lệch chuẩn σ) là một ví dụ của một hàm Gauss,
(Xem thêm hàm lũy thừa và pi.)
Nếu một biến ngẫu nhiên X có phân bố này, ta kí hiệu là X ~ N(μ,σ2). Nếu μ = 0 và σ = 1, phân bố được gọi là phân bố chuẩn chuẩn hóa và hàm mật độ xác suất rút gọn thành
Hình ảnh bên phải cho thấy hàm mật độ xác suất cho phân bố chuẩn với các tham số khác nhau.
Một số tính chất với phân bố chuẩn:
- Hàm mật độ là đối xứng qua giá trị trung bình.
- Trị trng bình cũng là mode và trung vị của nó.
- 68.26894921371% của diện tích dưới đường cong là nằm trong độ lệch chuẩn 1 tính từ trị trung bình.
- 95.44997361036% của diện tích dưới đường cong là nằm trong độ lệch chuẩn 2.
- 99.73002039367% của diện tích dưới đường cong là nằm trong độ lệch chuẩn 3.
- 99.99366575163% của diện tích dưới đường cong là nằm trong độ lệch chuẩn 4.
- 99.99994266969% của diện tích dưới đường cong là nằm trong độ lệch chuẩn 5.
- 99.99999980268% của diện tích dưới đường cong là nằm trong độ lệch chuẩn 6.
- 99.99999999974% của diện tích dưới đường cong là nằm trong độ lệch chuẩn 7.
Điểm uốn của đường cong xảy ra tại độ lệch chuẩn 1 tính từ trị trung bình.
[sửa] Hàm phân bố tích lũy
Hàm phân bố tích lũy (cdf) chính là xác suất để một biến X có giá trị nhỏ hơn hay bằng x, và nó được biểu diễn dưới dạng hàm mật độ sau:
Hàm cdf chuẩn chuẩn hóa, qui ước viết là Φ, chỉ là từ dạng cdf tổng quát và được tính với μ = 0 và σ = 1,
Hàm cdf chuẩn hóa có thể được biểu diễn dưới dạng một hàm đặc biệt gọi là hàm sai số, như sau
Hầm cdf nghịch đảo, hay hàm "quantile", có thể được biểu dưới dạng nghịch đảo của hàm sai số:
Hàm "quantile" này đôi khi còn gọi là hàm "probit". Hàm "probit" không có nguyên hàm. Không có ở đây không phải là không tìm thấy, mà nghĩa là người ta chứng minh rằng không tồn tại một nguyên hàm như vậy
Giá trị của hàm Φ(x) có thể xấp xỉ một cách chính xác bằng nhiều phương pháp khác nhau, như tích phân số, chuỗi Taylor, hay chuỗi tiệm cận.
[sửa] Hàm khởi tạo
[sửa] Hàm khởi tạo Mômen
Hàm khởi tạo mômen được định nghĩa là giá trị kỳ vọng của exp(tX). Với phân bố chuẩn, hàm được viết thành
và có thể thấy bằng cách khai triển biểu thức trong ngoặc thành bình phương đúng.
[sửa] Hàm đặc trưng
Hàm đặc trưng được định nghĩa là giá trị kì vọng của exp(itX), với i là phẩn ảo đơn vị. Với phân bố chuẩn, hàm đặc trưng được viết thành
Hàm đặc trưng được tính bằng cách thay thế t cho it trong hàm khởi tạo mômen.
[sửa] Tính chất
Một số tính chất của phân bố chuẩn:
- Nếu X˜N(μ,σ2) và a và b là các số thực, thì aX + b˜N(aμ + b,(aσ)2) (xem giá trị kì vọng và phương sai).
- Nếu
và
là các biến ngẫu nhiên chuẩn độc lập, thì:
- Tổng của chúng là có phân bố chuẩn với
(proof).
- Hiệu của chúng là có phân bố chuẩn với
.
- Cả hai U và V là độc lập với nhau.
- Tổng của chúng là có phân bố chuẩn với
- Nếu
và
là các biến ngẫu nhiên chuẩn độc lập, thì:
- Tích của chúng XY tuân theo phân bố với hàm mật độ p cho bởi
với K0 là hàm Bessel được chỉnh sửa loại 2.
- Tỉ số giữa chúng tuân theo phân bố Cauchy với X / Y˜Cauchy(0,σX / σY).
- Tích của chúng XY tuân theo phân bố với hàm mật độ p cho bởi
- Nếu
là các biến ngẫu nhiên chuẩn chuẩn hóa độc lập, thì
có phân bố chi-bình phương với n bậc tự do.
[sửa] Chuẩn hóa biến ngẫu nhiên có phân phối chuẩn
Một hệ quả của Tính chất 1 là ta có thể quy mọi biến ngẫu nhiên phân bố chuẩn về dạng phân bố chuẩn hóa.
Nếu X ~ N(μ,σ2), thì
là một biến có phân bố chuẩn hóa: Z ~ N(0,1). Từ đó lại dẫn đến một hệ quả quan trọng là hàm phân bố tích lũy của một phân phối chuẩn nói chung sẽ là:
Ngược lại, nếu Z ~ N(0,1), thì
- X = σZ + μ
là một biến ngẫu nhiên có phân bố chuẩn với trị trung bình μ và phương sai σ2.
Giá trị của phân bố chuẩn hóa đã được lập thành bảng, và các phân bố chuẩn khác đều là các dạng biến đổi đơn giản từ phân bố chuẩn hóa. Do đó, có thể tra bảng giá trị phân bố tích lũy của hàm phân bố chuẩn hóa để tính các giá trị phân bố tích lũy của phân bố chuẩn.
[sửa] Mô-men
Một số mô-men bậc nhỏ của phân bố chuẩn:
Number | Raw moment | Central moment | Cumulant |
---|---|---|---|
0 | 1 | 0 | |
1 | μ | 0 | μ |
2 | μ2 + σ2 | σ2 | σ2 |
3 | μ3 + 3μσ2 | 0 | 0 |
4 | μ4 + 6μ2σ2 + 3σ4 | 3σ4 | 0 |
Mọi ước lượng của phân bố chuẩn lớn hơn bậc hai đều bằng zero.
[sửa] Khởi tạo biến ngẫu nhiên có phân phối chuẩn
Khi mô phỏng bằng máy tính, người ta thường khởi tạo các giá trị số có phân phối chuẩn. Có nhiều cách và cách đơn giản nhất là chuyển ngược bằng hàm phân bố tích lũy chuẩn chuẩn hóa. Có nhiều phương pháp hiệu quả được dùng đến, một trong chúng là biến đổi Box-Muller.
Biến đổi Box-Muller nhận hai giá trị có phân phối đều làm đầu vào và ánh xạ chúng thành giá trị có phân phối chuẩn. Phương pháp này đòi hỏi phải khởi tạo giá trị từ phân phối đều, và có nhiều phương pháp như vậy. Xem thêm khởi tạo số ngẫu nhiên.
Biến đổi Box-Muller là dựa vào: phân phối chi-bình phương với hai bậc tự do (xem tính chất 4 ở trên) là một biến ngẫu nhiên lũy thừa có thể khởi tạo dễ dàng.
[sửa] Định lí giới hạn trung tâm
Phân bố chuẩn có một tính chất rất quan trọng là trong một số trường hợp nhất định, phân bố của tổng rất nhiều biến ngẫu nhiên độc lập sẽ có phân bố xấp xỉ chuẩn.
Đây là định lí giới hạn trung tâm.
Tầm quan trọng thực tiễn của định lí giới hạn trung tâm là phân bố chuẩn có thể được sử dụng như một xấp xỉ cho một số dạng phân bố khác.
- Một phân bố nhị thức với các tham số n và p được xấp xỉ chuẩn hóa đối với các giá trị lớn của n và p không quá gần 1 hoặc 0 (một số sách đề nghị sử dụng phép xấp xỉ này chỉ khi np và n(1 − p) đều lớn hơn hoặc bằng 5. Trong trường hợp này, cần phải hiệu chỉnh tính liên tục.
- Một phân bố Poisson với tham số λ được xấp xỉ chuẩn hóa đối với giá trị λ lớn. Phân phối chuẩn được xấp xỉ có trị trung bình μ = λ và phương sai σ2 = λ.
Việc các phép xấp xỉ trên đây có đạt được đủ độ chính xác hay không còn tùy thuộc vào mục đích sử dụng chúng và tốc độ hội tụ về phân phối chuẩn. Thường trong những truờng hợp nói trên, độ kém chính xác sẽ xảy ra ở đuôi của đường phân bố.
[sửa] Khả năng phân chia vô hạn
Phân bố chuẩn có khả năng phân chia vô hạn.
[sửa] Độ ổn định
Phân bố chuẩn là phân bố xác suất ổn định.
[sửa] Độ lệch chuẩn
Trong thực nghiệm, ta thường giả thiết rằng dữ liệu lấy từ tổng thể có dang phân bố xấp xỉ chuẩn. Nếu giả thiết này được kiểm chứng thì có khoảng 68% số giá trị nằm trong khoảng 1 độ lệch chuẩn so với trị trung bình, khoảng 95% số giá trị trong khoảng hai lần độ lệch chuẩn và khoảng 99.7% nằm trong khoảng 3 lần độ lệch chuẩn. Đó là "quy luật 68-95-99.7" hoặc quy tắc kinh nghiệm.
[sửa] Kiểm định giả thiết về phân phối chuẩn
Phép kiểm định cho ta biết một bộ số liệu cho trước có dạng phân bố tương tự phân bố chuẩn hay không. Giả thiết không là số liệu giống dạng phân bố chuẩn, do đó một giá trị P đủ nhỏ sẽ chứng tỏ dữ liệu không có phân bố chuẩn.
- Phép kiểm định Kolmogorov-Smirnov
- Phép kiểm định Lilliefors
- Phép kiểm định Anderson-Darling
- Phép kiểm định Ryan-Joiner
- Phép kiểm định Sapiro-Wilk
- Đường cong phân bố chuẩn (rankit plot)
- Phép kiểm định Jarque-Bera
[sửa] Các phân bố liên quan
- R˜Rayleigh(σ2) là một phân bố Rayleigh nếu
với X˜N(0,σ2) và Y˜N(0,σ2) là 2 phân bố chuẩn độc lập.
là một phân bố chi-bình phương với ν bậc tự do nếu
với Xk˜N(0,1) cho
và là độc lập
- Y˜Cauchy(μ = 0,θ = 1) là một phân bố Cauchy nếu Y = X1 / X2 và X1˜N(0,1) và X2˜N(0,1) là 2 phân bố chuẩn độc lập.
- Y˜Log-N(μ,σ2) là một phân bố log-normal nếu Y = exp(X) and X˜N(μ,σ2).
- Liên quan đến phân bố Lévy skew alpha-stable: nếu
thì X˜N(μ,σ2).
- Phân bố chuẩn rút gọn. Nếu, X˜N(μ,σ2) thì, việc rút gọn dưới tại A và trên tại B sẽ dẫn đến một biến ngẫu nhiên với mean
, trong đó
và
và
, trong đó
là hàm mật độ xác suất của biến ngẫu nhiên chuẩn chuẩn hóa.
[sửa] Ước lượng tham số
[sửa] Ước lượng hợp lí cực đại của các tham số
Giả sử
độc lập thống kê và mỗi biến đều có phân bố chuẩn với kì vọng μ và phương sai σ2. Theo ngôn ngữ thống kê, các giá trị quan trắc của các biến ngẫu nhiên này tạo thành một "mẫu từ tổng thể có phân bố chuẩn". Ta cần ước lượng "trị trung bình của tổng thể μ và độ lệch chuẩn của tổng thể σ, dựa trên các giá trị quan sát được cảu mẫu. Hàm mật độ xác suất liên hiệp của các biến ngẫu nhiên này là:
(Chú ý: Ở đây kí hiệu tỉ lệ có nghĩa là tỉ lệ như một hàm của μ và σ, chứ không phải tỉ lệ như một hàm của
. Điểu này có thể xem như là điểm khác biệt giữa quan điểm của các nhà thống kê và nhà xác suất. Lí do về tầm quan trọng của điểm khác nhau này sẽ được đề cập dưới đây.)
Hàm hợp lí - một hàm của μ và σ là
Trong phương pháp hợp lí cực đại, các giá trị của μ và σ làm cho hàm hợp lí đạt cực đại sẽ cho ta các giá trị của ước lượng các thông số μ và σ của tổng thể.
Thông thường trong khi cực đại hóa một hàm 2 biến ta có thể xét các đạo hàm riêng. Nhưng ở đây ta sẽ khai thác một đặc điểm là giá trị của μ làm cực đại hóa hàm hợp kí với σ là cố định, không phụ thuộc vào σ. Do đó, ta có thể tìm giá trị của μ, sau đó thay thế nó vào trong phương trình hợp lí, để cuối cùng thu được giá trị của σ làm cực đại biểu thức tìm được.
Rõ ràng là hàm hợp kí là một hàm giảm của tổng
Do đó ta muốn giá trị của μ làm cực tiểu hóa tổng này. Đặt:
là "trị trung bình mẫu". Nhận thấy
Chỉ có số hạng cuối phụ thuộc vào μ và nó được cực tiểu hóa bằng
Đó là ước lượng hợp lí cực đại của μ. Khi ta thay thế giá trị này cho μ trong hàm hợp lí, ta nhận được:
Ta quy ước kí hiệu hàm "log hợp lí", nghĩa là, logarit của hàm hợp lí, bằng một chữ thường, và ta có
và sau đó
Đạo hàm này dương, bằng 0, hoặc âm tùy thuộc vào σ2 nằm giữa 0 và
hoặc bằng đại lượng đó, hoặc lớn hơn đại lượng đó.
Kết quả là trị trung bình của bình phương các sai số là một ước lượng hợp lí cực đại của σ2, và căn bậc hai của nó là ước lượng hợp lí cực đại của σ. Ước lượng này là một ước lượng chệch, nhưng có một sai số căn quân phương nhỏ hơn so với ước lượng không chệch, vốn là n/(n − 1) lần ước lượng trên.
[sửa] Điều khái quát gây ngạc nhiên
Đạo hàm của ước lượng hợp lí cực đại của ma trận hiệp phương sai của một phân bố đa biến chuẩn rất khó nhận ra. Nó liên quan đến định lí phổ và lí do có thể coi một đại lượng vô hướng như là vết của ma trận 1×1 hơn là chỉ một biến vô hướng. Xem thêm cách xác định các ma trận hiệp phương sai.
[sửa] Ước lượng không chệch của các tham số
Ước lượng hợp lí cực đại cho tổng thể đồng nghĩa với việc μ của một mẫu là một ước lượng không chệch của trị trung bình, và phương sai cũng vậy. Tuy nhiên điều đó chỉ có được khi trị trung bình của tổng thể đã được biết trước. Thực tế ta chỉ có một mẫu lấy từ tổng thể, và không hề có thông tin gì về trị trung bình cũng như phương sai của tổng thể. Trường hợp này ước lượng không chệch của phương sai σ2 là:
"Phương sai mẫu" này tuân theo phân bố Gamma nếu như tất cả các biến ngẫu nhiên X đều có dạng phân bố giống nhau và độc lập với nhau:
[sửa] Xem thêm
- Phân bố chuẩn và không tương quan không có nghĩa là độc lập thống kê (một ví dụ về hai biến ngẫu nhiên có phân bố chuẩn, không tương quan nhưng không độc lập; điều này không xảy ra trong trường hợp có phân bố chuẩn đa biến)
- Phân bố log-chuẩn
- Phân bố chuẩn đa biến
- Phân bố Gauss khái quát
- Hàm probit
- [[Phân bố t của Student]]
- Bài toán của Behrens-Fisher
[sửa] Tham khảo
- John Aldrich. Earliest Uses of Symbols in Probability and Statistics. Electronic document, retrieved March 20, 2005. (See "Symbols associated with the Normal Distribution".)
- Abraham de Moivre (1738). The Doctrine of Chances.
- Stephen Jay Gould (1981). The Mismeasure of Man. First edition. W. W. Norton. ISBN 0393014894.
- R. J. Herrnstein and Charles Murray (1994). The Bell Curve: Intelligence and Class Structure in American Life. Free Press. ISBN 0029146739.
- Pierre-Simon Laplace (1812). Analytical Theory of Probabilities.
- Jeff Miller, John Aldrich, et al. Earliest Known Uses of Some of the Words of Mathematics. In particular, the entries for "bell-shaped and bell curve", "normal" (distribution), "Gaussian", and "Error, law of error, theory of errors, etc.". Electronic documents, retrieved December 13, 2005.
- S. M. Stigler (1999). Statistics on the Table, chapter 22. Harvard University Press. (History of the term "normal distribution".)
- Eric W. Weisstein et al. Normal Distribution at MathWorld. Electronic document, retrieved March 20, 2005.
- Marvin Zelen and Norman C. Severo (1964). Probability Functions. Chapter 26 of Handbook of Mathematical Functions with Formulas, Graphs, and Mathematical Tables, ed, by Milton Abramowitz and Irene A. Stegun. National Bureau of Standards.
[sửa] Liên kết ngoài
- Mô hình tương tác tính toán các phân bố (bao gồm phân bố chuẩn).
- Công cụ tính toán diện tích tự do phía dưới đưòng phân bố chuẩn từ Website Free Statistics Calculators của Daniel Soper. Tính toán diện tích lũ tích phía dưới đường cong phân bố (tức là xác suất lũy tích), cho trước z.
- Các công cụ cơ bản cho vấn đề 6-sigma
- PlanetMath: biến ngẫu nhiên phân bố chuẩn
- Thư viện khoa học GNU – Reference Manual – The Gaussian Distribution
- Công cụ tính toán phân bố – Tính xác suất và các giá trị phân giới cho phân bố chuẩn, t, khi-bình phương và phân bố F.
- Bảng phân bố chuẩn (tài liệu công cộng)
- Có phải phân bố chuẩn lấy theo tên Karl Gauss? Euler và họ đường cong gamma của ông; vai trò của thống kê học
- Maxwell demons: Simulating probability distributions with functions of propositional calculus
- Bảng tính phân bố chuẩn
Tiêu bản:Phân bố xác suất