Bài toán hồi quy (regression analysis) tương tự như bài toán phân lớp, khác ở đây là cần
phải ước lượng/học phương trình hồi quy (thay vì hàm phân loại). Hàm phân loại chỉ có
giá trị rởi rạc, còn phương trình hồi quy thường tính ra các giá trị liên tục. Bài toán phân
cấp gần giống bài toán phân loại ở chỗ hàm phân loại cũng có giá trị rời rạc (và không
phải nhị phân),
14 trang |
Chia sẻ: chaien | Lượt xem: 1931 | Lượt tải: 0
Bạn đang xem nội dung tài liệu Thuật ngữ ngành xác suất thống kê và học máy, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Thuật ngữ ngành xác suất
thống kê và học máy
Bởi:
Cao Xuân Hiếu
Lý thuyết xác suất
Căn bản
Lý thuyết xác suất cho chúng ta một ngôn ngữ để mô tả sự ngẫu nhiên (randomness).
Đối tượng cơ bản nhất của LTXS là các biến ngẫu nhiên (random variables). Để
định nghĩa một biến ngẫu nhiên thì cần một hàm phân bố (distribution function),
qua đó có thể định nghĩa được các khái niệm như trung bình (mean) và phương sai
(variance). Standard deviation gọi là độ lệch chuẩn. Mean và variance là các phiếm hàm
(functionals), được áp dụng cho một hàm phân bố hoặc một biến ngẫu nhiên. Hàm phân
bố nếu liên tực tuyệt đối với một độ đo chuẩn (?) như Lebesgue thì có thể được biểu
diễn bởi hàm mật độ (density), theo định lý Radon-Nikodym.
Cơ sở toán học của lý thuyết xác suất là thuyết độ đo (measure theory), nhưng việc
chính của các xác suất gia (?) (probablist) là xây dựng phát triển cáng nhiều loại đo đo
xác suất càng tốt. Nói chuyện với một chuyên gia độ đo không thể không định nghĩa
một đại số sigma (sigma-algebra). Nói chuyện với một chuyên gia xác suất thì rất nhiều
khi khái niệm này ẩn rất kỹ. Công cụ chính của các XSG chính là khái niệm độc lập
(independence), và mạnh mẽ hơn là độc lập có điều kiện (conditional independence).
Cho nên dân toán thường trêu LTXS chẳng qua là thuyết độ đo + độc lập. Vậy sự khác
biệt giữa một độ đo xác suất và những biến ngẫu nhiên là gì? Theo David Aldous thì đó
là sự khác biệt giữa recipe để làm bánh và những cái bánh. Hiểu được sự khác biệt này
thì mới làm được bước nhảy từ lý thuyết độ đo khô khan sang lý thuyết xác suất tươi
mát hơn.
Độc lập và hội tụ
Khái niệm độc lập cho ta một loạt các định luật cơ bản của LTXS. Tất cả đều xoay quanh
hiện tượng tập trung của độ đo (concentration of measure). Bắt đầu là luật các số lớn
(có phiên bản luật mạnh (strong law) và luật yếu). Luật giới hạn trung tâm (Central limit
theorem) nhắc rằng sample mean (mẫu trung bình) có quy luật bình thường (normal/
Thuật ngữ ngành xác suất thống kê và học máy
1/14
Gaussian) khi số mẫu tiến đến vô hạn. Các định luật này đều có sử dụng các khái niệm
hội tụ (convergence) trong giải tích. Hội tụ gần chắc (almost sure), hội tụ về phân bố
hoặc về luật (convergence in distribution/ in law). Ngoài luật số lớn còn có luật các số
nhỏ (hay luật các hiện tượng hiếm có — law of rare events), cho ta biết khi nào thì mẫu
trung bình có quy luật Poisson. Không phải ngẫu nhiên, Gaussian và Poisson là hai hàm
phân bố căn bản nhất — là những viên gạch cho toàn bộ lâu đài XS.
Khái niệm độc lập và độc lập có điều kiện là những chất keo để gắn kết các biến xác
suất với nhau, qua đó cho ta các hàm xác suất cho các vật thể toán học có cấu trúc
phức tạp hơn. Một dạng độc lập có điều kiện hay dùng là tính chất Markov. Ngoài
chất keo độc lập, còn có một chất keo nữa rất hữu dụng, đó là tính hoán chuyển được
(exchangeability). Nếu tính độc lập là nền tảng cho các phương pháp suy diễn tần số
(frequentist) , thì tính hoán chuyển được lại là cơ sở nền tảng cho các phương pháp suy
diễn Bayesian. Tính hoán chuyển được đang được mở rộng ra thành hoán chuyển từng
phần (partial exchangeability), một khái niệm quan trọng để phái triển các độ đo cho các
vật thể tổ hợp (combinatorial object) rời rạc và phức tạp.
Quá trình ngẫu nhiên
LTXS phát triển rất nhiều hàm phân bố không chỉ cho các biến xác suất scalar (?) đơn
giản, mà người ta còn sáng tạo ra các hàm phân bố cho các cấu trúc toán học phức tạp,
nhiều chiều hơn. Chúng ta bắt đầu nói chuyện đến hàm phân bố cho những tập các hàm
số đo được (measurable functions), và hàm phân bố cho các độ đo ngẫu nhiên (random
measures). Hàm phân bố cho các vật thể vô hạn chiều này gọi chung là các quá trình
ngẫu nhiên (stochastic processes). Cách thức khẳng định sự tồn tại là qua định lý của
bác Kolmogorov, cho phép ta hiểu về các hàm phân bố cho không gian vô hạn chiều từ
các điều kiện nhất quán (consistency) của độ đo cho các cylinder sets. Đây là cách để
chúng ta xây dựng được các hàm phân bố cho quá trình Gauss (Gaussian processes), quá
trình Dirichlet (Dirichlet process), v.v.
Một cách hữu hiệu để xây dựng một quá trình stochastic là quay lại với khái niệm độc
lập, và đẩy khái niệm này đến giới hạn. Công cụ ở đây là nhìn vào phép biến đổi Fourier
(Fourier transform) của các hàm phân bố. Theo ngôn ngữ XS thì khái niệm này gọi là
hàm tính cách (characteristic function). Để đẩy khái niệm độc lập tới giới hạn thì ta cần
khái niệm các hàm phân bố khả phân vô hạn (infinitely divisible). Khái niệm tiếp theo là
các hàm phân bố ổn định (stable distribution). Gauss và Poisson chính là hai hàm phân
bố ổn định — không phải là “ngẫu nhiên” nếu chúng ta quay về các luật số lớn và số
nhỏ nhắc ở trên. Max-stable là một họ phân bố cực đại ổn định.
Các quá trình ngẫu nhiên có tính chất gia tăng độc lập (independent increment) gọi là
quá trình Lévy. Tổng quát hơn một chút là các độ đo hoàn toàn độc lập (completely
random measures). Định lý biểu diễn Lévy-Khintchine cho chúng ta biết rõ hàm tính
cách của các quá trính stochastic này là gì, thông qua độ đo Lévy (Levy measure). Chọn
Thuật ngữ ngành xác suất thống kê và học máy
2/14
độ đo Lévy thích hợp (beta, gamma, v.v.) thì ta sẽ có một quá trính stochastic tương
ứng. Định lý này cho ta thấy tại sao Gauss và Poisson lại trở thành các viên gạch chỉ của
các lâu đài xác suất đồ sộ: Theo định lý Lévy-Itó, dựa trên biểu diễn L-K thì tất cả các
quá trính Lévy đều có thể được decompose (phân rã) (phân tách) thành tổng của ba quá
trình stochastic độc lập, một là quá trình Wiener (một dạng quá trình Gauss), với quá
trình phức hợp (compound) Poisson, và một là quá trình martingale.
Rất khó tưởng tượng các tập con đo được của sigma đại số đối với các quá trính ngẫu
nhiên. Thay vì hình dung sigma đại số (recipe làm bánh) thì ta có thể mô tả những cái
bánh. Nếu quá trình được liệt kê bởi tham số thời gian, thì một cái bánh ở đây có thể
hiểu là một lối mẫu (sample path). Với một số quá trình ngẫu nhiên thì có thể mô tả cách
tạo mẫu từ một quá trình ngẫu nhiên bằng phương pháp nhặt mẫu từ giỏ Pólya (Pólya’s
urn). Rất nhiều quá trình ngẫu nhiên có thể được mô tả bằng biểu diễn bẻ gậy (stick-
breaking representation). Theo biểu diễn này thì cần các nguyên tử (atom) và các mẩu
gậy (stick-breaking weight). Cách thức bẻ gậy và nhặt nguyên tử đều dựa theo cơ sở của
độc lập có điều kiện, một chất keo kỳ diệu cho phép ta mô tả các cấu trúc phức tạp bằng
các nguyên liệu giản đơn hơn.
Được quan tâm hàng đầu là biểu hiện của giá trị kỳ vọng (expectation) của một vật
thể xác suất. Liên quan là khái niệm kỳ vọng điều kiện (conditional expectation), bản
thân nó cũng là một biến ngẫu nhiên. Một công cụ quan trọng là khái niệm martingale.
Martingale có thể được mô tả dưới dạng một quá trình NN, tạm gọi là quá trình đánh
bạc(?). Cần khái niệm filtration (hệ thống lọc). Ngoải ra ta còn có submartingale,
supermartingale và semimartingale (?). Nhờ các công cụ này mà ta có thể tìm hiểu các
khái niệm xác suất hữu ích như thời điểm dừng (stopping time), thời điểm chạm (hitting
time), thời gian/thởi điểm vượt biên (boundary crossing time).
Một họ quá trình NN rất thông dụng là quá trình Markov (Markov process). Định nghĩa
trên cơ sở hạch xác suất chuyển dịch (transition probability kernel), và khái niệm hệ
thống lọc. Cần khái niệm subordinator (?), một dạng quá trình Lévy quan trọng. Local
time được dịch là thời gian địa phương. Quá trình Markov cho thời gian rời rạc còn gọi
là chuỗi Markov (hoặc xích Markov). Liên qua đến chuỗi Markov là lý thuyết ergodic
(?). Irreducibility dịch là bất khả quy. Một vấn đề được quan tâm là thời gian hòa tan
(mixing time) của chuỗi Markov. Điều kiện cần cho chuỗi Markov được hòa tan về một
trạng thái phân bố bất dịch (phân bố dừng) (stationary distribution) là ergodicity, thỏa
mãn phương trính cân bằng chi tiết (detailed balance). Chuỗi Markov định nghĩa cho
không gian rởi rạc (dàn lattice chẳng hạn) thì sẽ trở thành quá trình đi bộ ngẫu nhiên
(random walk). Gọi lattice là dàn thiên lý rất hay, thế phải phân biệt với dàn nho thế
nào đây. Khái niệm coupling trong chuỗi Markov dịch là sự cặp đôi. Coupling from the
past? Quá đơn giản, cặp nhau từ quá khứ! Time-homogeneous Markov process gọi là
quá trình Markov đồng biến.
Thuật ngữ ngành xác suất thống kê và học máy
3/14
Nói đến quá trình ta thường nghĩ đến thời gian — cụ thể là các quá trình NN thường
được hiểu là tập hợp các hàm phân bố nhất quán (consistent) được liệt kê bởi một
tham số chỉ thời gian. Không nhất thiết phải như vậy. Mở rộng khái niệm tham số thời
gian ra một không gian bất kỳ (ví dụ không gian Euclidean, dàn, hoặc không gian phi-
Euclidean), thì ta có quá trình NN tổng quát hơn. Markov random fields sẽ được gọi là
trường ngẫu nhiên Markov. Gaussian random field là trường ngẫu nhiên Gauss. Poisson
point process gọi là quá trình điểm Poisson (lại quá trình, nhưng kỳ thực phải gọi là
trường Poisson mời phải!) . Spatial process là quá trình không gian (?). Spatiotemporal
process gọi là quá trình không-thời gian. Khái niệm phase transition rất hay trong trường
ngẫu nhiên Markov của một dàn vô hạn, ta sẽ dịch là hiện tượng chuyển pha.
Một dạng quá trình NN khá hay ho gọi là empirical process (quá trình thực nghiệm).
Thường được nghiên cứu để tìm hiểu về tính hiệu quả của các phương pháp suy diễn
thống kê, thay vì dùng để mô tả một quá trình ngẫu nhiên trong tự nhiên. Sẽ nói ở mục
sau.
Các khái niệm quan trọng khác: percolation, excursion, optional stopping
Mô hình thống kê
Căn bản
Mô hình thống kê (statistical model) cũng là mô hình xác suất, sử dụng từ các nguyên
liệu được phát triến cho các hàm phân bố vá các quá trình NN trong LTXS. Cái khác ở
đây là trong mô hình thống kê có một số biến ngẫu nhiên được gán nhãn là dữ liệu (data),
những biến số ngẫu nhiên mà chúng ta có thể quan sát, hoặc thu thập được giá trị bằng
thực nghiệm và các thiết bị công nghệ. Cho nên trọng tâm của việc xây dựng mô hình
thống kê là làm sao ước lượng (estimate) /học (learn) được mô hình này từ dữ liệu, làm
sao có thể đánh giá được tính hiệu quả (efficiency) hoặc tính phổ quát (generalization)
của mô hình, làm sao có thể chọn ra được mô hình hữu ích (model selection/model
choice).
Tham số
Để kiểm soát được độ phức tạp của mô hình thì công cụ chính ở đây là phải tham số hóa
(parameterization) mô hình. Các tham số (parameter) là phần còn lại của mô hình xác
suất mà chúng ta phải ước lượng, học. Đến đây có một vấn đề nho nhỏ, các tham số là
một giá trị không biết nhưng không ngẫu nhiên, hay bản thân chúng là ngẫu nhiên. Có
hai cách tiếp cận vấn đề này, trường phái tần suất giả dụ cách đẩu, còn trường phái Bayes
thì giả dụ cách sau. Nếu các tham số là có số chiều hữu hạn, ta có một mô hình tham số
(parametric model), nếu số chiều là vô hạn thì ta có mô hình phi tham số (nonparametric
model). Như vậy, gọi là phi tham số không có nghĩa là không có tham số. Nếu tham số
là ngẫu nhiên mà lại vô hạn chiều thì người ta gọi mô hình là mô hình phi tham số Bayes
Thuật ngữ ngành xác suất thống kê và học máy
4/14
(Bayesian nonparametric model). Điều này không có nghĩa làm việc với các mô hình
dạng này là theo trường phái Bayes, mặc dù trên thực tế thì phần lớn những người phát
triến mô hình phức tạp nói chung và mô hình phi tham số Bayes nói riêng lại có nhãn
quan Bayes. Song không nhất thiết phải vậy.
Đầy đủ và thông tin
Một công cụ quan trọng trong việc tham số hóa là khái niệm thống kê đầy đủ (sufficient
statistics). Để hiểu khái niệm này phải hiểu khái niệm thống kê là gì. Một thống kê là
một hàm số được áp dụng vào các dữ liệu (cộng trừ nhân chia kiểu gì cũng được). Liên
hệ với khmt thì thống kê chính là đầu ra (output) của một giải thuật sử dụng dữ liệu như
là đầu vào. Còn thống kê đầy đủ đối với một mô hình là những thống kê chứa đựng mọi
thông tin có thể có được từ dữ liệu về các tham số của mô hình. Nghĩa là nếu vứt hết
dữ liệu đi, chỉ cần giữa lại các thống kê đầy đủ, vẫn không bị mất thông tin gì về mô
hình. Đây có lẽ là một trong những khái niệm đẹp đẽ nhất của toàn bộ thống kê học. Sau
khi quyết định được thống kê đầy đủ rồi người ta có thể biết được rằng dữ liệu phải là
mẫu của một hàm phân bố có một cách tham số hóa nhất định, qua một định lý biểu diễn
phân tích Fisher-Neyman (Fisher-Neyman factorization theorem). Nhắc thêm khái niệm
thống kê đầy đủ là một khái niệm có tính lý thuyết thông tin (information-theoretic), có
thể phát biểu bằng tính độc lập có điều kiện và các khái niệm entropy.
Một loạt các mô hình đẹp có thể được động viên từ khái niệm cần và đủ kiểu này.
Mô hình họ mũ (exponential family) là mô hình tạo ra dữ liệu ngẫu nhiên nhất có thể
được, nếu các thống kê đầy đủ đã được cho. Mô hình xác suất đồ thị (probabilistic
graphical model) là mô hình duy nhất thỏa mãn các ràng buộc về độc lập có điều kiện
cho các biến ngẫu nhiên, theo định lý Hammersley-Clifford. Nếu các biến ngẫu nhiên
được giả dụ là hoán chuyển được, thì chúng bắt buộc phải được mô tả bởi một mô
hình trộn/ mô hình hỗn hợp (mixture model), theo định lý nổi tiếng của de Finetti. Nếu
các biến ngẫu nhiên có hàm phân bố không thay đổi kể cả khi bị biến đổi trực chuẩn
(orthornomal transformation) thì chúng bắt buộc phải được mô tả bởi một elliptically
contoured distribution (phân bố có đường cong ê líp), kiểu như Gauss đa biến vậy.
Nhãn quan Bayes và tần suất
Các mô hình thống kê cho ta keo dính để gắn kết các dữ liệu với nhau, và là đối tượng
trung tâm của ngành thống kê. Nhưng trong lịch sử và đến tận bây giờ, các mô hình vẫn
được trường phái Bayes chào đón nồng nhiệt hơn là trường phái tần suất, bởi vì sự lệ
thuộc vào một mô hình thống kê làm cho người ta liên tưởng đến sự lệ thuộc vào tiên
nghiệm (prior knowledge) quá nhiều, và do đó thiếu đi sự “khách quan”. Đặc biệt trong
trường phái Bayes có một nhánh gọi là Bayes chủ quan (subjective Bayes) và Bayes
khách quan. Những người theo Bayes chủ quan cho rằng, nếu ta có những niềm tin chủ
quan (subjective belief) nhất định về dữ liệu, thì ta sẽ sử dụng một mô hình xác suất
tương ứng, do các định lý kiểu như của de Finetti và Hammersley-Clifford kể trên. Một
Thuật ngữ ngành xác suất thống kê và học máy
5/14
mảng không nhỏ của ngành thống kê học, thuộc trường phái tấn suất, tập trung vào các
phương pháp mô hình tự do (distribution free), qua đó không sử dụng một mô hình xác
suất cụ thể nào, mặc dù họ có giả sử là tộn tại một hàm phân bố để tạo ra các mẫu dữ
liệu một cách độc lập. Chú ý rằng điều này không có nghĩa là các nhà tần suất là khách
quan hơn các nhà Bayes chủ quan, vì sự giả dụ tính độc lập nói chung là mạnh hơn sự
giả dụ tính độc lập điều kiện, hay tính hoán chuyển được. Cả hai cách nhìn Bayes và tần
suất đều hữu ích trong các ngữ cảnh khác nhau, và về nhiều mặt không có phe hoàn toàn
đúng. Cả hai cách nhìn này đều chứa chất mâu thuẫn trong mình, có sự đối chọi nhau,
nhưng cũng có sự tương hỗ nhau giống như bức tranh âm-dương trong Kinh Dịch vậy.
Ta sẽ tiếp tục soi lại quan hệ này mỗi khi có dịp.
Phân lớp các mô hình cụ thể và cách tham số hóa
Các mô hình thống kê giống như các sinh vật trong thế giới tự nhiên, rất đa dạng và
có thể được phân lớp, và có thể quan sát sự phức tạp tăng dần với quá trình phát triển
của ngành. Trong ngành học máy thì một số người còn gọi một mô hình là một cái máy
(machine), nghe công nghệ, hiện đại và mới mẻ hơn. Để mô tả một mô hình thì cần phải
nói cách tham số hóa của chúng thế nào, nên cần rất nhiều khái niệm và lexicon. Tham
số hóa thế nào chính là vấn đề cơm và nước mắm của người học thống kê.
Với rất nhiều biến ngẫu nhiên, cần phải định ra joint distribution (phân bố liên hợp).
Marginal distribution gọi là ? Conditional distribution gọi là phân bố điều kiện.
Covariates gọi là đồng biến. Trong công nghệ thường là đầu vào. Features thực ra cũng
là đồng biến, nhưng xuất xứ từ học máy, và sẽ gọi là đặc trưng.
Trong họ mũ, có hai cách tham số hóa. Natural parameterization gọi là cách tham số
hóa tự nhiên. Canonical parameterization gọi là tham số hóa chính tắc? Còn gọi là tham
số hóa trung bình (mean parameterization). Hai hệ tham số kể trên có liên hệ mất thiết
với nhau qua quan hệ đối ngẫu liên hợp (conjugate duality), một khái niệm của giải tích
lồi (convex analysis). Trong hình học thông tin (information geometry) thì hai hệ tham
số này có thể hiểu qua khái niệm e-flat manifold và m-flat manifold (?). Normalizing
constant gọi là hắng số chuẩn hóa. trong vật lý thống kê thì khái niệm này còn gọi là
partition function — hàm ngăn phần. Các mô hình thông dụng trong vật lý lý thuyết như
mô hình Ising, spin glass (?), đều là trường hợp đặc biệt của họ mũ. Rất nhiều hàm phân
bố là trường hợp đặc biệt của họ mũ. Đặc biệt quan trọng là multivariate Gaussian dịch
là Gauss đa biến. Mean vector và covariance matrix gọi là vector trung bình và ma trận
hiệp phương sai.
Mô hình họ mũ lại là trường hợp đặc biệt của họ mô hình xác suất đồ thị (graphical
model). Phân biệt graphical và graph và graphics thể nào đây? Để định nghĩa mô hình
này cần potential function (hàm tiềm năng), được định nghĩa trên clique (?) của các biến
ngẫu nhiên. Có hai loại mô hình XSDT. Một là mô hình đồ thị vô hướng (undirected
graphical model), cũng đồng nghĩa với trường ngẫu nhiên Markov (Markov random
Thuật ngữ ngành xác suất thống kê và học máy
6/14
fields). Một là mô hình đồ thị có hướng (directed graphical model), còn gọi là mạng
Bayes (Bayesian network) của Pearl. Trong mạng Bayes có khái niệm nốt cha và nốt
con. Khái niệm moralization gọi là lấy nhau. Một số trường hợp thông dụng của mạng
Bayes có thể kể đến mô hình cây xác suất ĐT (tree-structured graphical model), mô hình
đa cây (polytree) nhưng có lẽ gọi là cây đa cũng thích hợp, mô hình Markov ẩn (hidden
Markov), mô hình lọc Kalman (Kalman filter), mài trơn Kalman (Kalman smoothing)
Latent/hidden variables gọi là các biến ẩn. Naive Bayes tạm gọi là Bayes thơ ngây,
hoặc Bây ngô. Mạng Bayes cho các dạng dữ liệu tuần tự (sequential data) còn gọi là
dynamic Bayes net (?).
Một số mô hình tham số khác phải kể đến: Mô hình hổi quy tuyến tính, mạng nơ
ron (neural network), mô hình cây quyết định (decision tree), mô hình hợp xướng
(ensemble), mô hình hổi quy logit (logistic regression), mô hình tuyến tính tổng quát
(generalized linear model), mô hình mạng tin, mạng tin sâu (deep belief net). v.v. Những
mô hình kiểu này thường áp dụng vào các vấn đề suy diễn cụ thể hơn, đặc biệt trong
bài toán phân lớp (classification) và hồi quy (regression). Có một số cách phân loại nữa:
Trong học máy thì các mô hình dự trên hàm phân bố xác suất liên hợp thường gọi là mô
hình sinh mẫu (generative model), nhưng cũng có một số mô hình áp dụng cho các vẫn
đề liên quan đến xác suất điều kiện thì gọi là mô hình phân biệt (discriminative model).
Cái sau hay được dùng cho các kiểu suy diễn đặc biệt hơn như bài toán phân lớp, bài
toán phân hạng, v.v.
Một mô hình bao gồm cả tham số có số chiều hữu hạn và tham số có số chiều vô hạn
thường gọi là mô hình bán tham số (semiparametric model). Một ví dụ tiêu biểu là mô
hình hồi quy Cox (Cox regression model) trong bài toán phân tích sống sót và phân tích
sự kiện lịch sử (survival analysis/ event history analysis). Time to event data dịch là dữ
liệu sự kiện. Trong mô hình này, thành phần tham số hữu hạn gắn liền với những đồng
biến (covariates) quan tâm, thành phần tham số vô hạn là cường độ tử vong/lỗi cơ bản
(baseline hazard intensity). Đôi khi họ các mô hình bán tham số được gộp chung vào họ
các mô hình phi tham số.
Họ các mô hình phi tham số Bayes được lấy từ các quá trình ngẫu nhiên kể trên. Infinite
mixture model gọi là mô hình trộn/ hỗn hợp vô hạn. Có các quá trình đậm chất ẩm thực:
Quá trình nhà hàng Tàu (Chinese restaurant process), quá trình búp phê Ấn độ (Indian
buffet process). Quá trình coelescence gọi là gì? Với dân tần suất thì nhiều khi các mô
hình phi tham số chỉ là tập các hàm quen thuộc trong giải tích hàm. Ví dụ lớp Sobolev
(Sobolev class), lớp Besov, không gian Hilbert nhân tự sinh (reproducing kernel Hilbert
space), lớp smoothing splines (?), v.v. Dân Bayes sẽ luôn luôn nói về các hàm phân bố
(độ đo) cho các hàm số kiểu này.
Dân Bayes còn có một việc là phải tham số hóa các tham số. Theo cách nhìn Bayes,
các tham số cũng ngẫu nhiên, phải được giả dụ bởi một hàm phân bố khác. Các tham
số của hàm này sẽ là hyperparameter (tham số tầng trên/ tham số thượng tầng?). Nếu là
Thuật ngữ ngành xác suất thống kê và học máy
7/14
người theo Bayes cuồng tín, thì các tham số thượng tầng này cũng phải ngẫu nhiên
và phải tiếp tục quá trình tham số này đến tận Big Bang. Điều này dẫn đến một họ mô
hình đa tầng (hierarchical model/ multi-level model), rất mạnh và rất giàu. Tuy có thể
coi là một trường hợp của mô hình XSDT, nhưng trọng tâm và nguổn gốc rất khác, nên
ta không nên gộp làm một. (Chú ý là ta không thể đi đến tận Big Bang, nên sau vài tầng
của hierarchy thì các nhà thống kê Bayes cũng sẽ mệt và dửng lại. Trên thực tế, khi đó
vai trò của các tham số tầng rất cao không còn ý nhiều trong chuyện chi phối các biểu
hiện của mô hình nữa). Việc định ra cách tham số hóa các tham số còn gọi là sự định
ra các prior distribution (phân bố tiên nghiệm) cho các tham số ngẫu nhiên. Áp dụng
công thức Bayes (Bayes rule) thì tính được posterior distribution, dịch là phân bố hậu
nghiệm. Conjugate prior thì gọi là phân bố tiên nghiệm liên hợp. Tham số hóa cho các
tham số hyper còn gọi là sự định ra các hyperprior (phân bố tiên nghiệm thượng tầng).
Quyết định lựa chọn prior nào (sự chỉ định tiên nghiệm) phụ thuộc vào sự giằng co giữa
tiên nghiệm (prior knowledge), thực nghiệm từ dữ liệu (empirical data), và sự thuận tiện
về tính toán (computational convenience). Sử dụng các phân bố tiên nghiệm liên hợp
(phát âm đầy mồm!) là một ví dụ của sự thuận tiện. Sự giẳng co giữa tiên nghiệm và
thực nghiệm chẳng qua là một thể hiện của dao cạo Occam, dưới nhãn quan của trường
phái Bayes.
Dân tần suất thì không thích khái niệm tham số hyper chút nào, mà cho rằng các tham số
phải là không ngẫu nhiên. Về mặt mô hình mà nói thì cách nhìn này là cái trói vô hình,
theo quan điểm Bayes những tham số kiểu này là vẫn có thể coi là ngẫu nhiên theo một
độ đo Dirac (độ đo nguyên tử – atomic measure), một sự ràng buộc rất chặt không cần
thiết. Cho nên, trong lịch sử mô hình của các nhà tần suất thường không giàu có bằng
mô hình của các nhà Bayes. Tuy không nhất thiết phải là như vậy.
Dao cạo của Occam
Như ông Gớt nói là mọi chân lý đều màu xám, còn cây đời thì mãi mãi xanh tươi. Thay
chữ chân lý bằng chữ mô hình, thay chữ cây đời bằng chữ dữ liệu quan sát được, ta có
một biên phản cho các nhà thống kê. Bác George Box có một câu nổi tiếng tương tự —
mọi mô hình đều sai, chỉ có những mô hình hữu ích hay không. Cho nên ta phải nhìn
nhận các mô hình là cách chúng ta xấp xỉ thế giới thực nghiệm. Vì vậy ngoài sai số ước
lượng (estimation error) của các tham số, còn có một dạng sai số gọi là sai số xấp xỉ
(approximation error). Mô hình dùng ngôn ngữ thống kê và các cấu trúc toán học (như
các quá trình stochastic) làm viên gạch, nhưng lại được ước lượng, điều chỉnh (update),
và đánh giá, phân tích bằng dữ liệu thật. Công cụ toán học càng mạnh thì tính phức tạp
mô hình (model complexity) càng lớn, dẫn đến khả năng biểu diễn của một mô hình
càng lớn, khi đó sai số xấp xỉ sẽ nhỏ, song việc ước lượng (estimation) từ dữ liệu cũng có
thể lớn lên. Đây chính là giằng co (tradeoff ) giữa sai số xấp xỉ và sai số ước lượng. Hiện
tượng này gọi là cái dao cạo của Occam (Occam’s razor), luôn luôn ám ảnh và xuyên
suốt mọi quyết định trong việc thiết kế và đánh giá một mô hình học. Sợ nhất là mô hình
overfit dữ liệu (quá rộng) Một đánh giá khách quan đối với sự hiệu quả và tích hữu ích
Thuật ngữ ngành xác suất thống kê và học máy
8/14
của một mô hình là tính dự báo của nó, và nói chung thì lỗi dự báo thường được chặn
bởi hai dạng sai số nói trên. Liên quan đến các khái niệm xấp xỉ: Model misspecification
gọi là sự chỉ định mô hình không chuẩn. Khái niệm model identifiability gọi là tính khả
nhận diện mô hình. Parameter identifiability là tính khả nhận diện của tham số.
Tóm tắt: joint probability, marginal probability, conditional probability, model
identifiability, model mis-specification, model choice, model selection, parameter
identifiability, consistency, parametric model, nonparametric, exponential family,
curved exponential family, graphical model, hierarchical model, mixture model, hidden
markov model, copula model, latent/hidden variables, nonparametric Bayesian model,
density, intensity measure, analysis of variance, functional data, curve data, prior
distribution, posterior distribution, a priori, a posteriori, sufficient statistics, order
statistics, mean parameterization, canonical parameterization, normalizing constant,
log-partition function, mean function, covariance function, covariates, features,
conjugate prior, conjugacy
Các phương pháp suy diễn thống kê
Tổng quan
Cần phân biệt suy diễn thống kê (statistical inference) với suy diễn xác suất
(probabilistic inference). Cái sau chỉ là sự tính toán các xác suất điều kiện trên cơ sở
mô hình xác suất. Còn SDTK là suy diễn trên cơ sở mô hình thống kê với sự hiện diện
của số liệu. Có hai vấn đề chính, một là suy diễn về tham số, hay còn gọi là ước lượng
về tham số (parameter estimation), và dự báo (prediction). Với nhãn quan Bayes thì suy
diễn thống kê còn gọi là suy diễn Bayes, về mặt toán học thì không khác gì suy diễn xác
suất vì cả tham số và dữ liệu đều được mô tả bằng biến ngẫu nhiên. Cho nên về mặt khái
niệm thì đơn giản, mẫu mực. Với nhãn quan tấn suất thì cách tiếp cận đến các vấn đề
suy diễn thống kê khó khăn hơn về mặt khái niệm, và đòi hỏi các cách tiếp cận không
mẫu mực. Trong học máy thì vấn đề ước lượng về tham số còn gọi là học.
Nếu như trong vấn đề xác định mô hình thì quan điểm Bayes và quan điểm tần suất
có tính tương hỗ nhau (ví dụ, anh Bây nói với với anh Tần: Tôi mệt rồi, cho phép cái
tham số hyper của tôi là không ngẫu nhiên nhá — và anh Tần nói với anh Bây: Cho
tôi gọi tham số của anh là biến ẩn nhá), thì trong vấn đề suy diễn, hai quan điểm này
xung khắc nhau quyết liệt bất phân thắng bại. Quan điểm của Bây là: đối với vấn đề
ước lượng tham số thì chỉ suy diễn điều kiện vào dữ liệu có sẵn (conditioning on data),
và “marginalize out/ integrate out” (?) các tham số ngẫu nhiên trong việc dự báo. Quan
điểm của Tần là: đồi với vấn đề ước lượng tham số thì phải suy diễn cho cả dữ liệu tưởng
tượng (imaginary data, và dùng ước lượng “plug-in” (?) trong việc dự báo. Tiêu chuẩn
của Bây là lạc quan, quan tâm nhiều đến phân tích trường hợp trung bình (average-case
analysis). Tiêu chuẩn của Tần rất bi quan, chú trọng nhiều hơn đến phân tích tình huống
Thuật ngữ ngành xác suất thống kê và học máy
9/14
xấu nhất (worst-case analysis). Đây chỉ là hai thái cực để cho thấy sự khác biệt. Trên
thực tế có thể kết hợp cả hai cách tiếp cận trong việc suy diễn từ dữ liệu.
Có một số vấn đề suy diễn cụ thể hơn, và do đó có một số lexicon riêng: Point estimation
gọi là ước lượng điểm (một khái niệm của TK Tần). Hypothesis testing gọi là kiểm định
lý thuyết (phép thử lý thuyết?). Classification gọi là vấn đề phân lớp. Clustering gọi là
vấn đề chia nhóm. Bài toán ranking trong học máy gọi là vấn đề phân hạng. Supervised
learning gọi là học có nhãn, học có hướng dẫn. Unsupervised learning gọi là học không
nhãn (học không có hướng dẫn, học không thầy). Sequential analysis gọi là phân tích
chuỗi/ phân tích tuần tự (?), mà cụ thể có bài toán optimal stopping dịch là bài toán dừng
tối ưu. Survival analysis gọi là phân tích sự sống sót (?). Vấn đề change point detection
gọi là bài toán phát hiện điểm thay đổi. Chú ý là tất cả các vẫn đề suy diễn cụ thể này
đều có thể hiểu tổng quát theo một trong hai vấn đề suy diễn (ước lượng tham số, hoặc
dự báo), đều có thể tiếp cận theo cách nhìn Tần hay Bây, nhưng có thể sự điểu chỉnh
một chút về cách đánh giá của suy diễn.
Lý thuyết quyết định
Nền tảng lý thuyết của suy diễn thống kê chính là lý thuyết quyết định của Abraham
Wald. Cần khái niệm rủi ro (risk). Rủi ro Bayes là Bayes risk. Rủi ro là kỳ vọng của hàm
thiệt hại/tổn thất/thiệt/mất (loss function). Dân kinh tế sẽ dùng hàm utility (hàm tiện ích/
thỏa dụng) thay vì dùng hàm thiệt hại. Một khái niệm tương tự là hàm reward (?) trong
môn học reinforcement learning(?), và quá trình quyết định Markov.
Lý thuyết quyết định là cái ô chung cho cả hai trường phái Bây và Tần, nhưng với dân
Tần thì có nhiều việc phải lo hơn. Estimator dịch là cách ước lượng cho một tham số,
và là một hàm số áp dụng vào dữ liệu. Như vậy cũng giống một thống kê, như vậy có
thể coi một thống kê là một cách ước lượng thô sơ. Estimate là một ước lượng cụ thể
cho một tham số nào đó. Trong bài toán phân lớp thì estimator còn gọi là một learning
machine (máy học), estimate sẽ là hàm số phân lớp (classifier). Trong vấn đề kiểm định
lý thuyết (hypothesis testing) thì cái phải ước lượng là một hàm số quyết định (decision
function). Dù theo nhãn quan nào thì đều cần tìm ước lượng theo tiêu chuẩn có giá trị rủi
ro tối thiểu (minimum risk criterion). Nhưng rủi ro của anh Bây thì khác với anh Tần.
Kỳ vọng tần suất (frequentist expectation) là kỳ vọng của hàm mất đối với phân bố của
dữ liệu (ảo tưởng) trên cơ sở một mô hình với một tham số có sẵn. Kỳ vọng Bayes là
giá trị kỳ vọng của hàm mất đối với phân bố điều kiện của tham số trên cơ sở dữ liệu
có sẵn. Nói cách khác, với anh Tần thì dữ liệu là ngẫu nhiên, với anh Bây thì tham số
là ngẫu nhiên. Nếu lấy kỳ vọng của kỳ vọng tần suất đối với phân bố của tham số, hoặc
lấy kỳ vọng của kỳ vọng Bayes đối với phân bố của dữ liệu thì ta cùng nhận được Rủi
ro Bayes!
Một số hàm thiệt hại thông dụng: Hàm thiệt 0-1. Khi đó Rủi ro Bayes gọi là Lỗi Bayes
(Bayes error). Hàm thiệt bình phương (square loss). Hàm thiệt mũ (exponential loss).
Thuật ngữ ngành xác suất thống kê và học máy
10/14
Hàm thiệt logit (logistic loss). Surrogate loss sẽ được dịch là hàm thiệt thế chỗ (?). Để so
sánh các cách ước lượng (estimator) khác nhau người ta có thể dùng tiêu chuẩn Bayes
(thông qua việc so sánh Rủi ro Bayes). Dân tần suất sẽ hay dùng tiêu chuẩn minimax,
mượn từ lý thuyết trò chơi (mà cuộc chơi ở đây là giữa nhà thống kê và Trời — chỉ Ông
Trời biết chân lý (mô hình đúng là gì, và ông trời mỗi lần ra tay sẽ nhả ra một mẫu dữ
liệu). Cần một số phẩm chất cho các cách ước lượng, như khái niệm unbiasedness (?),
admissibility (?), consistency (nhất quán), invariance (bất biến phương sai), efficiency
(hiệu quả), superefficiency (siêu hiệu quả). Dân Bayes chủ quan không quan tâm đến
mấy cái chuẩn này, vì họ đã có niềm tin son sắt vào tiên nghiệm rồi, và suy diễn Bayes
bằng cách tính phân bố hậu nghiệm là xong. Tuy vậy phương pháp suy diễn Bayes chủ
quan có nhiều tính chất lý thuyết rất tốt. Suy diễn dựa trên cơ sở của phân bố hậu nghiệm
được chứng minh là tối ưu theo tiêu chuẩn Rủi ro Bayes. Dân Bayes khách quan thì
không quá tự tin như dân Bayes chủ quan, nên họ muốn phân bố tiên nghiệm phải có
những phẩm chất tốt. Tính nhất quán hậu nghiệm (posterior consistency) là một phẩm
chất quan trọng.
Các cách ước lượng/học thống kê
Tôi đặt vài viên gạch ở đây. Khi nào rỗi sẽ viết dần dần. Bạn nào có nhã hứng đóng góp
từng paragraph vào các mục sau (hoặc các mục chưa ghi) xin cho biết. Ước lượng hay
học ở đây vẫn trên cơ sở một họ mô hình định sẵn. Còn vấn đề khó hơn là chọn mô hình
(model selection), so sánh các mô hình, đặc biệt giữa các mô hình có độ phức tạp khác
hẳn nhau. Kiểm định giả thuyết là một dạng rất đặc biệt của lựa chọn giữa các mô hình,
song vẫn có thể hiểu gọn trong phạm vi ước lượng.
Empirical risk minimization. Rủi ro được định nghĩa trên cơ sở hàm phân bố của mô
hình (chân lý — chỉ có Trời mới biết). Chỉ có thể tiếp cận đến mô hình này thông qua
quá trình thực nghiệm (empirical process). Nói cách khác, rủi ro phải được ước lượng
bẳng rủi ro thực nghiệm (empirical risk). Hầu hết các cách ước lượng của phe Tần suất
đều ở dạng tính rủi ro thực nghiệm cực tiểu (empirical risk minimization (ERM)). Một
lexicon đồng nghĩa là M-estimation (ước lượng M), M có nghĩa là maximization hoặc
minimization. Cách ước lượng dựa vào moment (moment-based estimation/ moment
matching) thực ra cũng có thể được động viên và liên hệ với cách ước lượng rủi ro thực
nghiệm cực đại. Một vấn đề đau đầu cho cách ước lượng rủi ro cực tiểu là phải chọn
hàm mất gì? Có một số tên riêng: Nếu hàm mất là hàm bình phương, thì ta có phương
pháp bình phương cực tiểu (least square) rất thông dụng trong hồi quy.
Maximum likelihood và nguyên tắc likelihood. Nếu mô hình thống kê chỉ định ra một
hàm phân bố cho dữ liệu, thì ta có khái niệm likelihood (khả năng?). Đây là hàm số
của tham số, nhưng được lại là ngẫu nhiên vì được định nghĩa trên cơ sở dữ liệu ngẫu
nhiên. Likelihood chính là một ví dụ tiêu biểu (nhất) của rủi ro thực nghiệm. Hàm mất
tương ứng ở đây là hàm logarithm của mật độ. Maximum likelihood dịch là cách ước
lượng khả năng cực đại (?), một phát kiến vĩ đại của Ronald Fisher. Đây là cách ước
Thuật ngữ ngành xác suất thống kê và học máy
11/14
lượng thông dụng, đa năng bậc nhất trong ngành thống kê (ít nhất là với nhãn quan tần
suất). Với các mô hình tham số thì cách ước lượng này được đảm bảo bởi tính nhất quán
(consistency) — mô hình sẽ được ước lượng chính xác nếu số dữ liệu tiến đến vô hạn.
Tại sao hàm mất lại là hàm logarithm của mật độ mà không phải là một hàm số nào
khác? Đây là một ví dụ của sự diệu kỳ bất ngờ của toán học — câu trả lởi truy ra khái
niệm độc lập, khái niệm tập trung của độ đo trong xác suất, và tính lồi trong giải tích
(và hình học). Nguyên tắc khả năng (likelihood principle) cho rẳng hàm khả năng là một
thống kê đầy đủ (sufficient statistics). Nguyên tắc này phá sản trong ngữ cảnh phi tham
số.
Regularization/Penalization/Shrinkage. Với sự ước lượng các mô hình phi tham số thì
chỉ dựa vào dữ liệu (thông qua hàm khả năng (likelihood) hoặc tổng quát hơn, hàm
rủi ro thực nghiệm) không đủ. Cần phải có sự điều chỉnh trong việc lấy cực đại/cực
tiểu thông qua khái niệm regularization (kiểm soát), còn gọi là penalization (soát phạt).
Regularized empirical risk gọi là rủi ro thực nghiệm có kiểm soát. Khái niệm kiểm soát,
soát phạt bắt nguổn từ một phát hiện bất ngờ của Charles Stein về shrinkage estimator
(cách ước lượng co). Cho nên nhiều khi người ta cũng gọi nhóm ước lượng này là ước
lượng co. Để dùng một số lượng dữ liệu hữu hạn mà ước lượng các đại lượng (tham số)
vô hạn hoặc có số chiều đủ lớn (cho dù số dữ liệu có lớn đến đâu và tiến dần đến vô hạn
đi chăng nữa) thì vẫn phải có sự kiểm soát trong ước lượng, và không thể dựa hoàn toàn
vào dữ liệu thực nghiệm được. Theo nhãn quan Bayes thì điều này chính là sự giằng co
giữa thực nghiệm và tiên nghiệm. Co (shrinkage) ở đây chính là co về tiên nghiệm.
Phương pháp phân tích hậu nghiệm/ học Bayes. Phương pháp phân tích hậu nghiệm (a
posteriori analysis), cụ thể là cách suy diễn hậu nghiệm (posterior inference), suy diễn
Bayes (Bayesian inference), học Bayes (Bayesian learning), đều mô tả cùng một cách
ước lượng theo trường phái Bayes. Đó là thay vì người ta ước lượng tham số (không
ngẫu nhiên) như trong trường phái tần suất, người ta sẽ tính hàm phân bố hậu nghiệm
cho tham số thông qua công thức Bayes. Cách này mẫu mực — phần việc chính ở đây
là chỉ định ra phân bố tiên nghiệm ra sao, và tính toán phân bố hậu nghiệm thế nào (vì
phải tính tích phân rất phức tạp về mặt tính toán). Chú ý rằng cách ước lượng maximum
likelihood chẳng qua là tính mốt (mode) của phân bố hậu nghiệm, nếu phân bố tiên
nghiệm được chọn là phân bố đều (uniform distribution). Trong phân tích Bayes, đặc
biệt là với mô hình tham số, thì không phải lo lắng gì về việc kiểm soát (regularization).
Nhưng nếu phân bố tiên nghiệm là một quá trình ngẫu nhiên (trong mô hình phi tham
số) thì vẫn phải lo lắng về chuyện kiểm soát tính phức tạp của tiên nghiệm (complexity
of prior distribution). Một công cụ là sensitivity analysis (phân tích tính nhạy cảm) của
phân bố cho tham số.
Phương pháp Bayes thực nghiệm (empirical Bayes). Phương pháp này có thể xem cách
ước lượng tần suất cho mô hình đa tầng. Mô hình đa tầng là một công cụ lý tưởng trong
việc kiểm soát độ phức tạp của các mô hình cho tham số.
Thuật ngữ ngành xác suất thống kê và học máy
12/14
Các vấn để suy diễn cụ thể hơn
Hypothesis testing. Trong kiểm định giả thuyết có một số khái niệm quan trọng: Null
hypothesis gọi là ? Alternative hypothesis? Có hai loại lỗi: Lỗi loại một (type-1 error)
và lỗi loại hai (type-2 error). Còn gọi là tỷ lệ lỗi dương tính (false positive) và lỗi âm
tính (false negative) trong đánh giá các treatment (?) trong y học. Trong công nghệ thì
type-1 error gọi là false alarm error rate (?), type-2 error chính là misdetection error rate
(?). Tất cả các loại rỗi này đều là hàm rủi ro đối với hàm thiệt 0-1. Cách ước lượng trong
kiểm định giả thuyết gọi là một hàm quyết định. Và người ta sử dụng hàm quyết định
thực hiện phép thử (test) cho giả thuyết. Một phép thử được đánh giá thông qua các bảo
đạm về giới hạn của các lỗi kể trên. Sự giẳng co giữa lỗi loại một và loại hai được biểu
diễn bẳng ROC curve (đường cong ROC). Các khái niệm liên hệ còn có significance
(?). Confidence interval dịch là ? p-value dịch là giá trị p. Power của phép thử gọi là sức
mạnh. Nếu chỉ có hai giả thuyết đẻ so sánh thì hàm quyết định tối ưu chính phải dựa
vào likelihood ratio (phân số khả năng). Likelihood ratio test gọi là phép thử dựa vào
phân số khả năng. Công cụ để đánh giá sức mạnh của một phép thử là thống kê giới hạn
(asymptotic statistics).
Kiểm định giả thuyết xuất phát từ thống kê tấn suất, do công của Neyman và Pearson.
Khái niệm này rất phản trực quan, và phải đợi đến Wald mới thống nhất cách suy diễn
này với cách hình thức suy diễn kiểu khác trong thống kê. Nếu tiếp cận theo nhãn quan
Bayes thì KDGT khá là đơn giản, không khác gì việc ước lượng một mô hình là bao.
Cần khái niệm phân bố tiên nghiệm cho các giả thuyết. Khái niệm Bayes factor sẽ được
dịch là ?
Sequential analysis. Trong phân tích tuần tự (sequential analysis) thì có sự giẳng co của
lỗi Bayes và thời gian trễ (delay time) của quyết định về giả thuyết. Khái niệm thử thông
dụng là sequential likelihood ratio test (phép thử dựa theo chuỗi phân số khả năng).
Công cụ lý thuyết đẻ đánh giá sức mạnh của phép thử là các phân tích về thời gian dừng,
phân tích các loại thời điểm vượt biên, v.v. trong lý thuyết xác suất về quá trình Markov.
Classification/regression/ranking. Trong bài toán phân lớp thì người ta gọi một cách ước
lượng để phân lớp là một máy học (learning machine). Tham số cần ước lượng ở đây
gọi là một hàm phân loại (classifier). Có thể tiếp cận vấn đề này trên cơ sở mô hình
tham số hoặc mô hình phi tham số. Để học được máy (mô hình) thường đòi hỏi nhiều
tính toán, chứ không phải các thống kê đơn giản như trong kiểm định giả thuyết cổ điển.
Cho nên dẫn đến những quan tâm về vấn đề hiệu quả của các giải thuật học/ ước lượng.
Cách học/ ước lượng, về mặt tính toán, có lexicon riêng là training (việc luyện máy).
Dữ liệu cần cho việc huấn luyện gọi là dữ liệu huấn luyện (training data). Phép thử một
hàm phân loại với dữ liệu mới gọi là testing. Dữ liệu thử chính là test data Nếu có hai
lớp để phân loại thì hàm phân loại tối ưu phải dựa vào likelihood ratio, rất giống như
trong kiểm định giả thuyết. Một khác biệt căn bản giữa bài toán phân lớp với bài toán
kiểm định lý thuyết là chỗ này: Cái đầu phải thử giả thuyết cho từng mẫu một. Cái sau
Thuật ngữ ngành xác suất thống kê và học máy
13/14
chỉ phải thử giả thuyết một lần cho cả đám đông. Có rất nhiều phương pháp phân lớp,
với các mô hình tham số và phi tham số, và các giải thuật học/ước lượng rất phong phú.
Kinh điển thì có linear discriminant analysis (phân tích phân biệt tuyến tính), logistic
regression (hồi quy logit). Hiện đại hơn thì có mạng nơ ron (neural network), radiant
basis network (?), support vector machines (?),
Bài toán hồi quy (regression analysis) tương tự như bài toán phân lớp, khác ở đây là cần
phải ước lượng/học phương trình hồi quy (thay vì hàm phân loại). Hàm phân loại chỉ có
giá trị rởi rạc, còn phương trình hồi quy thường tính ra các giá trị liên tục. Bài toán phân
cấp gần giống bài toán phân loại ở chỗ hàm phân loại cũng có giá trị rời rạc (và không
phải nhị phân), nhưng dữ liệu huấn luyện các mẫu về sự so sánh giữa các cấp chứ không
phải nhãn lớp (cấp).
Thuật ngữ ngành xác suất thống kê và học máy
14/14
Các file đính kèm theo tài liệu này:
- thuat_ngu_nganh_xac_suat_thong_ke_va_hoc_may_5746.pdf