Chắc đó là xác suất
Nếu viết title tiếng Anh là "probably a probability" thì nghe nó có chơi chữ hơn
Note: mình mới có được 200 subscribers. Cũng có một chút vui nhỏ, thế nên tự nhiên lại đâm ra chăm chỉ viết thêm một bài ngày hôm nay :)
Máy bay và đọc sách
Từ khi thế giới trở nên kết nối hơn, thì khả năng tập trung của con người cũng giảm đi nhiều. Chắc mọi người cũng khá giống mình, luôn có cảm thấy một sự bất an nhất định khi không có điện thoại ở bên cạnh. Smartphone bây giờ đã trở thành một đồ vật bất ly thân, mọi người còn sợ mất điện thoại hơn cả mất ví hay túi xách nữa. Tuy nhiên, điện thoại có lẽ là một trong những culprit lớn nhất, dẫn đến cho sự mất tập trung của con người.
Với hàng chục applications trong máy, mỗi cái hàng ngày gửi cho bạn hàng chục hàng trăm cái thông báo, gần như mọi người đều sẽ có thói quen cứ mấy phút lại cầm điện thoại lên quẹt quẹt để dọn hết đống notifications. Nếu trong thời gian làm việc, thì đây là một hành vi sẽ dẫn đến context-switching, làm bạn mất tập trung và sẽ làm việc kém hiệu quả hơn. Mình cũng đã từng cố gắng tinh gọn đống noti trong điện thoại của mình, để hàng ngày sẽ ít ngó vào điện thoại hơn. (Cái này cũng có tác dụng phụ, như là mấy lần vì tắt noti mà mình quên đóng tiền điện nên bị cắt mất điện…)
Khoảng thời gian trên máy bay, khi bạn phải tắt điện thoại và chuyển vào chế độ máy bay, như là một chút giải thoát nhẹ khỏi sự tấn công dồn dập của các loại thông báo. Thoát khỏi sự kìm cặp của Internet, không nghịch điện thoại lướt web, nhắn tin hay chơi game, mấy giờ trên máy bay đôi khi giúp mình có thời gian yên bình với bản thân một chút. Tầm mấy năm trước, thì mình còn hay dùng thời gian đó để đọc sách; nhưng gần đây thì bớt đi, có thể là ngủ, hoặc là xem phim trên máy bay.
Chuyến bay gần nhất này, tự nhiên mình lại nổi hứng, cầm theo một cuốn sách để đọc. Sách thì cũng cũ rồi, nhưng mà mình chưa bao giờ đọc hết.
Xác suất thống kê
Quyển sách này mình mua từ lâu lắm rồi, từ thời trước Covid; mua ở trên BookDepository trước khi nó đóng cửa mất. Đụng vào nó mình như kiểu được nhắc lại về thời mình còn đam mê Data (bây giờ vẫn đam mê nhưng mà đam mê hơi khác =))).
Nếu bạn chưa biết thì quyển sách này giúp giải thích các khái niệm về Data, về xác suất thống kê theo một cách đơn giản và dễ hiểu, kèm theo khá nhiều ví dụ trực quan và thực tế, cùng giọng văn khá là vui vẻ, dễ gần và dễ chịu. Không chỉ nói về xác suất thống kê, mà tác giả cũng đề cập đến sự thiếu sót của thống kê, hay là cách diễn giải và trình bày về thống kê để có ý định dẫn dắt và “lừa” người đọc; như cách mà các truyền thông hay quảng cáo có thể sử dụng để dẫn dắt dư luận. Một điểm hơi trừ nhẹ, đó là các ví dụ trong sách có thể hơi bị “Mỹ” quá, nên nếu ai chưa quen có thể đọc hơi khó hiểu (như là dùng ví dụ batting average của bóng chày các thứ, nếu chưa rõ luật thì có thể không hiểu người ta đang nói về cái gì). Nhưng trong thời điểm mà con người hiện giờ đang bị tấn công từ mọi phía bởi các loại content trên mạng, quyển sách này có thể giúp bạn trong việc tỉnh táo hơn khi phân tích dữ liệu và chắt lọc thông tin ở trên mạng.
Đọc lại quyển sách này cũng giúp mình nhớ lại khá nhiều thứ hay ho mà mình từng thích ở statistics từ trước. Nhiều khi nó là những thứ khá là đơn giản thôi, nhưng mà lại có thể áp dụng vào các công việc trong đời thực.
Một câu chuyện được kể trong sách, đó là về phương pháp rà soát cho 1 căn bệnh hiếm gặp; về việc xác suất thống kê có thể đưa lại các kết quả nghe hơi counterintuitive một xíu.
Có một căn bệnh hiếm gặp, và chỉ có 1/100,000 người có khả năng nhiễm căn bệnh này. Các nhà khoa học nghiên cứu ra một biện pháp vô cùng chính xác để xét nghiệm:
Nếu người đó có bệnh thì chắc chắn xét nghiệm ra dương tính
Nếu người đó không có bệnh, khả năng xét nghiệm chính xác là 99.99%, còn lại là false positive (không có bệnh nhưng lại xét nghiệm ra dương tính)
Mặc dù biện pháp xét nghiệm có độ chính xác rất cao, nhưng khi dùng xác suất thống kê để tính ra, thì thực ra là phương pháp xét nghiệm này lại không hiệu quả. Giả sử chúng ta làm xét nghiệm cho một tệp 100 triệu người.
có 100,000,000 * 1/100,000 = 1000 người (nhiễm bệnh và xét nghiệm dương tính)
có 99,999,000 người không mắc bệnh.
có 99,999,000 * (1 - 99.99%) = 10000 người (không nhiễm bệnh mà xét nghiệm dương tính)
có tổng 11000 xét nghiệm ra kết quả dương tính, nhưng số thực mắc là 1000, thế nên hiệu quả tìm ra người dương tính lại là 1000/11000, ~ 9.1%.
→ Mặc dù xét nghiệm có vẻ rất hiệu quả, nhưng trong thực tế thì khả năng ứng dụng lại không cao
Một trường hợp thực tế cho bài toán này trong việc xây dựng hệ thống là gì? Mình có thể ứng dụng bài toán này vào việc xây dựng system alerts cho một hệ thống engineering. Một hệ thống Enterprise Architecture, có thể được thiết kế với độ reliability là 99.999% (tương ứng với khoảng 5 phút downtime hàng năm). Khi bạn đặt một cái monitoring metrics lên hệ thống và thiết lập alerts lên nó; nếu mà cái báo động này không đủ chuẩn xác (ví dụ false positive 0.01% như ví dụ ở trên), thì chỉ báo alerts của bạn thực ra chỉ chính xác có 9.1%, và bạn sẽ nhận được rất nhiều báo động giả.
Khi xác suất cũng không đủ
Một trong những thứ thú vi về xác suất, đó là con người sử dụng rất nhiều các khái niệm của xác suất thống kê vào việc ra quyết định. Các việc decision making sẽ thường được mô phỏng vào các mô hình dữ liệu; mỗi lựa chọn sẽ có một cái Cost và Expected Value, để mọi người có thể đánh giá và đưa ra các quyết định một cách “toán” (mathematically sound). Gần như hầu hết các quyết định Data-driven đều dựa vào những khái niệm này, từ casino game(black jack, poker, rouletter) hay là portfolio management, vân vân và mây mây.
Có một nhánh nghiên cứu về cách ra quyết định của con người, và người ta gọi nó là Decision Theory. Probablity là gốc rễ của vấn đề này, và nhánh nghiên cứu này nó đi vào việc là con người sẽ ra quyết định thế nào để nó là “rational” (chắc có thể dịch tạm là sáng suốt).
Tuy nhiên, vẫn có những trường hợp mà thực tế, tuỳ theo cách mình xem xét bài toán, mà đáp án “rational” nó lại khác nhau. Một bài toán tiêu biểu, mà được nhiều người nghiên cứu, gọi là Newcomb’s Paradox. Mình sẽ thử tóm tắt bài toán một cách nôm na như thế này
Có một người ngoài hành tinh X, xuất hiện trước mặt bạn, và họ có khả năng đọc được suy nghĩ của bạn và biết được bạn nghĩ gì.
X đưa ra trước mặt bạn 2 cái hộp, và bạn có 2 lựa chọn: chỉ lấy hộp B, hoặc là lấy cả 2 hộp A và B.
Hộp A trong suốt và có $1,000
Hộp B thì kín, và có điều kiện:
Nếu X đoán là bạn chọn cả 2 hộp thì hộp B sẽ rỗng
Nếu X đoán là bạn chỉ lấy mỗi B, thì hộp B sẽ có $1,000,000
Bạn sẽ lựa chọn cách nào?
Bài toán thì nghe khá là đơn giản, và chắc là mọi người đều có đáp án của mình. Tuy nhiên, khi nghiên cứu, thì các nhà khoa học lại phát hiện ra là lựa chọn của mọi người lại được chia đều làm đôi, và cả 2 hướng đều có lý. Đây lại là 2 nhánh suy nghĩ của Decision Theory, gọi là Causal Decision Theory(CDT) và Evidential Decision Theory(EDT)
CDT coi như là X đã sắp xếp từ trước rồi, nên là dù gì đi chăng nữa thì bạn lấy 2 hộp sẽ lợi hơn là chỉ lấy 1 hộp
EDT thì sẽ khuyến cáo là bạn chỉ nên lấy hộp B. Ví dụ nếu X có khả năng đoán trúng 99.99%
Nếu bạn chọn hộp B, expected payout của bạn sẽ là (0.9999*1M +0.0001*0) =0.9999M
Nếu bạn chọn cả 2, expected payout sẽ là (0.0001*1M + 1000), nhỏ hơn rất nhiều
Thế nên chưa phải cứ có Probability vào là dễ tính đâu…
Kết
Xác suất thống kê là một phần mình rất thích của Toán, và đặc biệt khi xác suất thống kê đó được ứng dụng đi sâu hơn, dẫn đến các bài toán đấu trí như Game Theory, hoặc là các khả năng tư duy cao và sâu hơn. Đọc một chút, làm mình cũng muốn chia sẻ một ít sự nhiệt tình này cho người khác nữa, hy vọng là có người cũng thấy những điều này thú vị.