Thứ Ba, 6 tháng 7, 2021

2 mặt sáng tối của Big Data

 

2 MẶT SÁNG TỐI CỦA BIG DATA


Trong cuốn sách “Big Data” (tên tiếng Việt: Dữ liệu lớn), Viktor Mayer-Schönberger, một giáo sư về quản trị Internet tại Viện nghiên cứu Internet thuộc Đại học Oxford, cùng Kenneth Cukier, quản trị viên dữ liệu (data editor) cho tờ The Economist, đã chỉ ra rằng bản chất của hoạt động tình báo đã thay đổi.

.

Một việc mà Google làm. Amazon làm. Walmart làm. Và theo như các mẩu tin tức được công bố thì Chính phủ Mỹ cũng làm.

Amazon sử dụng dữ liệu khách hàng để đưa ra đề xuất dựa trên lịch sử mua hàng cũ. Google sử dụng dữ liệu tìm kiếm và các thông tin khác nó thu nhận được để bán quảng cáo và phục vụ cho các dịch vụ và sản phẩm khác.

Cơ quan An ninh Quốc gia Mỹ cũng đang thu thập hàng triệu ghi âm cuộc gọi của các khách hàng sử dụng Verizon theo yêu cầu mật của tòa án – “không trừ ai và theo số lượng lớn” và “bất kể họ có đang bị nghi ngờ về hành vi xấu nào không”.

.

Theo tin từ The Guardian và The Washington Post, cơ quan này còn thực hiện chương trình tình báo khác tên là Prism, trong đó họ thu thập dữ liệu trong email, audio chat, video chat, ảnh, tài liệu, tên truy cập từ các công ty mạng hàng đầu như Microsoft, Google, Yahoo, Facebook và Apple, nhằm mục đích theo dõi các mục tiêu bên ngoài nước Mỹ.

.

Thành phố New York cũng sử dụng phân tích dữ liệu để tìm ra mô hình hiệu quả mới trong mọi thứ, từ cách phản ứng trước thiên tai tới nhận diện các cửa hàng bán thuốc lá lậu, tới việc thông tin cho các thanh tra nhà ở đến những ngôi nhà mà họ cần lưu ý nhất. Trong những năm tới, như Mayer-Schönberger và Cukier tranh luận, dữ liệu lớn sẽ dần dần trở thành “một phần trong những giải pháp đối với các vấn đề toàn cầu như biến đổi khí hậu, xóa bỏ bệnh dịch, củng cố hành chính và phát triển kinh tế.


Đương nhiên là dữ liệu lớn cũng có mặt tối của nó, và các tác giả cũng đã phân tích một cách khéo léo những mối nguy hại mà họ dự đoán sẽ xảy đến. Việc bảo hộ quyền riêng tư sẽ ngày một trở nên khó khăn. Đặc biệt, các chiến lược bảo hộ cũ như “thông báo cho cá nhân, thỏa thuận tự nguyện, hủy đăng ký và nặc danh hóa” sẽ ngày một kém hiệu quả hoặc thậm chí vô hiệu.


Mối nguy hiểm khiến Cukier và Mayer-Schönberger lo ngại trong tương lai gần, việc phân tích dữ liệu lớn  có thể làm nảy sinh tình huống là “việc phán quyết rằng ai có tội có thể được dựa trên việc dự đoán về hành vi tương lai của người đó”.


Hiện tại các công ty bảo hiểm và các hội đồng phán quyết phóng thích đã sử dụng việc phân tích dữ liệu để dự đoán các rủi ro, và cũng theo các tác giả, ngày càng nhiều nơi tại Mỹ sử dụng “chính sách dự báo” cùng “dữ liệu nghiền” để “lựa chọn xem phố nào, nhóm nào và các cá nhân nào nên được kiểm soát gắt gao hơn, bởi lẽ thuật toán đã chỉ ra rằng khu vực này có khả năng phạm tội cao”.


Cùng lúc đó, họ cũng quan sát được rằng, những dữ liệu lớn làm trầm trọng thêm “một vấn đề đã tồn tại rất lâu: là phụ thuộc vào số liệu, trong khi chúng còn có khả năng sai lệch cao hơn rất nhiều so với ta có thể hình dung”. 

.

Họ dẫn ra sự leo thang trong cuộc chiến tranh Việt Nam dưới sự chỉ đạo của Robert S. McNamara (người nguyên là thư ký Bộ Quốc phòng dưới trướng Tổng thống John F. Kennedy và Lyndon B. Johnson) như là một case study điển hình trong “lỗi phân tích dữ liệu”: là người tiên phong áp dụng phân tích dữ liệu, McNamara đã phụ thuộc quá nhiều vào các ma trận như số lượng quân để đo lường tiến trình cuộc chiến tranh; trong khi rõ ràng cuộc chiến tranh Việt Nam là cuộc chiến về ý chí nhiều hơn là về những con số.

.

Gần đây hơn, ta còn có thể thấy nhiều thất bại khác của phân tích dữ liệu, bao gồm vụ sụp đổ của phố Wall năm 2009, khi đó đã rơi vào khủng hoảng càng nghiêm trọng do các hệ thống giao dịch vô cùng rắc rối phụ thuộc vào thuật toán, nhà thống kê Nate Silver đã chỉ ra các sai lầm các của số liệu trong các lĩnh vực như khoa học động đất, tài chính và nghiên cứu sinh dược. Ông cũng biện luận rằng “việc dự báo trong thời đại của Dữ liệu lớn” đã “không diễn ra quá suôn sẻ”

.

Đáng ghi nhận là Cukier và Mayer-Schönberger cũng đã nhận ra những hạn chế của số liệu. Đây là cuốn sách có thể giúp chúng ta nhìn nhận được tầm quan trọng của dữ liệu lớn như một công cụ để “lượng hóa và thấu hiểu thế giới”, nhưng nó cũng đồng thời cảnh báo ta không nên trở thành nạn nhân của “nền độc tài dữ liệu”.

.

“Chúng ta nên cẩn trọng để không phụ thuộc quá đà vào dữ liệu, thay vì lặp lại sai lầm của Icarus, người đã quá tin tưởng vào năng lực bay của mình để rồi dùng nó sai cách và rơi xuống biển sâu”.

 

Theo New York Times  

Không có nhận xét nào:

Đăng nhận xét