Mọi Người Đều Nói Dối
Tóm Tắt Sách: "Mọi Người Đều Nói Dối" (Everybody Lies)
Tác giả: Seth Stephens-Davidowitz
Mở Đầu
Chào mừng các bạn thính giả đến với trạm dừng chân của tri thức. Hôm nay, chúng ta sẽ cùng nhau bóc tách một cuốn sách có khả năng làm đảo lộn hoàn toàn cách bạn nhìn nhận về thế giới và những người xung quanh: "Mọi Người Đều Nói Dối" của tác giả Seth Stephens-Davidowitz.
Hãy thử ngẫm lại xem, hôm nay bạn đã nói dối bao nhiêu lần? Sự thật là, mọi người đều nói dối. Người ta nói dối về số ly rượu đã uống trước khi về nhà. Họ nói dối về số lần đi tập gym trong một tuần, về giá tiền của đôi giày mới mua, và cả về chuyện có đọc cuốn sách mà họ đang thao thao bất tuyệt hay không. Người ta gọi điện báo nghỉ bệnh khi vẫn khỏe như vâm. Họ nói "sẽ liên lạc nhé" nhưng rồi bặt vô âm tín. Họ nói dối với bạn bè. Họ nói dối với ông chủ. Họ nói dối với trẻ con. Họ nói dối với cha mẹ. Họ nói dối với bác sĩ. Họ nói dối với chồng. Họ nói dối với vợ. Và đáng sợ nhất, họ nói dối với chính bản thân mình.
Vậy làm thế nào để chúng ta biết được sự thật về con người nếu tất cả đều đang nói dối? Tác giả Seth Stephens-Davidowitz, một cựu chuyên gia dữ liệu của Google và nhà kinh tế học tốt nghiệp từ Harvard, đã tìm ra câu trả lời. Câu trả lời đó không nằm ở những bảng khảo sát hay những cuộc phỏng vấn, mà nằm ở thanh công cụ tìm kiếm trên màn hình máy tính của bạn. Bằng cách tận dụng lợi thế cực mạnh của Dữ liệu lớn (Big Data), tác giả đã làm lộ diện những điều mà mỗi người thực sự muốn nói sâu bên trong tâm hồn mình. Xuyên suốt bản thảo sách nói này, chúng ta sẽ cùng nhau bước vào một phòng xưng tội khổng lồ mang tên Internet, để khám phá những sự thật trần trụi, đôi khi đáng sợ, nhưng vô cùng thú vị về bản chất con người.
Chương 1: Sự Sụp Đổ Của Các Phương Pháp Khảo Sát Truyền Thống
Để hiểu được sức mạnh của Dữ liệu lớn, trước hết chúng ta cần hiểu tại sao những phương pháp thu thập thông tin truyền thống lại thất bại thảm hại. Hãy quay ngược thời gian về cuộc bầu cử Tổng thống Mỹ năm 2016, một sự kiện đã làm rúng động toàn cầu.
Vào thời điểm đó, hầu hết các chuyên gia phân tích chính trị, các tờ báo lớn và những viện thăm dò dư luận uy tín nhất đều dự đoán sự thất bại của Donald Trump. Họ dựa vào các cuộc khảo sát qua điện thoại và phiếu hỏi, nơi cử tri khẳng định họ sẽ bầu cho ai và những vấn đề họ quan tâm là gì. Dựa trên những gì mọi người "nói", nước Mỹ dường như đã bước qua thời kỳ phân biệt chủng tộc và sẵn sàng cho những tư tưởng tiến bộ.
Nhưng Seth Stephens-Davidowitz lại nhìn thấy một bức tranh hoàn toàn khác thông qua Google Trends (Xu hướng tìm kiếm của Google). Ông nhận ra rằng, vào những đêm khuya, ở những khu vực mà người ta cho là tiến bộ nhất, số lượng lượt tìm kiếm các trò đùa phân biệt chủng tộc, những từ ngữ miệt thị người da đen và người nhập cư lại tăng vọt một cách đáng báo động. Những khu vực có tỷ lệ tìm kiếm phân biệt chủng tộc cao nhất trên Google lại chính là những nơi mang lại chiến thắng quyết định cho Donald Trump.
Tại sao lại có sự sai lệch này? Lý do nằm ở một khái niệm tâm lý học gọi là "Thiên kiến mong muốn xã hội" (Social Desirability Bias). Khi được hỏi bởi một người khác, dù là vô danh, con người luôn có xu hướng đưa ra những câu trả lời khiến họ trông có vẻ thông minh hơn, đạo đức hơn, và tốt đẹp hơn trong mắt xã hội. Họ sẽ nói rằng họ dự định đi bầu cử, họ quan tâm đến môi trường, họ không kỳ thị ai cả. Nhưng khi chỉ có một mình trước màn hình sáng rực của chiếc điện thoại hay máy tính, không có ai phán xét, họ mới bộc lộ những định kiến, nỗi sợ hãi và những khao khát thầm kín nhất. Bảng khảo sát đo lường "những gì chúng ta muốn thế giới nghĩ về mình", còn Google đo lường "những gì chúng ta thực sự là".
Chương 2: Google – Huyết Thanh Sự Thật Kỹ Thuật Số
Internet, và đặc biệt là Google, đã trở thành một loại "huyết thanh sự thật kỹ thuật số" chưa từng có trong lịch sử nhân loại. Trước đây, nếu muốn biết những điều thầm kín, các nhà khoa học xã hội phải dựa vào các nghiên cứu của Sigmund Freud hay các cuộc phỏng vấn sâu vô cùng tốn kém. Ngày nay, dữ liệu đó được tạo ra hàng tỷ lần mỗi ngày.
Trên mạng xã hội như Facebook hay Instagram, mọi người vẫn tiếp tục nói dối. Họ đăng ảnh những bữa ăn sang trọng, những chuyến du lịch xa hoa, và những lời có cánh dành cho vợ/chồng mình. Facebook là sân khấu để trình diễn. Ở đó, người ta thường xuyên chia sẻ các bài viết về tạp chí kinh tế hay chính trị sâu sắc. Nhưng dữ liệu thực tế cho thấy, những bài báo được đọc nhiều nhất, những trang web được truy cập nhiều nhất lại là những tin tức giải trí, tin giật gân, và nội dung người lớn.
Khi gõ vào thanh tìm kiếm của Google, người ta không có nhu cầu gây ấn tượng với cỗ máy. Họ chỉ muốn có thông tin. Chính vì vậy, Google trở thành một phòng xưng tội vô danh. Tác giả đã phân tích dữ liệu và phát hiện ra những câu hỏi đầy tính tổn thương mà hàng triệu người đang gõ mỗi ngày: "Tại sao tôi luôn cảm thấy buồn?", "Làm sao để biết chồng tôi có ngoại tình không?", "Tôi có phải là người đồng tính không?".
Một ví dụ kinh điển về sự dối trá được bóc trần là trong đời sống tình dục. Nếu cộng tất cả số lần quan hệ tình dục mà nam giới Mỹ tự khai báo trong các cuộc khảo sát, và so sánh với số lần nữ giới tự khai báo, con số của nam giới cao hơn nữ giới hàng tỷ lần. Điều này về mặt toán học là vô lý trong một xã hội phần lớn là dị tính. Rõ ràng là nam giới đã phóng đại, còn nữ giới đã nói giảm đi. Nhưng khi nhìn vào dữ liệu tìm kiếm bao cao su, thuốc tránh thai, hay các mối quan tâm về sức khỏe sinh sản trên mạng, các nhà nghiên cứu mới tính toán được con số thực tế, thấp hơn rất nhiều so với những gì cả hai giới tự nhận.
Chương 3: Bốn Quyền Năng Của Dữ Liệu Lớn
Tác giả định nghĩa Dữ liệu lớn không chỉ đơn thuần là việc có nhiều dữ liệu, mà nó mang lại bốn quyền năng cốt lõi làm thay đổi cách chúng ta nghiên cứu về con người.
**Quyền năng thứ nhất: Cung cấp dữ liệu mới.**
Trước đây, dữ liệu chỉ là những con số trên bảng tính. Ngày nay, mọi thứ đều biến thành dữ liệu. Văn bản, hình ảnh, giọng nói đều có thể được số hóa và phân tích. Một nghiên cứu đã phân tích hàng triệu từ ngữ được sử dụng trên Twitter và phát hiện ra rằng: Mức độ sử dụng những từ ngữ thể hiện sự giận dữ, căng thẳng và tiêu cực trên Twitter ở một khu vực nhất định có thể dự đoán tỷ lệ tử vong vì bệnh tim mạch của khu vực đó chính xác hơn cả các dữ liệu y tế truyền thống như tỷ lệ hút thuốc hay béo phì. Cảm xúc đã được định lượng thành dữ liệu.
**Quyền năng thứ hai: Dữ liệu trung thực.**
Như chúng ta đã bàn ở chương trước, dữ liệu từ các nền tảng tìm kiếm, các trang web khiêu dâm, hay dữ liệu mua sắm mang lại một bức tranh trung thực đến mức tàn nhẫn về hành vi con người, vượt qua rào cản của sự thiên kiến và nỗi sợ bị phán xét.
**Quyền năng thứ ba: Cho phép phóng to (Zooming In).**
Với các bảng khảo sát truyền thống, nếu bạn khảo sát 1.000 người, bạn chỉ có thể đưa ra kết luận chung cho toàn quốc. Bạn không thể chia nhỏ 1.000 người đó ra để xem những người phụ nữ gốc Á, ở độ tuổi 30, sống tại một vùng nông thôn cụ thể đang nghĩ gì, vì mẫu số quá nhỏ sẽ dẫn đến sai số. Nhưng với dữ liệu lớn của hàng tỷ lượt tìm kiếm, bạn có thể "phóng to" vào bất kỳ ngóc ngách nào của xã hội.
Điều này sinh ra khái niệm "Bản sao dữ liệu" (Doppelgänger). Hệ thống y tế hoặc tài chính có thể tìm ra hàng ngàn người trong quá khứ có chỉ số cơ thể, lịch sử mua sắm, gen di truyền giống hệt bạn. Bằng cách xem những "bản sao" này đã mắc bệnh gì hay thành công ra sao trong quá khứ, các hệ thống có thể dự đoán chính xác tương lai của bạn và đưa ra lời khuyên cá nhân hóa tuyệt đối.
**Quyền năng thứ tư: Thử nghiệm nhân quả (A/B Testing).**
Trước đây, rất khó để biết một chiến dịch quảng cáo hay một chính sách có thực sự hiệu quả hay không. Nhưng trong thế giới kỹ thuật số, các công ty liên tục thực hiện các thử nghiệm A/B. Họ cho một nửa người dùng xem giao diện A, nửa còn lại xem giao diện B, và đo lường xem bên nào click chuột nhiều hơn. Chiến dịch tranh cử của cựu Tổng thống Obama đã sử dụng thử nghiệm A/B trên hàng triệu email gửi đi, thay đổi từng tiêu đề nhỏ, từng nút bấm quyên góp để tìm ra tổ hợp mang lại lượng tiền tài trợ khổng lồ nhất. Dữ liệu lớn cho phép chúng ta từ bỏ việc "đoán mò" dựa trên kinh nghiệm của các chuyên gia, và chuyển sang việc "đo lường" thực tế.
**Chương 4: Dữ Liệu Bóc Trần Những Góc Khuất Tâm Lý Xã Hội**
Một trong những phần gây chấn động nhất của cuốn sách là cách dữ liệu lớn bóc trần những định kiến vô thức đang bám rễ sâu trong xã hội, ngay cả ở những người tự nhận mình là tiến bộ nhất.
Hãy lấy ví dụ về cách cha mẹ nuôi dạy con cái. Trong các cuộc khảo sát, đa số cha mẹ đều khẳng định họ yêu thương và kỳ vọng vào con trai và con gái như nhau. Họ khẳng định họ đối xử công bằng tuyệt đối. Nhưng Google lại tiết lộ một sự thật nhức nhối.
Tác giả đã phân tích các cụm từ tìm kiếm bắt đầu bằng "Tại sao con trai tôi..." và "Tại sao con gái tôi...". Kết quả là, cha mẹ có xu hướng tìm kiếm cụm từ "Con trai tôi có phải là thiên tài không?" cao gấp hai lần rưỡi so với khi tìm kiếm về con gái. Đối với bé gái, câu hỏi phổ biến nhất mà các bậc phụ huynh tìm kiếm lại là: "Con gái tôi có bị thừa cân không?" hay "Làm sao để con gái tôi xinh đẹp hơn?". Mặc dù số lượng bé gái tham gia các chương trình tài năng không hề thua kém bé trai, nhưng trong vô thức, cha mẹ vẫn gắn liền trí tuệ với con trai và ngoại hình với con gái. Dữ liệu này không nhằm mục đích lên án, mà nó như một hồi chuông cảnh tỉnh giúp chúng ta nhận ra những định kiến mù quáng của chính mình để sửa chữa cách giáo dục thế hệ tương lai.
Bên cạnh đó, dữ liệu lớn cũng giúp giải mã tâm lý học của sự trầm cảm và bạo lực. Chẳng hạn, các nhà nghiên cứu thường lo ngại rằng bạo lực trên phim ảnh sẽ kích động bạo lực ngoài đời thực. Nhưng khi phân tích dữ liệu mua vé xem phim và số liệu tội phạm cuối tuần, người ta nhận ra rằng: Vào những dịp cuối tuần có phim bạo lực ra mắt, tỷ lệ tội phạm thực tế lại GIẢM xuống. Tại sao? Vì những người có khuynh hướng bạo lực thay vì lang thang ngoài đường gây rối, họ lại chui vào rạp chiếu phim, ngồi yên ba tiếng đồng hồ và tiêu hao năng lượng vào việc xem phim. Dữ liệu đã đảo lộn hoàn toàn tư duy thông thường.
**Chương 5: Giới Hạn Của Dữ Liệu Lớn – Lời Nguyền Của Đa Chiều**
Tung hô dữ liệu lớn là vậy, nhưng tác giả Seth Stephens-Davidowitz cũng dành hẳn một phần quan trọng để cảnh báo về những cái bẫy nguy hiểm của nó. Dữ liệu lớn không phải là cây đũa thần có thể giải quyết mọi vấn đề của nhân loại.
Lỗ hổng lớn nhất được gọi là "Lời nguyền của đa chiều" (The Curse of Dimensionality) hay việc tìm ra những "Tương quan giả mạo" (Spurious correlations). Hãy tưởng tượng bạn tung một đồng xu. Khả năng nó ra mặt sấp là 50%. Nhưng nếu bạn bắt hàng triệu người cùng tung đồng xu hàng triệu lần, chắc chắn bạn sẽ tìm ra được một người tung được mặt sấp 20 lần liên tiếp. Người đó không có siêu năng lực, đó chỉ là xác suất ngẫu nhiên.
Tương tự như vậy, khi bạn có một cơ sở dữ liệu khổng lồ với hàng tỷ biến số, máy tính của bạn chắc chắn sẽ tìm ra được những biến số đi song hành với nhau một cách tình cờ. Có một ví dụ vui nhộn: Dữ liệu cho thấy tỷ lệ ly hôn ở bang Maine (Mỹ) giảm hoàn toàn tỷ lệ thuận với mức tiêu thụ bơ thực vật tính trên đầu người. Nhìn vào biểu đồ, hai đường này khớp nhau đến kỳ lạ. Nhưng việc ăn bơ không thể nào là nguyên nhân cứu vãn hôn nhân. Đó chỉ là một sự trùng hợp ngẫu nhiên vô nghĩa do máy tính tìm ra trong biển dữ liệu khổng lồ.
Google từng rơi vào cái bẫy này với dự án "Google Flu Trends" (Xu hướng cúm của Google). Họ tin rằng bằng cách theo dõi các từ khóa tìm kiếm về thuốc ho, sốt, đau đầu, họ có thể dự đoán số người mắc bệnh cúm nhanh hơn và chính xác hơn Trung tâm Kiểm soát Dịch bệnh (CDC). Ban đầu, nó hoạt động rất tốt. Nhưng vài năm sau, thuật toán của Google thất bại thảm hại, dự đoán sai lệch gấp đôi thực tế. Lý do là hệ thống đã vô tình ghi nhận các từ khóa không liên quan (ví dụ: tìm kiếm thông tin về môn bóng rổ trung học diễn ra cùng thời điểm mùa cúm) làm chỉ báo bệnh cúm. Khi thuật toán không có sự giám sát của tư duy và trí tuệ con người, nó sẽ trở nên mù quáng trước những dữ liệu rác.
Vì vậy, bài học quan trọng là: Dữ liệu lớn không thể tự nó giải thích nguyên nhân. Nó chỉ cho ta biết "Cái gì" đang xảy ra, còn câu hỏi "Tại sao" vẫn cần đến sự thông thái, tư duy logic và lý thuyết của các nhà khoa học xã hội. Dữ liệu lớn không thay thế con người, nó chỉ là công cụ để con người kiểm chứng các giả thuyết của mình.
**Chương 6: Mặt Tối Của Dữ Liệu Và Vấn Đề Đạo Đức**
Chương cuối của cuốn sách mở ra một cuộc thảo luận nghiêm túc về khía cạnh đạo đức. Khi các tập đoàn lớn, các ngân hàng và chính phủ có trong tay thứ "huyết thanh sự thật" này, họ có thể làm gì với chúng ta?
Hãy tưởng tượng một ngân hàng phát hiện ra rằng, những người gõ chữ hoa chữ thường lộn xộn trong đơn vay vốn thường có tỷ lệ vỡ nợ cao hơn. Hoặc họ phát hiện những người hay tìm kiếm thông tin về cờ bạc trên mạng là những khách hàng rủi ro. Ngân hàng có quyền từ chối cho bạn vay tiền dựa trên lịch sử tìm kiếm Google của bạn không?
Hay một ví dụ đen tối hơn: Một sòng bài có thể sử dụng dữ liệu lớn để xác định thời điểm tâm lý của một con bạc đang yếu đuối nhất (thường thông qua lịch sử lướt web về sự chán nản, nợ nần), sau đó gửi trực tiếp một vé mời đánh bạc miễn phí vào email của họ để kéo họ vào con đường khuynh gia bại sản. Các công ty bảo hiểm có thể từ chối bán bảo hiểm cho bạn nếu thuật toán "bản sao dữ liệu" dự đoán bạn có nguy cơ mắc bệnh ung thư trong vòng 10 năm tới.
Sức mạnh dự đoán của Dữ liệu lớn có thể bị lạm dụng để thao túng và chèn ép những người dễ bị tổn thương nhất trong xã hội. Tác giả cảnh báo rằng, chúng ta đang bước vào một kỷ nguyên mà tốc độ phát triển của công nghệ thu thập dữ liệu đi nhanh hơn rất nhiều so với tốc độ xây dựng các bộ luật bảo vệ quyền riêng tư. Do đó, việc ẩn danh hóa dữ liệu, đảm bảo tính minh bạch của các thuật toán và thiết lập những lằn ranh đạo đức chặt chẽ là nhiệm vụ sống còn của xã hội hiện đại. Chúng ta cần những giới hạn để đảm bảo rằng Dữ liệu lớn được sử dụng để thấu hiểu và phục vụ con người, chứ không phải để biến con người thành những con rối bị điều khiển.
**Kết Luận**
Các bạn thính giả thân mến, khép lại cuốn sách "Mọi Người Đều Nói Dối", Seth Stephens-Davidowitz đã mở ra trước mắt chúng ta một kỷ nguyên mới của ngành khoa học xã hội. Xuyên suốt chiều dài lịch sử, việc thấu hiểu con người luôn là một môn khoa học mờ ảo, đầy tính suy đoán. Nhưng nhờ có kho tàng Dữ liệu lớn từ Internet, khoa học xã hội đang dần trở thành một môn khoa học chính xác, giống như vật lý hay hóa học.
Thông điệp đọng lại của cuốn sách không phải là một cái nhìn bi quan về một thế giới tràn ngập sự dối trá. Ngược lại, nó mang đến một sự giải thoát và lòng thấu cảm sâu sắc. Khi nhìn vào thanh tìm kiếm của hàng tỷ người, chúng ta nhận ra rằng: Đằng sau những vỏ bọc hoàn hảo trên mạng xã hội, tất cả chúng ta đều chia sẻ chung những nỗi sợ hãi, những sự bất an, những khiếm khuyết và những câu hỏi ngây ngô về bản thân, về tình yêu, về sức khỏe.
Bạn không hề cô đơn trong những cuộc chiến nội tâm của mình. Việc nhận ra mọi người đều nói dối và che giấu những góc khuất của họ giúp chúng ta bớt đi sự phán xét người khác và bớt đi sự dằn vặt chính mình. "Mọi Người Đều Nói Dối" là một tác phẩm không thể bỏ qua đối với những ai làm trong lĩnh vực marketing, kinh doanh, tâm lý học, hay đơn giản là bất kỳ ai muốn tìm kiếm một lăng kính trung thực nhất để giải mã sự phức tạp muôn màu của tâm hồn con người.
