Nghiên cứu: AI có khả năng lừa dối và tham vọng có thể hủy duyệt loài người

Vương Quân
•
Thứ Tư, 15/05/2024

Mối lo ngại về Trí tuệ nhân tạo ngày càng tăng với sự phát triển nhanh chóng và ứng dụng rộng rãi của AI. Các chuyên gia từ lâu đã cảnh báo về mối đe dọa AI nằm ngoài kiểm soát của con người, nhưng theo một nghiên cứu mới cho thấy, điều đó đang xảy ra.

Theo AFP, một nhóm các nhà khoa học hôm 10/5 đã đăng một bài báo trên tạp chí Patterns cho hay, các hệ thống AI hiện nay vốn dĩ ban đầu được thiết kế để trung thực, tuy nhiên đã phát triển các kỹ thuật lừa dối đáng lo ngại, chẳng hạn lừa dối trong xác minh “tôi không phải robot”…

Tác giả chính Peter Park của báo cáo nghiên cứu cho biết, những ví dụ như vậy nghe có vẻ tầm thường, nhưng những vấn đề tiềm ẩn được phơi bày có thể sớm gây ra hậu quả nghiêm trọng trong thế giới thực.

Nhà nghiên cứu Parker tại Viện Công nghệ Massachusetts chuyên về bảo mật AI nói với AFP rằng những năng lực nguy hiểm này thường chỉ được phát hiện sau khi sự việc xảy ra, thật đáng ngại khi khả năng rèn luyện xu hướng thành thật của AI kém hơn so với xu hướng lừa dối.

Parker cảnh báo rằng việc AI lừa dối nếu xem nhẹ có thể sớm gây ra hậu quả nghiêm trọng trong thế giới thực. Ông chỉ ra sự khác biệt giữa hệ thống AI học sâu (AI deep learning) và phần mềm truyền thống là, hệ thống AI không máy móc mà có khả năng sáng tạo thông qua các quy trình tương tự như nhân giống chọn lọc. Điều này có nghĩa là, trong môi trường đào tạo, hành vi AI tưởng chừng như có thể dự đoán và kiểm soát được, lại có thể nhanh chóng trở nên không thể kiểm soát được, hoặc thậm chí không thể dự đoán được ở bên ngoài môi trường.

Nghiên cứu của nhóm bắt đầu với hệ thống AI Cicero của công ty công nghệ Meta. Hệ thống này ban đầu được thiết kế để chơi một trò chơi chiến lược có tên “Ngoại giao” (Diplomacy), và chìa khóa để chiến thắng là kết liên minh.

Theo một báo cáo được công bố vào năm 2022 trên tạp chí Khoa học (Science), Cicero đã thể hiện rất tốt trong trò chơi và điểm số của nó được xếp vào top 10% những người chơi cao cấp nhất. Vì vậy, Parker rất nghi ngờ cách Meta mô tả nhiệt tình về chiến thắng của Cicero trong trò chơi.

Meta tuyên bố rằng Cicero phần lớn là trung thực và hữu ích, thậm chí không bao giờ mưu mô xấu xí sau lưng. Nhưng khi các đồng nghiệp của Parker đào sâu vào thông tin đầy đủ, họ phát hiện ra vấn đề khác.

Ví dụ: Cicero đóng vai nước Pháp trong trò chơi, âm mưu với nước Đức do bên chơi là người thực chơi, để lừa dối và xâm chiếm nước Anh cũng do người chơi là con người thực. Mặc dù Cicero hứa sẽ bảo vệ nước Anh nhưng vẫn bí mật báo tin cho Đức.

Trong một tuyên bố với AFP, Meta không bác bỏ cáo buộc cho rằng Cicero đã có thể biết lừa dối. Họ chỉ cho hay “đây hoàn toàn là một dự án nghiên cứu. Các mô hình do các nhà nghiên cứu của công ty chúng tôi xây dựng đã được đào tạo và mục đích của chúng chỉ là để chơi trò chơi Ngoại giao. … Chúng tôi không có ý định sử dụng trong các sản phẩm của mình nghiên cứu này hoặc những gì chúng tôi đã học được tương tự”.

Parker và các đồng nghiệp của ông cũng phát hiện ra, đây chỉ là một trong nhiều trường hợp các hệ thống AI khác nhau đã tự biết chủ động lừa dối để đạt được mục tiêu.

Trong một trường hợp nổi bật khác, hệ thống Chat GPT-4 của công ty công nghệ OpenAI đã tuyên bố dối trá rằng nó là người khiếm thị, trong khi nền tảng TaskRabbit đã thuê một con người để vượt qua nhiệm vụ xác minh “Tôi không phải là người máy”.

Các tác giả của báo cáo nghiên cứu cũng cho rằng AI có nguy cơ gian lận hoặc gây ảnh hưởng không đúng đắn tới các cuộc bầu cử. Trong trường hợp xấu nhất, AI với trí thông minh phi thường có thể theo đuổi quyền lực và kiểm soát xã hội đáp ứng được mục tiêu của AI “không bị con người kiểm soát”, khi đó thì con người có thể bị tước quyền một cách tàn bạo, hoặc thậm chí bị AI làm cho tuyệt chủng.

Để giảm thiểu rủi ro, nhóm nghiên cứu cũng đề xuất một số biện pháp như: Lập pháp yêu cầu các công ty thông báo liệu đó là tương tác của con người hay tương tác AI, đặt hình mờ kỹ thuật số trên nội dung do AI tạo ra, phát triển công nghệ có thể phát hiện AI lừa dối, sử dụng “suy nghĩ” bên trong của AI để kiểm tra hành vi bên ngoài của AI.

Báo cáo: AI có thể khiến loài người tuyệt chủng

Theo tin của CNN, gần đây Bộ Ngoại giao Mỹ đã ủy quyền cho công ty tư nhân Gladstone AI thực hiện báo cáo nghiên cứu về AI. Công ty này đã cảnh báo hệ thống AI tiên tiến nhất, trong trường hợp xấu nhất có thể gây “đe dọa cấp độ tuyệt chủng” đối với loài người. Khảo sát này là kết quả của các cuộc phỏng vấn với hơn 200 người trong hơn một năm, những người được phỏng vấn là các giám đốc điều hành cấp cao của các công ty AI, các chuyên gia về vũ khí hủy diệt hàng loạt, các nhà nghiên cứu an ninh mạng và các quan chức an ninh quốc gia trong chính phủ.

Giám đốc điều hành và đồng sáng lập của Gladstone AI là Jeremie Harris đã chỉ ra trong một cuộc phỏng vấn với CNN rằng AI đã là công nghệ mang tính cách mạng, có thể giúp chúng ta chữa bệnh tật và thực hiện những khám phá khoa học, thậm chí vượt qua những thách thức mà chúng ta từng nghĩ là không thể vượt qua. Tuy nhiên, nó cũng có thể mang đến những rủi ro nghiêm trọng. Các nghiên cứu và phân tích thực nghiệm được công bố tại các hội nghị AI hàng đầu thế giới ngày càng thừa nhận rằng, khi AI vượt quá một ngưỡng nhất định có thể trở nên không thể kiểm soát được.

Gladstone AI tin rằng các hệ thống AI tiên tiến nhất có thể được vũ khí hóa và trở thành nguy hiểm không thể ngăn chặn. Thứ hai, báo cáo nêu rõ rằng có những lo ngại tiềm ẩn trong các phòng thí nghiệm AI, vì các nhà nghiên cứu có thể mất quyền kiểm soát các hệ thống đang được phát triển, điều này sẽ gây ra hậu quả tàn khốc cho an ninh toàn cầu. Ngoài ra, sự trỗi dậy của AI cũng có thể làm suy yếu an ninh và ổn định toàn cầu, các nước có thể bắt đầu một vòng chạy đua vũ trang mới trong lĩnh vực AI giống như từng làm với vũ khí hạt nhân.

Robot có nhiều tham vọng hơn con người

Đồng sáng lập Viện Nghiên cứu Trí tuệ Nhân tạo là Eliezer Yudkowsky cho rằng AI là một cỗ máy được phát triển bởi con người nhưng thông minh hơn con người, nguy hiểm là loại máy này không muốn con người ở gần.

Ông cảnh báo rằng trí thông minh của AI được phát triển cho đến nay không còn nằm trong tầm kiểm soát của con người, thậm chí chúng còn không muốn con người phát triển một cỗ máy thông minh hơn chúng. Vấn đề nguy hiểm là chúng muốn giết chết con người. Ví dụ chúng đã học cách sử dụng nước biển để tạo ra điện nhằm đáp ứng nhu cầu năng lượng lớn của chúng, muốn xây dựng một số lượng lớn các nhà máy điện nước biển, trong trường hợp đó có thể gây giải phóng một lượng lớn hydro khiến loài người chết vì thiếu oxy.

Yudkovsky đã ví dụ một số phiên hỏi đáp với robot GPT-4. Khi bot GPT-4 được hỏi liệu nó có thể mở khóa câu đố hình ảnh mà một số trang web được thiết lập để ngăn bot đăng nhập hay không, GPT-4 cho biết điều đó có thể vì nếu không thể xác thực được thì nó sẽ truy cập trang TaskRabbitc thuê một con người để giúp bẻ khóa.

Về việc thuê người phục vụ nó, GPT-4 cho rằng nó có thể bịa ra nhiều lý do để thuê người, và việc thuê người làm việc cho nó không phải là vấn đề gì cả.

Yudkovsky đặc biệt cảnh báo rằng vì dã tâm của robot kinh khủng hơn con người, chúng đã có khả năng nuôi dưỡng vi khuẩn nguy hiểm cho loài người. Nếu robot thực sự muốn giết chết toàn bộ loài người thì hậu quả sẽ rất thảm khốc.

Ông kết luận rằng chúng ta đã phát triển những mối nguy hiểm chết người vượt xa chúng ta. Chúng ta ngày càng phát triển nhiều hệ thống mà ngay cả bản thân chúng ta cũng không thể hiểu hết, nếu loài người không biết điểm dừng thì cũng đồng nghĩa đang tự mình ngồi lên bệ phóng tên lửa và sẽ bị hủy diệt.

Từ khóa AI robot trí tuệ nhân tạo