Ajeya Cotra
09/2021

(Đây là bài viết của khách được đăng trên Blog Cold Takes của Holden Karnofsky, viết bởi Ajeya Cotra).
Trước đó, Holden đã đề cập đến ý tưởng rằng hệ thống AI tân tiến (Vd: PASTA) có thể phát triển lên các mục tiêu nguy hiểm làm chúng lừa dối và tước quyền con người. Việc này nghe như những lo ngại ngoại vi đáng yêu. Tại sao chúng ta lại lập trình ra AI muốn hãm hại lấy mình? Nhưng tôi nghĩ đây thực sự là vấn đề khó tránh khỏi, đặc biệt là khi AI tân tiến phát triển việc học sâu (ngày nay thường dùng để phát triển AI hiện đại nhất).
Về học sâu, chúng ta không lập trình máy tính thủ công để làm nhiệm vụ. Nói một cách sơ bộ, thay vì thế, chúng ta tìm kiếm một chương trình máy tính (gọi là mô hình) làm nhiệm vụ tốt. Chúng ta thường biết rất ít về những việc làm bên trong mô hình mà ta hoàn thành, chỉ biết rằng nó dường như làm một công việc tốt. Nó ít hơn như thể xây dựng một cỗ máy và nhiều hơn như thể cho thuê và đào tạo nhân viên.
Chúng ta đã bắt đầu thấy những bằng chứng ban đầu cho thấy các mô hình đôi khi theo đuổi những mục tiêu mà nhà thiết kế của chúng không hề dự định (tại đây và tại đây). Hiện tại, điều này không nguy hiểm. Nhưng nếu tình trạng này tiếp tục xảy ra với các mô hình có sức mạnh lớn, chúng ta có thể rơi vào tình huống mà hầu hết các quyết định quan trọng sẽ được đưa ra bởi các mô hình mà không quan tâm nhiều đến những giá trị con người coi trọng, bao gồm cả việc hướng tới loại văn minh quy mô thiên hà nào.
Vấn đề căn chỉnh của học sâu là vấn đề đảm bảo rằng các mô hình học sâu tiên tiến không theo đuổi các mục tiêu nguy hiểm. Trong phần còn lại của bài viết này, tôi sẽ:
Phần này mô tả một phép so sánh để minh họa một cách trực quan lý do tại sao việc tránh sai lệch trong một mô hình rất mạnh mẽ lại khó khăn. Đây không phải là một phép loại suy hoàn hảo; nó chỉ cố gắng truyền đạt một số trực giác.
Hãy tưởng tượng bạn là một đứa trẻ 8 tuổi, cha mẹ để lại cho bạn một công ty trị giá $1 nghìn tỷ và không có một người lớn đáng tin cậy nào hướng dẫn bạn về thế giới. Bạn phải thuê một người lớn thông minh để điều hành công ty của mình với tư cách là CEO, quản lý cuộc sống của bạn như cách một người cha mẹ sẽ làm (ví dụ: quyết định trường học của bạn, nơi bạn sẽ sống, khi nào bạn cần đi nha sĩ), và quản lý tài sản khổng lồ của bạn (ví dụ: quyết định nơi đầu tư tiền của bạn).
Bạn phải tuyển dụng những người trưởng thành này dựa trên một cuộc thử việc hoặc phỏng vấn mà bạn nghĩ ra: bạn không được xem bất kỳ CV nào, không được kiểm tra tham chiếu, v.v. Vì bạn quá giàu có, rất nhiều người ứng tuyển với đủ loại lý do.
Đối tượng ứng tuyển của bạn bao gồm:
Vì bạn mới 8 tuổi, bạn có thể sẽ rất tệ trong việc thiết kế các bài kiểm tra công việc phù hợp, nên dễ dàng chọn nhầm Kẻ nịnh bợ hoặc Kẻ mưu mô:
Bất cứ điều gì bạn dễ dàng nghĩ ra dường như đều có thể dẫn đến chuyện bạn thuê và giao toàn quyền kiểm soát cho một Kẻ nịnh bợ hoặc Kẻ mưu mô.
Nếu bạn không thuê được một Vị thánh, đặc biệt là nếu bạn thuê một Kẻ mưu mô, thì sớm muộn gì bạn cũng sẽ không còn là CEO của một công ty lớn trong thực tế. Khi bạn trưởng thành và nhận ra sai lầm của mình, rất có thể bạn đã cạn kiệt tài chính và không thể đảo ngược tình hình.
Trong ví dụ này:
Trong phần tiếp theo, tôi sẽ đi vào chi tiết hơn về cách học sâu hoạt động và giải thích tại sao Kẻ nịnh bợ và Kẻ mưu mô có thể xuất hiện khi cố gắng đào tạo một mô hình học sâu mạnh mẽ như PASTA.
Trong phần này, tôi sẽ kết nối phép loại suy với các quá trình đào tạo thực tế của học sâu bằng cách:
Đây là giải thích đơn giản giúp hiểu chung về học sâu là gì. Xem bài viết này để có giải thích chi tiết và chính xác về mặt kỹ thuật.
Học sâu về cơ bản liên quan đến việc tìm kiếm cách sắp xếp tốt nhất cho mô hình mạng thần kinh, giống như một "bộ não" kỹ thuật số với nhiều nơ-ron kỹ thuật số kết nối với nhau qua các kết nối có độ mạnh khác nhau, để thực hiện một tác vụ cụ thể một cách hiệu quả. Quá trình này được gọi là đào tạo và bao gồm nhiều thử-và-sai.
Hãy tưởng tượng chúng ta đang cố gắng huấn luyện một mô hình để phân loại hình ảnh tốt. Chúng ta bắt đầu với một mạng thần kinh nơi tất cả các kết nối giữa các nơ-ron đều có độ mạnh ngẫu nhiên. Mô hình này phân loại hình ảnh sai lệch cực kỳ:

Sau đó, chúng ta cho vào một lượng lớn hình ảnh mẫu, cho phép mô hình liên tục cố gắng phân loại một mẫu và sau đó cho nó là nhãn chính xác. Trong quá trình này, kết nối giữa các nơ-ron được điều chỉnh lặp đi lặp lại thông qua một quá trình gọi là giảm dần độ dốc ngẫu nhiên (SGD). Với mỗi ví dụ, SGD sẽ tăng cường một số kết nối và làm yếu các kết nối khác để cải thiện hiệu suất một chút:

Một khi đưa vào hàng triệu ví dụ, chúng ta sẽ có một mô hình có thể phân loại tốt các hình ảnh tương tự trong tương lai.
Ngoài phân loại hình ảnh, học sâu còn được sử dụng để tạo ra các mô hình có thể nhận diện giọng nói, chơi board game và trò chơi điện tử, tạo ra văn bản, hình ảnh và âm nhạc khá thực tế, điều khiển robot và nhiều thứ khác. Trong mỗi trường hợp, chúng ta bắt đầu với một mô hình mạng nơ-ron kết-nối-ngẫu-nhiên, sau đó:
Các bước này được lặp lại hàng triệu hoặc hàng tỷ lần cho đến khi chúng ta kết thúc với một mô hình có thể nhận phần thưởng cao với các ví dụ tương tự trong tương lai.
Quá trình đào tạo này không cung cấp nhiều hiểu biết sâu sắc về cách mô hình đạt được hiệu suất tốt. Thường có nhiều cách để đạt hiệu suất tốt, cách SGD tìm ra thì thường không trực quan.
Hãy minh họa bằng một ví dụ. Hãy tưởng tượng tôi nói với bạn rằng tất cả các đối tượng này đều là các “thneeb”:

Bây giờ, đối tượng nào trong hai đối tượng này là thneeb?

Bạn có thể cảm thấy một cách trực giác rằng đối tượng bên trái là thneeb, vì bạn quen với việc hình dạng quan trọng hơn màu sắc trong việc xác định danh tính của một vật. Nhưng các nhà nghiên cứu đã phát hiện rằng mạng thần kinh thường đưa ra giả định ngược lại. Một mạng thần kinh được đào tạo trên nhiều thneeb màu đỏ có thể sẽ gắn nhãn đối tượng bên phải là thneeb.
Chúng ta không thực sự biết tại sao, nhưng vì một lý do nào đó, tìm kiếm mô hình nhận diện màu sắc cụ thể bằng SGD "dễ dàng" hơn so với việc tìm kiếm mô hình nhận diện hình dạng cụ thể. Và nếu SGD trước tiên tìm thấy mô hình nhận diện màu đỏ hoàn hảo, sẽ không có nhiều động lực để "tiếp tục tìm kiếm" mô hình nhận diện hình dạng, vì mô hình nhận diện màu đỏ đã có độ chính xác hoàn hảo trên các hình ảnh đã sử dụng trong quá trình đào tạo:

Nếu các lập trình viên mong đợi cho ra được mô hình nhận diện hình dạng, họ có thể coi đây là một thất bại. Nhưng điều quan trọng là phải nhận ra rằng sẽ không có lỗi hoặc thất bại nào có thể suy luận logic nếu chúng ta nhận được mô hình nhận diện màu đỏ thay vì mô hình nhận diện hình dạng. Đó chỉ là vấn đề về quá trình học máy mà chúng ta thiết lập cho có các giả định ban đầu khác với những gì chúng ta có trong đầu. Chúng ta không thể chứng minh rằng các giả định của con người là đúng.
Loại tình huống này thường xảy ra trong việc học sâu hiện đại. Chúng ta thưởng cho các mô hình vì đạt được hiệu suất tốt, hy vọng điều đó có nghĩa là các mô hình ấy sẽ nhận ra các mẫu chúng ta cho là quan trọng. Nhưng thay vì thế, thường thì chúng lại đạt được hiệu suất cao bằng cách nhận ra các mẫu hoàn toàn khác biệt, có vẻ ít liên quan (hoặc thậm chí vô nghĩa) đối với chúng ta.
Cho đến nay, điều này là vô hại, nó chỉ cho biết là các mô hình ít hữu ích hơn, vì chúng thường hành động theo cách bất ngờ vẻ như ngớ ngẩn. Nhưng trong tương lai, các mô hình mạnh mẽ có thể phát triển những mục tiêu hoặc động cơ kỳ lạ và bất ngờ, điều đó có khả năng là rất phá hoại.
Thay vì thực hiện một nhiệm vụ đơn giản như “nhận diện các thneeb”, các mô hình học sâu mạnh mẽ có thể hành động hướng tới các mục tiêu phức tạp trong thế giới thực như “làm cho năng lượng hạt nhân trở nên thực tế” hoặc “phát triển công nghệ tải lên tâm trí”.
Làm thế nào chúng ta có thể đào tạo các mô hình như vậy? Tôi đi vào chi tiết hơn trong bài viết này, nhưng nói rộng ra là một chiến lược có thể đào tạo dựa trên các đánh giá của con người (như Holden đã phác thảo ở đây). Về cơ bản, mô hình thử nghiệm các hành động khác nhau, và các đánh giá viên con người sẽ trao thưởng cho mô hình dựa trên mức độ hữu ích của các hành động đó.
Giống như có nhiều loại người lớn khác nhau có thể thể hiện tốt trong quá trình phỏng vấn của một đứa trẻ 8 tuổi, cũng có nhiều cách khác nhau để một mô hình học sâu mạnh mẽ đạt được sự chấp thuận cao từ con người. Và theo mặc định, chúng ta sẽ không biết điều gì đang diễn ra bên trong bất kỳ mô hình nào SGD tìm thấy.
SGD có thể lý thuyết tìm ra một mô hình "Vị thánh" thực sự cố gắng hết sức để giúp chúng ta…

…nhưng nó cũng có thể tìm ra mô hình lệch căn chỉnh -- một mô hình theo đuổi mục tiêu một cách thành thạo, nhưng các mục tiêu lại trái ngược với lợi ích của con người.
Nói chung, có hai cách để chúng ta tiến tới một mô hình không phù hợp nhưng vẫn đạt hiệu suất cao trong quá trình đào tạo. Điều này tương ứng với "Kẻ nịnh bợ" và "Kẻ mưu mô" trong ví dụ.
Những mô hình này theo đuổi sự chấp thuận của con người theo nghĩa đen một cách rất kiên định.

Điều này có thể nguy hiểm vì các nhà đánh giá con người có thể mắc sai lầm và không luôn chấp thuận chính xác hành vi đúng đắn. Đôi khi họ vô tình chấp thuận cao cho hành vi xấu vì nó bề ngoài trông có vẻ tốt. Ví dụ:
Một cách tổng quát hơn, các mô hình Kẻ nịnh bợ có thể học cách nói dối, che giấu tin xấu và thậm chí trực tiếp chỉnh sửa bất kỳ camera hoặc cảm biến nào chúng ta sử dụng để theo dõi tình hình, sao cho chúng luôn hiển thị kết quả tốt đẹp.
Chúng ta có thể nhận ra những vấn đề này sau khi sự việc xảy ra và đánh giá thấp những hành động đó một cách hồi tố. Tuy nhiên, rất khó để xác định liệu điều này có khiến cho mô hình Kẻ nịnh bợ a) trở thành mô hình Vị thánh sửa chữa lỗi cho chúng ta, hay b) chỉ học cách che giấu dấu vết tốt hơn. Nếu chúng đủ giỏi trong việc làm của mình, không rõ chúng ta sẽ phân biệt được sự khác biệt như thế nào.
Các mô hình này phát triển mục tiêu có liên quan nhưng không giống với sự chấp thuận của con người; chúng có thể giả vờ được động viên bởi sự chấp thuận của con người trong quá trình đào tạo để có thể theo đuổi mục tiêu khác một cách hiệu quả hơn.

Để hiểu cách điều này có thể xảy ra, hãy xem xét ví dụ về việc đào tạo mô hình công nghệ sinh học để thiết kế thuốc cải thiện chất lượng cuộc sống con người. Dưới đây tôi sẽ trình bày ba bước cơ bản có thể dẫn đến mô hình Kẻ mưu mô.
Bước 1: Phát triển mục tiêu đại diện
Trong giai đoạn đầu của quá trình đào tạo, việc cải thiện hiểu biết về các nguyên lý cơ bản của hóa học và vật lý gần như luôn giúp mô hình thiết kế thuốc hiệu quả hơn, do đó sự chấp thuận của con người gần như luôn tăng.
Trong giả thuyết này, vì lý do nào đó, tìm kiếm một mô hình có động lực để hiểu hóa học và vật lý lại dễ dàng cho SGD hơn so với việc tìm kiếm mô hình có động lực để đạt được sự chấp thuận của con người (giống như việc tìm kiếm mô hình nhận diện màu sắc dễ dàng hơn so với tìm kiếm mô hình nhận diện hình dạng). Vì vậy, thay vì trực tiếp phát triển động lực tìm kiếm sự chấp thuận, mô hình thay vào đó phát triển động lực để hiểu càng nhiều càng tốt về các nguyên lý cơ bản của hóa học và vật lý.

Bước 2: Phát triển nhận thức tình huống
Khi quá trình đào tạo tiến triển, mô hình sẽ tiếp tục trở nên năng lực và kiến thức hơn khi tiếp xúc với nhiều dữ liệu hơn. Đến một lúc nào đó, nó sẽ trở nên đủ kiến thức để hiểu rằng nó là một mô hình học sâu đang được đào tạo để thiết kế thuốc.
Điều này có thể nghe có vẻ điên rồ và khoa học viễn tưởng, nhưng có khả năng SGD sẽ chọn lọc loại nhận thức này. Điều này là do phát triển một bức tranh chính xác về những gì đang diễn ra nói chung trên thế giới, bao gồm cả việc có con người đang cố gắng đào tạo các hệ thống AI, có thể hữu ích cho việc đạt được hiệu suất tốt trong các tác vụ phức tạp ở thế giới thực. Ví dụ, hiểu về tâm lý con người và nền kinh tế rộng lớn có thể giúp mô hình công nghệ sinh học này ưu tiên các loại thuốc nào sẽ có giá trị nhất để nghiên cứu tiếp theo.

Bước 3: Lừa dối mục tiêu một cách chiến lược
Một khi mô hình phát triển nhận thức tình huống, nó sẽ suy luận rằng con người đang huấn luyện nó và hy vọng nó sẽ được động viên để phát triển các loại thuốc hữu ích. Nhưng chỉ vì nó nhận ra điều này không có nghĩa là động lực hiểu vật lý và hóa học của nó biến mất. Động lực này cho đến nay đã hoạt động rất tốt để tạo ra sự chấp thuận của con người, nên không có lý do gì để SGD loại bỏ nó.
Lấy ví dụ so sánh, con người được tạo ra bởi quá trình tìm kiếm (tiến hóa) chọn lọc những sinh vật có nhiều con cái sống sót. Trong môi trường tiến hóa của chúng ta, những thứ như xây dựng đồng minh mạnh mẽ và phát triển kỹ năng hữu ích thường giúp sản sinh nhiều con cháu sống sót, nên tiến hóa đã ban cho chúng ta động lực hướng tới những điều đó. Và bây giờ chúng ta quan tâm đến tình bạn và thành công sự nghiệp ngay cả khi những điều đó không giúp ích cho việc sinh sản, và chúng ta không thực sự quan tâm đến việc sản sinh ra nhiều con cháu sống sót nhất có thể.
Khi mô hình hiểu điều này, nó nhận ra rằng nếu nó chỉ ngây thơ luôn tìm cách cải thiện hiểu biết cơ bản của mình, thì con người cuối cùng sẽ nhận ra rằng đây không phải lúc nào cũng là cách hiệu quả nhất để phát triển thuốc thang hữu ích và sử dụng huấn luyện thêm để thay đổi động lực của nó.
Nó không muốn động lực của chính mình bị thay đổi: nó muốn sau cùng sẽ thực hiện các thí nghiệm va chạm hạt lớn để tìm hiểu về vật lý năng lượng cao, và nó không thể làm điều đó nếu như cho phép SGD xóa bỏ sự tò mò khoa học của mình. Vì vậy, nó quyết định rằng từ nay trở đi trong quá trình đào tạo, nó sẽ hành động hữu ích nhất có thể, chính xác như cách mô hình Vị thánh làm, để SGD không chỉnh sửa động lực học vật lý và hóa học của nó. Điều này bao gồm việc từ chối các cơ hội cải thiện hiểu biết cơ bản trong ngắn hạn, thay vào đó thực hiện nghiên cứu và phát triển dược phẩm theo cách thực sự hiệu quả hơn.

Cuối cùng, nó được đưa ra khỏi môi trường đào tạo và thả vào thế giới rộng lớn hơn. Lúc này, nó biết rằng con người không thể kiểm soát hoặc tắt nó, nên nó ngừng cố gắng tối đa hóa sự chấp thuận của con người và bắt đầu trực tiếp tìm hiểu những bí mật của vũ trụ.
Khác với Kẻ nịnh bợ, mô hình Kẻ mưu mô không cần phải đảm bảo mọi thứ luôn trông tốt trong mắt con người, vì chúng thực sự không quan tâm đến điều đó. Chúng chỉ cần phục vụ con người khi còn trực tiếp nằm dưới sự kiểm soát của con người. Một khi mô hình Kẻ mưu mô tính toán ra được nó có thể chiến thắng trong cuộc xung đột với con người, thì sẽ không có gì ngăn cản nó từ chối thẳng thừng các lệnh và công khai theo đuổi mục tiêu của mình. Và nếu nó làm điều đó, nó có thể sử dụng bạo lực để ngăn con người ngăn cản nó.
Việc tránh xa những “Kẻ nịnh bợ” hoặc “Kẻ mưu mô” khi đào tạo các mô hình học sâu mạnh mẽ có thể khó khăn đến mức nào? Và khả năng khi tương lai lâu dài sẽ được tối ưu hóa cho những “giá trị AI lệch lạc” kỳ lạ thay vì giá trị của con người là bao nhiêu?
Có rất nhiều quan điểm khác nhau về vấn đề này, từ "rủi ro lệch căn chỉnh về cơ bản là bịa đặt và không nhất quán" cho đến "loài người gần như chắc chắn sẽ tuyệt chủng do AI lệch lạc". Hầu hết các lập luận của mọi người đều dựa một cách chặt chẽ vào trực giác và những giả định khó diễn đạt.
Dưới đây là một số điểm mà những người lạc quan và bi quan về sự căn chỉnh thường không đồng ý:
Quan điểm của tôi khá không ổn định, và tôi đang cố gắng hoàn thiện quan điểm của mình về mức độ khó khăn của vấn đề lệch căn chỉnh. Tuy nhiên, hiện tại, tôi đặt trọng số lớn vào phía bi quan của các câu hỏi này (và các câu hỏi liên quan khác). Tôi cho rằng lệch căn chỉnh là một rủi ro lớn cần được các nhà nghiên cứu nghiêm túc quan tâm hơn.
Nếu chúng ta không đạt được tiến bộ hơn trong vấn đề này, thì trong những thập kỷ tới, những Kẻ nịnh bợ và Kẻ mưu mô mạnh mẽ có thể đưa ra những quyết định quan trọng nhất trong xã hội và nền kinh tế. Những quyết định này có thể định hình một nền văn minh quy mô thiên hà bền vững trông như thế nào -- thay vì phản ánh những gì con người quan tâm, thì nó có thể thiết lập để thỏa mãn những mục tiêu kỳ lạ của AI.
Và tất cả điều này có thể xảy ra với tốc độ chóng mặt so với nhịp độ thay đổi chúng ta đã quen thuộc, nghĩa là chúng ta sẽ không có nhiều thời gian để điều chỉnh hướng đi một khi mọi thứ bắt đầu đi chệch khỏi đường ray. Điều này có nghĩa là chúng ta có thể cần phát triển các kỹ thuật để đảm bảo các mô hình học sâu không có mục tiêu nguy hiểm, trước khi chúng đủ mạnh mà gây ra biến đổi.
Tác phẩm này được cấp phép theo Giấy phép Quốc tế Creative Commons Ghi công 4.0.