KPDL.pptx

Giải thích trạng thái phản
thực cho các tác nhân học
tăng cường thông qua học
sâu sáng tạo
Môn: Khai phá dữ liệu
Nhóm 9
● Nguyễn Khắc Hiếu
● Võ Công Thành
● Trần Hải Nam

Nội dung báo cáo
1. Giới thiệu bài báo
2. Nội dung bài báo
3. Kết quả thực nghiệm
4. Phân tích bộ dữ liệu
5. Kết luận

1. Giới thiệu bài báo
+ Vấn đề đặt ra: Bất chấp những tiến bộ ấn tượng của tác nhân học sâu tăng cường, việc con
người hiểu quá trình ra quyết định của chúng là một thách thức
+ Hướng giải quyết: Phát triển các kỹ thuật nhằm cung cấp câu trả lời của con người cho câu
hỏi giải thích về các quyết định được đưa ra bởi các tác nhân, bài báo nghiên cứu trả lời 3 câu
hỏi:
- RQ1: Các mô hình thế hệ sâu có thể tạo ra các trạng thái phản thực có độ chính xác cao xuất hiện như
thể chúng được tạo bởi trò chơi Atari không?
- RQ2: Các trạng thái phản thực tế có thể giúp người dùng không phải là chuyên gia về học máy hiểu đủ
về quyết định của một tác nhân để xác định một tác nhân có sai sót không?
- RQ3: Các trạng thái phản thực tế có thể hiệu quả hơn để giúp người dùng hiểu quy trình ra quyết định
của một tác tử hơn là kỹ thuật đường cơ sở lân cận gần nhất không?

Các nghiên cứu liên quan
Nghiên cứu AI:
● Phần lớn công việc giải thích học máy trước đây tập trung vào việc giải thích tính năng
hoặc vùng nào của đầu vào hình ảnh là quan trọng đối với một dự đoán/hành động
● Các kỹ thuật tiếp cận bao gồm các kỹ thuật bản đồ nổi bật và các mô hình có thể diễn giải
cục bộ
● Tuy nhiên, những phương pháp này không xác định cụ thể những thay đổi trong trường
hợp dữ liệu hiện tại sẽ dẫn đến một kết quả khác.
● Phương pháp giải thích tương phản (CEM) đã được phát triển để xác định các tính năng
hoặc sự khác biệt quan trọng có thể khiến một thể hiện dữ liệu được phân loại thành một
lớp khác

Nghiên cứu học tăng cường:
● Công việc giải thích RL trước đây đã tập trung vào việc giải thích các khía cạnh khác
nhau của công thức RL
● Các kỹ thuật giải thích RL bao gồm giải thích các chính sách thông qua các phương pháp
như quy trình quyết định Markov, trạng thái trừu tượng, ngôn ngữ lập trình cấp cao, máy
trạng thái hữu hạn và cơ chế chú ý
● Một loại kỹ thuật khác để giải thích RL đã sử dụng phương pháp dạy máy để giúp người
dùng cuối hiểu mục tiêu của tác nhân
● Những phương pháp này về cơ bản là khác nhau, nhưng lại bổ sung cho cách tiếp cận phản
thực tế của chúng ta trong việc tạo ra những lời giải thích

Nghiên cứu học sâu sáng tạo:
● Các phương pháp học sâu sáng tạo bao gồm các bộ mã hóa tự động và mạng đối nghịch
● Các phương pháp này cho phép tạo ra các trường hợp dữ liệu chưa từng thấy trước đây
● Tuy nhiên, mô hình mạng đối nghịch đã thu hút được nhiều sự chú ý hơn nhờ các ứng
dụng mới của chúng trong việc mô hình hóa dữ liệu có độ phân giải cao, đặc biệt là tạo ra
các khuôn mặt không tồn tại.Các mạng đối thủ đã được sử dụng để loại bỏ thông tin dự
đoán nhãn lớp khỏi một không gian

Mô hình học sâu sáng tạo cho trạng thái phản thực
Trạng thái phản thực tế:
● Định nghĩa: với trạng thái truy vấn s, tạo ra trạng thái phản thực tế s' có chút khác biệt
so với s, nhưng tác nhân sẽ thực hiện hành động a' thay vì a
● Cách tiếp cận: yêu cầu một tác nhân RL chuyên sâu đã được đào tạo do bên ngoài cung
cấp. Chính sách đã học được đại diện bởi một mạng lưới thần kinh sâu

Kiến trúc mạng sâu
Bộ mã hóa E, bộ tạo G, bộ phân biệt D và tác nhân được đào tạo trước

Bộ mã hóa, bộ tạo
● Bộ mã hóa E và bộ tạo G hoạt động như một cặp bộ mã hóa-giải mã
- E: mạng nơ-ron tích chập sâu ánh xạ trạng thái đầu vào s thành biểu diễn tiềm ẩn
chiều thấp hơn E(s)
- G: mạng nơ-ron sinh tích chập sâu tạo hình ảnh Atari với biểu diễn tiềm ẩn E(s) và
vectơ chính sách π(z)
Công thức hàm mất mã hóa tự động của E và G

Bộ phân biệt
● Bộ phân biệt D được đào tạo để dự đoán phân phối hành động đầy đủ π(z) cho trước E(s)
Công thức hàm mất mát LD

Mục tiêu và nhiệm vụ của mỗi bộ
● Bộ mã hóa E làm cho trình tạo tái tạo lại trạng thái s cho E(s) và π(A(s))
● Bộ mã hóa E làm cho bộ phân biệt không thể dự đoán π(A(s)) cho E(s)
=> Để thực hiện hành vi này trong D, cần cực đại hóa entropy H(D(E(s))), trong đó:

Siêu tham số λ
● Giúp đánh giá tầm quan trọng của tổn thất đối nghịch này trong hàm tổn thất tổng thể

Bộ mã hóa tự động Wassertein
● Vấn đề đặt ra: các trạng thái phản thực yêu cầu khái niệm về sự gần gũi giữa trạng thái
truy vấn s và trạng thái phản thực s'. Khái niệm này được đo bằng khoảng cách trong
không gian tiềm ẩn của tác nhân z
● Giải pháp: sử dụng bộ mã hóa tự động Wasserstein (WAE) để tìm hiểu chức năng ánh xạ
từ không gian tiềm ẩn ban đầu của tác nhân sang đa tạp hoạt động

Bộ mã hóa tự động Wassertein
● Sử dụng tổn thất MSE được điều chỉnh theo độ chênh lệch trung bình tối đa (MMD) như
công thức bên dưới:

Đào tạo
● Bước 1: để một đặc vụ được đào tạo trước chơi trò chơi với khám phá e-tham lam và huấn
luyện với tập dữ liệu X
● Bước 2: huấn luyện với hàm mất mát tổng thể bằng L = LAE + LD + LAdv + LWAE
● Bước 3: giảm thiểu hàm mất mát ở mỗi bước thời gian của trò chơi với việc giảm độ dốc
ngẫu nhiên bằng cách sử dụng trình tối ưu hóa ADAM

Thiết lập thử nghiệm
Chi tiết mạng lưới
● Bộ mã hóa E: 6 lớp tích chập, theo sau là 2 lớp được kết nối đầy đủ với kích hoạt
LeakyReLU và chuẩn hóa hàng loạt
● Trình tạo G: một lớp được kết nối đầy đủ, theo sau là 6 lớp tích chập được chuyển đổi
● Bộ phân biệt D: hai lớp được kết nối đầy đủ, theo sau là hàm softmax và đưa ra phân phối
giữa các hành động cùng chiều
● Bộ mã hóa Wasserstein Ew: 3 lớp kết nối đầy đủ ánh xạ z tới vectơ 128 chiều zw, được
chuẩn hóa sao cho ||zw||2 = 1

Chi tiết đào tạo
● Bộ mã hóa, bộ tạo và bộ phân biệt được huấn luyện thông qua giảm độ dốc ngẫu nhiên
bằng trình tối ưu hóa Adam.
● Sử dụng trạng thái hiện tại và 3 trạng thái trước đó được nối để thể hiện trạng thái chung.
● Bộ mã hóa tự động Wasserstein được đào tạo với các trình tối ưu hóa Adam có cùng tốc
độ học tập α = 10−4 và các tham số β mặc định.

Tạo điểm nổi bật trạng thái phản thực tế
● Vấn đề: Trạng thái phản thực tế thường chứa những thay đổi nhỏ khó nhận thấy
● Giải pháp: tạo mặt nạ phản thực bằng công thức mc = ||s − s' ||1. Sau đó, đặt mặt nạ mờ
thành một kênh màu duy nhất và kết hợp nó với trạng thái ban đầu để có được những
điểm nổi bật

Phương pháp luận: Nghiên cứu người dùng
Nhìn chung, việc đánh giá các giải thích là một vấn đề đầy thách thức và các giải thích phản
thực tế đặc biệt khó khăn.
Vì việc đánh giá các thông tin phản thực cần có sự kiểm tra của con người.
=> 2 nghiên cứu người dùng
● Nghiên cứu dành cho người dùng 1: Tính trung thực của các trạng thái phản thực.
● Nghiên cứu người dùng 2: Sử dụng thông tin phản thực để phát hiện tác nhân có sai sót.

Tính trung thực của các trạng thái phản thực
Phương pháp giải thích tương phản (CEM) => Khó vì tính chất nhiều chiều của
hình ảnh Atari.
Phiên bản cắt bỏ của mô hình tổng quát: bộ mã hóa, bộ phân biệt và bộ mã hóa tự
động Wasserstein đã bị loại bỏ, bộ tạo được đào tạo với hàm mất mát MSE.
Hình ảnh trong nghiên cứu người dùng đầu tiên được tạo bởi ba nguồn khác nhau: 10
từ trò chơi thực tế, 10 từ phương pháp giải thích trạng thái phản thực và 10 từ mạng
đã loại bỏ. Những hình ảnh này được sắp xếp ngẫu nhiên cho mỗi người dùng.

Sử dụng thông tin phản thực để phát hiện tác nhân
có sai sót
Nghiên cứu người dùng thứ hai nhằm đánh giá hiệu quả của các giải thích trạng thái
phản thực tế.
Đánh giá hiệu quả của giải thích đối nghịch bằng phương pháp thiết kế thí nghiệm
phân tích hiệu quả 2x2x2.

Thiết kế thử nghiệm
Người tham gia quyết định dựa trên những lời giải thích phản thực tế.
Một cách khác để đánh giá hiệu quả của các giải thích phản thực tế là yêu cầu những
người tham gia dự đoán hành động của một tác nhân.
Tạo ra các tác nhân thiếu sót: chặn nửa màn hình, bỏ rào chắn, che viên đạn, che con
tàu.
Đặc vụ thiếu sót này khó huấn luyện hơn một đặc vụ bình thường do đó cần 160
triệu bước trò chơi để đạt được hiệu suất đủ tốt, và siêu tham số tổn thất đối nghịch 𝜆
= 100

Điều kiện
● Giải thích phản chứng hàng xóm gần nhất (NNCE)
Tác nhân đã chơi trò chơi trong 𝑁 = 25 triệu lượt chơi để tạo bộ dữ liệu
D = {(s1, z1, a1), . . . , (sN , zN , aN))
Để tạo phản thực từ tập dữ liệu này, tác nhân đã chơi một trò chơi mới và ở
trạng thái mong muốn 𝒔, tìm điểm tiềm ẩn gần nhất 𝒛∗ ∈ D với điểm hiện tại 𝒛
= 𝐴(𝒔) tại đó tác nhân đã thực hiện hành động mong muốn là 𝑎’. Sau đó, chúng
tôi hiển thị trạng thái liên kết 𝒔∗ từ bộ ba (𝒔∗, 𝒛∗, 𝑎') dưới dạng trạng thái phản
thực gần nhất nơi tác nhân thực hiện một hành động khác 𝑎'.

Điều kiện
● Đối với các giải thích về trạng thái phản thực
Khi một trạng thái truy vấn được chọn, chúng tôi đã chọn hành động phản thực
𝑎' là hành động liên quan đến sự thay đổi khoảng cách lớn nhất giữa trạng thái
tiềm ẩn Wasserstein ban đầu zW và trạng thái tiềm ẩn Wasserstein phản thực zW’

Người tham gia và thủ tục
60 người tham gia: 30 người cho mỗi điều kiện
Nghiên cứu này bao gồm 6 phần:
1. Lối chơi 4. Đánh giá
2. Phân tích tác nhân (đánh giá trước) 5. Phân tích tác nhân
3. Hướng dẫn 6. Phản hồi từ người dùng

Ví dụ về trạng thái phản thực
Các tác giả đưa ra các ví dụ về trạng thái phản thực tế cho các tác nhân được đào tạo trước trong các
trò chơi Atari khác nhau; những ví dụ này bao gồm cả phản thực chất lượng cao và thấp.
Ví dụ trò chơi Space Invaders:

Hình 12 mô tả ví dụ, cũng được sử dụng trong nghiên cứu người dùng của chúng tôi. Ví dụ này
tiết lộ rằng đặc vụ đã học cách ưu tiên các vị trí cụ thể để sắp xếp các phát bắn một cách an
toàn, chọn kẻ thù để bắn một cách có chọn lọc

Chúng tôi cũng bao gồm một ví dụ về cách giải thích trạng thái phản thực với tác nhân sai sót
trong nghiên cứu người dùng thứ hai của chúng tôi. Hình 13 cho thấy rằng trong cách giải
thích trạng thái phản thực tế được tạo ra, tác nhân sai sót không di chuyển con tàu vì nó không
biết vị trí con tàu của mình

RQ1: Độ chính xác của trạng thái phản thực tế
Về độ trung thực, xếp hạng trung bình trên thang đo Likert 6. Những kết quả này cho thấy
rằng các trạng thái phản thực của chúng tôi trung bình gần giống với trạng thái trò chơi nhưng
chúng không hoàn hảo.
Phiên bản cắt bỏ Giải thích trạng thái
phản thực
Trò chơi thực tế
Score 1.93 4.00 4.97

RQ2: Các trạng thái phản thực có thể giúp người dùng
xác định tác nhân thiếu sótkhông?
Những người tham gia đã thành công hơn đáng kể trong
việc xác định tác nhân có sai sót khi được cung cấp các
giải thích phản thực tế cho cả giải thích trạng thái phản
thực tế
Chúng tôi đã yêu cầu người tham gia đánh giá mức độ
hữu ích của từng thành phần của lời giải thích trên thang
đo Likert 5 điểm (1: Chỉ nổi bật, 2: Hầu hết là nổi bật, 3:
Cả hai đều ngang nhau, 4 : Hầu hết là phản thực, 5: Chỉ
phản thực).

RQ3: So sánh các phương pháp phản chứng
Xác định sai Xác định đúng Không chắc chắn
Không có giải thích 10 (33%) 17 (57%) 3 (10%)
Có giải thích 2 (7%) 27 (90%) 1 (3%)
Bảng 2: Số lượng người tham gia, có và không có giải thích về sự phản thực tế
Xác định sai Xác định đúng Không chắc chắn
Không có giải thích 9 (30%) 19 (63%) 2 (7%)
Có giải thích 9 (30%) 14 (47%) 7 (23%)
Bảng 3: Số lượng người tham gia, có và không có NNCEs

3. Kết quả thực nghiệm

Cấu trúc mã nguồn
File Chức năng
4frame_get
_avg_score
.py
Sử dụng 4 frame để huấn luyện
create_new
_agent.py
Tạo đặc vụ ABL mới và lưu vào một tệp checkpoint
để sử dụng trong quá trình huấn luyện hoặc đánh
giá
atari_data.p
y
Chứa một số hàm tiện ích để xử lý dữ liệu cho các
mô hình học tăng cường được đào tạo trên các trò
chơi Atari
inverse_ne
arest_neigh
bors.py
Triển khai phương pháp giải thích trạng thái phản
thực tế bằng cách sử dụng kỹ thuật láng giềng gần
nhất

Cấu trúc mã nguồn
File Chức năng
main.py Huấn luyện và đánh giá tác nhân học tăng
cường trên các trò chơi Atari
model.py Xây dựng các lớp mô hình để các file khác sử
dụng, các lớp mô hình gồm có:
ConvolutionalNetwork, RecurrentNetwork,
DuelingQNetwork, ExplainerNetwork
top_entropy_co
unterfactual.py
Tạo ra sự biến thiên cho môi trường mà tác
nhân thực thi
train_agent.py Sử dụng để huấn luyện agent

Các thư viện chính cần cài đặt

Các lỗi chính gặp phải trong quá trình thử nghiệm
● Thư viện scipy không còn hỗ trợ nên thay bằng thư viện cv2
=> Khi giảm giá trị processing để phù hợp với kích thước CPU thì gặp lỗi trong quá trình khởi tạo
ảnh
● Thiếu thư viện env_test
● Thiếu file agent, nhóm đã thay thế bằng file abl_agent.tar của mã nguồn để thay thế nhưng vẫn báo lỗi
Gửi thư cho tác giả

4. Phân tích bộ dữ liệu

Bộ dữ liệu
● Sử dụng tập dữ liệu có sẵn của thư viện gym trong python là SpaceInvaders-V0
● Cấu trúc của tập dữ liệu đào tạo SpaceInvaders-V0 là X = {(s1,a1), . . . , (sn,an)} của N cặp trạng thái-
hành động, trong đó:
+ Vectơ hành động ai là các phân phối hành động thu được từ tác nhân được đào tạo khi nó thực thi
chính sách đã học. Tóm lại, có thể xem tác nhân 2 là ánh xạ π(A(s))

Kết luận
● Kết quả cho thấy rằng độ trung thực hoàn hảo có thể không cần thiết đối với các giải thích trạng thái
phản thực để cung cấp cho những người không phải chuyên gia hiểu việc ra quyết định của một tác
nhân.
● Mặc dù nghiên cứu tập trung vào các tác nhân Atari, nhưng phương pháp này có thể áp dụng rộng rãi
hơn cho các miền ngoài Atari với thông tin đầu vào trực quan phức tạp hơn.

KPDL.pptx

Recommandé

Recommandé

Contenu connexe

Similaire à KPDL.pptx

Similaire à KPDL.pptx (20)

KPDL.pptx