SlideShare une entreprise Scribd logo
1  sur  42
Giải thích trạng thái phản
thực cho các tác nhân học
tăng cường thông qua học
sâu sáng tạo
Môn: Khai phá dữ liệu
Nhóm 9
● Nguyễn Khắc Hiếu
● Võ Công Thành
● Trần Hải Nam
Nội dung báo cáo
1. Giới thiệu bài báo
2. Nội dung bài báo
3. Kết quả thực nghiệm
4. Phân tích bộ dữ liệu
5. Kết luận
1. Giới thiệu bài báo
+ Vấn đề đặt ra: Bất chấp những tiến bộ ấn tượng của tác nhân học sâu tăng cường, việc con
người hiểu quá trình ra quyết định của chúng là một thách thức
+ Hướng giải quyết: Phát triển các kỹ thuật nhằm cung cấp câu trả lời của con người cho câu
hỏi giải thích về các quyết định được đưa ra bởi các tác nhân, bài báo nghiên cứu trả lời 3 câu
hỏi:
- RQ1: Các mô hình thế hệ sâu có thể tạo ra các trạng thái phản thực có độ chính xác cao xuất hiện như
thể chúng được tạo bởi trò chơi Atari không?
- RQ2: Các trạng thái phản thực tế có thể giúp người dùng không phải là chuyên gia về học máy hiểu đủ
về quyết định của một tác nhân để xác định một tác nhân có sai sót không?
- RQ3: Các trạng thái phản thực tế có thể hiệu quả hơn để giúp người dùng hiểu quy trình ra quyết định
của một tác tử hơn là kỹ thuật đường cơ sở lân cận gần nhất không?
2. Nội dung bài báo
Các nghiên cứu liên quan
Nghiên cứu AI:
● Phần lớn công việc giải thích học máy trước đây tập trung vào việc giải thích tính năng
hoặc vùng nào của đầu vào hình ảnh là quan trọng đối với một dự đoán/hành động
● Các kỹ thuật tiếp cận bao gồm các kỹ thuật bản đồ nổi bật và các mô hình có thể diễn giải
cục bộ
● Tuy nhiên, những phương pháp này không xác định cụ thể những thay đổi trong trường
hợp dữ liệu hiện tại sẽ dẫn đến một kết quả khác.
● Phương pháp giải thích tương phản (CEM) đã được phát triển để xác định các tính năng
hoặc sự khác biệt quan trọng có thể khiến một thể hiện dữ liệu được phân loại thành một
lớp khác
Các nghiên cứu liên quan
Nghiên cứu học tăng cường:
● Công việc giải thích RL trước đây đã tập trung vào việc giải thích các khía cạnh khác
nhau của công thức RL
● Các kỹ thuật giải thích RL bao gồm giải thích các chính sách thông qua các phương pháp
như quy trình quyết định Markov, trạng thái trừu tượng, ngôn ngữ lập trình cấp cao, máy
trạng thái hữu hạn và cơ chế chú ý
● Một loại kỹ thuật khác để giải thích RL đã sử dụng phương pháp dạy máy để giúp người
dùng cuối hiểu mục tiêu của tác nhân
● Những phương pháp này về cơ bản là khác nhau, nhưng lại bổ sung cho cách tiếp cận phản
thực tế của chúng ta trong việc tạo ra những lời giải thích
Các nghiên cứu liên quan
Nghiên cứu học sâu sáng tạo:
● Các phương pháp học sâu sáng tạo bao gồm các bộ mã hóa tự động và mạng đối nghịch
● Các phương pháp này cho phép tạo ra các trường hợp dữ liệu chưa từng thấy trước đây
● Tuy nhiên, mô hình mạng đối nghịch đã thu hút được nhiều sự chú ý hơn nhờ các ứng
dụng mới của chúng trong việc mô hình hóa dữ liệu có độ phân giải cao, đặc biệt là tạo ra
các khuôn mặt không tồn tại.Các mạng đối thủ đã được sử dụng để loại bỏ thông tin dự
đoán nhãn lớp khỏi một không gian
Mô hình học sâu sáng tạo cho trạng thái phản thực
Trạng thái phản thực tế:
● Định nghĩa: với trạng thái truy vấn s, tạo ra trạng thái phản thực tế s' có chút khác biệt
so với s, nhưng tác nhân sẽ thực hiện hành động a' thay vì a
● Cách tiếp cận: yêu cầu một tác nhân RL chuyên sâu đã được đào tạo do bên ngoài cung
cấp. Chính sách đã học được đại diện bởi một mạng lưới thần kinh sâu
Kiến trúc mạng sâu
Bộ mã hóa E, bộ tạo G, bộ phân biệt D và tác nhân được đào tạo trước
Bộ mã hóa, bộ tạo
● Bộ mã hóa E và bộ tạo G hoạt động như một cặp bộ mã hóa-giải mã
- E: mạng nơ-ron tích chập sâu ánh xạ trạng thái đầu vào s thành biểu diễn tiềm ẩn
chiều thấp hơn E(s)
- G: mạng nơ-ron sinh tích chập sâu tạo hình ảnh Atari với biểu diễn tiềm ẩn E(s) và
vectơ chính sách π(z)
Công thức hàm mất mã hóa tự động của E và G
Bộ phân biệt
● Bộ phân biệt D được đào tạo để dự đoán phân phối hành động đầy đủ π(z) cho trước E(s)
Công thức hàm mất mát LD
Mục tiêu và nhiệm vụ của mỗi bộ
● Bộ mã hóa E làm cho trình tạo tái tạo lại trạng thái s cho E(s) và π(A(s))
● Bộ mã hóa E làm cho bộ phân biệt không thể dự đoán π(A(s)) cho E(s)
=> Để thực hiện hành vi này trong D, cần cực đại hóa entropy H(D(E(s))), trong đó:
Siêu tham số λ
● Giúp đánh giá tầm quan trọng của tổn thất đối nghịch này trong hàm tổn thất tổng thể
Bộ mã hóa tự động Wassertein
● Vấn đề đặt ra: các trạng thái phản thực yêu cầu khái niệm về sự gần gũi giữa trạng thái
truy vấn s và trạng thái phản thực s'. Khái niệm này được đo bằng khoảng cách trong
không gian tiềm ẩn của tác nhân z
● Giải pháp: sử dụng bộ mã hóa tự động Wasserstein (WAE) để tìm hiểu chức năng ánh xạ
từ không gian tiềm ẩn ban đầu của tác nhân sang đa tạp hoạt động
Bộ mã hóa tự động Wassertein
● Sử dụng tổn thất MSE được điều chỉnh theo độ chênh lệch trung bình tối đa (MMD) như
công thức bên dưới:
Đào tạo
● Bước 1: để một đặc vụ được đào tạo trước chơi trò chơi với khám phá e-tham lam và huấn
luyện với tập dữ liệu X
● Bước 2: huấn luyện với hàm mất mát tổng thể bằng L = LAE + LD + LAdv + LWAE
● Bước 3: giảm thiểu hàm mất mát ở mỗi bước thời gian của trò chơi với việc giảm độ dốc
ngẫu nhiên bằng cách sử dụng trình tối ưu hóa ADAM
Thiết lập thử nghiệm
Chi tiết mạng lưới
● Bộ mã hóa E: 6 lớp tích chập, theo sau là 2 lớp được kết nối đầy đủ với kích hoạt
LeakyReLU và chuẩn hóa hàng loạt
● Trình tạo G: một lớp được kết nối đầy đủ, theo sau là 6 lớp tích chập được chuyển đổi
● Bộ phân biệt D: hai lớp được kết nối đầy đủ, theo sau là hàm softmax và đưa ra phân phối
giữa các hành động cùng chiều
● Bộ mã hóa Wasserstein Ew: 3 lớp kết nối đầy đủ ánh xạ z tới vectơ 128 chiều zw, được
chuẩn hóa sao cho ||zw||2 = 1
Chi tiết đào tạo
● Bộ mã hóa, bộ tạo và bộ phân biệt được huấn luyện thông qua giảm độ dốc ngẫu nhiên
bằng trình tối ưu hóa Adam.
● Sử dụng trạng thái hiện tại và 3 trạng thái trước đó được nối để thể hiện trạng thái chung.
● Bộ mã hóa tự động Wasserstein được đào tạo với các trình tối ưu hóa Adam có cùng tốc
độ học tập α = 10−4 và các tham số β mặc định.
Tạo điểm nổi bật trạng thái phản thực tế
● Vấn đề: Trạng thái phản thực tế thường chứa những thay đổi nhỏ khó nhận thấy
● Giải pháp: tạo mặt nạ phản thực bằng công thức mc = ||s − s' ||1. Sau đó, đặt mặt nạ mờ
thành một kênh màu duy nhất và kết hợp nó với trạng thái ban đầu để có được những
điểm nổi bật
Phương pháp luận: Nghiên cứu người dùng
Nhìn chung, việc đánh giá các giải thích là một vấn đề đầy thách thức và các giải thích phản
thực tế đặc biệt khó khăn.
Vì việc đánh giá các thông tin phản thực cần có sự kiểm tra của con người.
=> 2 nghiên cứu người dùng
● Nghiên cứu dành cho người dùng 1: Tính trung thực của các trạng thái phản thực.
● Nghiên cứu người dùng 2: Sử dụng thông tin phản thực để phát hiện tác nhân có sai sót.
Tính trung thực của các trạng thái phản thực
Phương pháp giải thích tương phản (CEM) => Khó vì tính chất nhiều chiều của
hình ảnh Atari.
Phiên bản cắt bỏ của mô hình tổng quát: bộ mã hóa, bộ phân biệt và bộ mã hóa tự
động Wasserstein đã bị loại bỏ, bộ tạo được đào tạo với hàm mất mát MSE.
Hình ảnh trong nghiên cứu người dùng đầu tiên được tạo bởi ba nguồn khác nhau: 10
từ trò chơi thực tế, 10 từ phương pháp giải thích trạng thái phản thực và 10 từ mạng
đã loại bỏ. Những hình ảnh này được sắp xếp ngẫu nhiên cho mỗi người dùng.
Sử dụng thông tin phản thực để phát hiện tác nhân
có sai sót
Nghiên cứu người dùng thứ hai nhằm đánh giá hiệu quả của các giải thích trạng thái
phản thực tế.
Đánh giá hiệu quả của giải thích đối nghịch bằng phương pháp thiết kế thí nghiệm
phân tích hiệu quả 2x2x2.
Thiết kế thử nghiệm
Người tham gia quyết định dựa trên những lời giải thích phản thực tế.
Một cách khác để đánh giá hiệu quả của các giải thích phản thực tế là yêu cầu những
người tham gia dự đoán hành động của một tác nhân.
Tạo ra các tác nhân thiếu sót: chặn nửa màn hình, bỏ rào chắn, che viên đạn, che con
tàu.
Đặc vụ thiếu sót này khó huấn luyện hơn một đặc vụ bình thường do đó cần 160
triệu bước trò chơi để đạt được hiệu suất đủ tốt, và siêu tham số tổn thất đối nghịch 𝜆
= 100
Điều kiện
● Giải thích phản chứng hàng xóm gần nhất (NNCE)
Tác nhân đã chơi trò chơi trong 𝑁 = 25 triệu lượt chơi để tạo bộ dữ liệu
D = {(s1, z1, a1), . . . , (sN , zN , aN))
Để tạo phản thực từ tập dữ liệu này, tác nhân đã chơi một trò chơi mới và ở
trạng thái mong muốn 𝒔, tìm điểm tiềm ẩn gần nhất 𝒛∗ ∈ D với điểm hiện tại 𝒛
= 𝐴(𝒔) tại đó tác nhân đã thực hiện hành động mong muốn là 𝑎’. Sau đó, chúng
tôi hiển thị trạng thái liên kết 𝒔∗ từ bộ ba (𝒔∗, 𝒛∗, 𝑎') dưới dạng trạng thái phản
thực gần nhất nơi tác nhân thực hiện một hành động khác 𝑎'.
Điều kiện
● Đối với các giải thích về trạng thái phản thực
Khi một trạng thái truy vấn được chọn, chúng tôi đã chọn hành động phản thực
𝑎' là hành động liên quan đến sự thay đổi khoảng cách lớn nhất giữa trạng thái
tiềm ẩn Wasserstein ban đầu zW và trạng thái tiềm ẩn Wasserstein phản thực zW’
Người tham gia và thủ tục
60 người tham gia: 30 người cho mỗi điều kiện
Nghiên cứu này bao gồm 6 phần:
1. Lối chơi 4. Đánh giá
2. Phân tích tác nhân (đánh giá trước) 5. Phân tích tác nhân
3. Hướng dẫn 6. Phản hồi từ người dùng
Ví dụ về trạng thái phản thực
Các tác giả đưa ra các ví dụ về trạng thái phản thực tế cho các tác nhân được đào tạo trước trong các
trò chơi Atari khác nhau; những ví dụ này bao gồm cả phản thực chất lượng cao và thấp.
Ví dụ trò chơi Space Invaders:
Ví dụ về trạng thái phản thực
Hình 12 mô tả ví dụ, cũng được sử dụng trong nghiên cứu người dùng của chúng tôi. Ví dụ này
tiết lộ rằng đặc vụ đã học cách ưu tiên các vị trí cụ thể để sắp xếp các phát bắn một cách an
toàn, chọn kẻ thù để bắn một cách có chọn lọc
Ví dụ về trạng thái phản thực
Chúng tôi cũng bao gồm một ví dụ về cách giải thích trạng thái phản thực với tác nhân sai sót
trong nghiên cứu người dùng thứ hai của chúng tôi. Hình 13 cho thấy rằng trong cách giải
thích trạng thái phản thực tế được tạo ra, tác nhân sai sót không di chuyển con tàu vì nó không
biết vị trí con tàu của mình
RQ1: Độ chính xác của trạng thái phản thực tế
Về độ trung thực, xếp hạng trung bình trên thang đo Likert 6. Những kết quả này cho thấy
rằng các trạng thái phản thực của chúng tôi trung bình gần giống với trạng thái trò chơi nhưng
chúng không hoàn hảo.
Phiên bản cắt bỏ Giải thích trạng thái
phản thực
Trò chơi thực tế
Score 1.93 4.00 4.97
RQ2: Các trạng thái phản thực có thể giúp người dùng
xác định tác nhân thiếu sótkhông?
Những người tham gia đã thành công hơn đáng kể trong
việc xác định tác nhân có sai sót khi được cung cấp các
giải thích phản thực tế cho cả giải thích trạng thái phản
thực tế
Chúng tôi đã yêu cầu người tham gia đánh giá mức độ
hữu ích của từng thành phần của lời giải thích trên thang
đo Likert 5 điểm (1: Chỉ nổi bật, 2: Hầu hết là nổi bật, 3:
Cả hai đều ngang nhau, 4 : Hầu hết là phản thực, 5: Chỉ
phản thực).
RQ3: So sánh các phương pháp phản chứng
Xác định sai Xác định đúng Không chắc chắn
Không có giải thích 10 (33%) 17 (57%) 3 (10%)
Có giải thích 2 (7%) 27 (90%) 1 (3%)
Bảng 2: Số lượng người tham gia, có và không có giải thích về sự phản thực tế
Xác định sai Xác định đúng Không chắc chắn
Không có giải thích 9 (30%) 19 (63%) 2 (7%)
Có giải thích 9 (30%) 14 (47%) 7 (23%)
Bảng 3: Số lượng người tham gia, có và không có NNCEs
3. Kết quả thực nghiệm
Cấu trúc mã nguồn
File Chức năng
4frame_get
_avg_score
.py
Sử dụng 4 frame để huấn luyện
create_new
_agent.py
Tạo đặc vụ ABL mới và lưu vào một tệp checkpoint
để sử dụng trong quá trình huấn luyện hoặc đánh
giá
atari_data.p
y
Chứa một số hàm tiện ích để xử lý dữ liệu cho các
mô hình học tăng cường được đào tạo trên các trò
chơi Atari
inverse_ne
arest_neigh
bors.py
Triển khai phương pháp giải thích trạng thái phản
thực tế bằng cách sử dụng kỹ thuật láng giềng gần
nhất
Cấu trúc mã nguồn
File Chức năng
main.py Huấn luyện và đánh giá tác nhân học tăng
cường trên các trò chơi Atari
model.py Xây dựng các lớp mô hình để các file khác sử
dụng, các lớp mô hình gồm có:
ConvolutionalNetwork, RecurrentNetwork,
DuelingQNetwork, ExplainerNetwork
top_entropy_co
unterfactual.py
Tạo ra sự biến thiên cho môi trường mà tác
nhân thực thi
train_agent.py Sử dụng để huấn luyện agent
Các thư viện chính cần cài đặt
Các lỗi chính gặp phải trong quá trình thử nghiệm
● Thư viện scipy không còn hỗ trợ nên thay bằng thư viện cv2
=> Khi giảm giá trị processing để phù hợp với kích thước CPU thì gặp lỗi trong quá trình khởi tạo
ảnh
● Thiếu thư viện env_test
● Thiếu file agent, nhóm đã thay thế bằng file abl_agent.tar của mã nguồn để thay thế nhưng vẫn báo lỗi
Gửi thư cho tác giả
4. Phân tích bộ dữ liệu
Bộ dữ liệu
● Sử dụng tập dữ liệu có sẵn của thư viện gym trong python là SpaceInvaders-V0
● Cấu trúc của tập dữ liệu đào tạo SpaceInvaders-V0 là X = {(s1,a1), . . . , (sn,an)} của N cặp trạng thái-
hành động, trong đó:
+ Vectơ hành động ai là các phân phối hành động thu được từ tác nhân được đào tạo khi nó thực thi
chính sách đã học. Tóm lại, có thể xem tác nhân 2 là ánh xạ π(A(s))
5. Kết luận
Kết luận
● Kết quả cho thấy rằng độ trung thực hoàn hảo có thể không cần thiết đối với các giải thích trạng thái
phản thực để cung cấp cho những người không phải chuyên gia hiểu việc ra quyết định của một tác
nhân.
● Mặc dù nghiên cứu tập trung vào các tác nhân Atari, nhưng phương pháp này có thể áp dụng rộng rãi
hơn cho các miền ngoài Atari với thông tin đầu vào trực quan phức tạp hơn.
Thanks for watching

Contenu connexe

Similaire à KPDL.pptx

Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731Vu Tuan
 
Tai lieu sap_2000_v10
Tai lieu sap_2000_v10Tai lieu sap_2000_v10
Tai lieu sap_2000_v10Quang Nguyen
 
Mot phuong phap_tinh_do_tin_cay
Mot phuong phap_tinh_do_tin_cayMot phuong phap_tinh_do_tin_cay
Mot phuong phap_tinh_do_tin_caytrungbao10
 
Bai04 tao vasudungdoituong
Bai04 tao vasudungdoituongBai04 tao vasudungdoituong
Bai04 tao vasudungdoituongNhuận Lê Văn
 
Artificial intelligence ai l9-hoc may
Artificial intelligence ai l9-hoc mayArtificial intelligence ai l9-hoc may
Artificial intelligence ai l9-hoc mayTráng Hà Viết
 
BTL-thuyet-trinh (1).pptx
BTL-thuyet-trinh (1).pptxBTL-thuyet-trinh (1).pptx
BTL-thuyet-trinh (1).pptxNamTran268656
 
Exaplianable AI trong phân đoạn ảnh y khoa.pdf
Exaplianable AI trong phân đoạn ảnh y khoa.pdfExaplianable AI trong phân đoạn ảnh y khoa.pdf
Exaplianable AI trong phân đoạn ảnh y khoa.pdfThanh Minh Hoang
 
Artificial intelligence ai l5-thoa man-rang_buoc
Artificial intelligence ai l5-thoa man-rang_buocArtificial intelligence ai l5-thoa man-rang_buoc
Artificial intelligence ai l5-thoa man-rang_buocTráng Hà Viết
 
Tai lieu huong_dan_hoc_matlab_danh_cho_mon_xu_ly_anh_rat_hay_2264_7433
Tai lieu huong_dan_hoc_matlab_danh_cho_mon_xu_ly_anh_rat_hay_2264_7433Tai lieu huong_dan_hoc_matlab_danh_cho_mon_xu_ly_anh_rat_hay_2264_7433
Tai lieu huong_dan_hoc_matlab_danh_cho_mon_xu_ly_anh_rat_hay_2264_7433Muoivy Wm
 
Thuật toán EM demo
Thuật toán EM demoThuật toán EM demo
Thuật toán EM demonataliej4
 
Huong dan 8 o so
Huong dan 8 o soHuong dan 8 o so
Huong dan 8 o soshjdunglv
 

Similaire à KPDL.pptx (20)

1385102
13851021385102
1385102
 
SAP 2000
SAP 2000SAP 2000
SAP 2000
 
matlab co ban
matlab co banmatlab co ban
matlab co ban
 
Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731Lap trinh matlab_co_ban_1731
Lap trinh matlab_co_ban_1731
 
Tai lieu sap_2000_v10
Tai lieu sap_2000_v10Tai lieu sap_2000_v10
Tai lieu sap_2000_v10
 
Ứng dụng mạng nơ ron vào thiết kế Trí Tuệ Nhân Tạo học chơi Flappy Bird.doc
Ứng dụng mạng nơ ron vào thiết kế Trí Tuệ Nhân Tạo học chơi Flappy Bird.docỨng dụng mạng nơ ron vào thiết kế Trí Tuệ Nhân Tạo học chơi Flappy Bird.doc
Ứng dụng mạng nơ ron vào thiết kế Trí Tuệ Nhân Tạo học chơi Flappy Bird.doc
 
Nhom14-_Full.pptx
Nhom14-_Full.pptxNhom14-_Full.pptx
Nhom14-_Full.pptx
 
Hệ Cơ Sở Dữ Liệu Đa Phương Tiện PTIT
Hệ Cơ Sở Dữ Liệu Đa Phương Tiện PTITHệ Cơ Sở Dữ Liệu Đa Phương Tiện PTIT
Hệ Cơ Sở Dữ Liệu Đa Phương Tiện PTIT
 
Mot phuong phap_tinh_do_tin_cay
Mot phuong phap_tinh_do_tin_cayMot phuong phap_tinh_do_tin_cay
Mot phuong phap_tinh_do_tin_cay
 
Bai04 tao vasudungdoituong
Bai04 tao vasudungdoituongBai04 tao vasudungdoituong
Bai04 tao vasudungdoituong
 
Hệ mật mã Mcelice
Hệ mật mã MceliceHệ mật mã Mcelice
Hệ mật mã Mcelice
 
Artificial intelligence ai l9-hoc may
Artificial intelligence ai l9-hoc mayArtificial intelligence ai l9-hoc may
Artificial intelligence ai l9-hoc may
 
BTL-thuyet-trinh (1).pptx
BTL-thuyet-trinh (1).pptxBTL-thuyet-trinh (1).pptx
BTL-thuyet-trinh (1).pptx
 
Exaplianable AI trong phân đoạn ảnh y khoa.pdf
Exaplianable AI trong phân đoạn ảnh y khoa.pdfExaplianable AI trong phân đoạn ảnh y khoa.pdf
Exaplianable AI trong phân đoạn ảnh y khoa.pdf
 
Artificial intelligence ai l5-thoa man-rang_buoc
Artificial intelligence ai l5-thoa man-rang_buocArtificial intelligence ai l5-thoa man-rang_buoc
Artificial intelligence ai l5-thoa man-rang_buoc
 
Chuong1
Chuong1Chuong1
Chuong1
 
Tai lieu huong_dan_hoc_matlab_danh_cho_mon_xu_ly_anh_rat_hay_2264_7433
Tai lieu huong_dan_hoc_matlab_danh_cho_mon_xu_ly_anh_rat_hay_2264_7433Tai lieu huong_dan_hoc_matlab_danh_cho_mon_xu_ly_anh_rat_hay_2264_7433
Tai lieu huong_dan_hoc_matlab_danh_cho_mon_xu_ly_anh_rat_hay_2264_7433
 
Thuật toán EM demo
Thuật toán EM demoThuật toán EM demo
Thuật toán EM demo
 
Java Tieng Viet
Java Tieng VietJava Tieng Viet
Java Tieng Viet
 
Huong dan 8 o so
Huong dan 8 o soHuong dan 8 o so
Huong dan 8 o so
 

KPDL.pptx

  • 1. Giải thích trạng thái phản thực cho các tác nhân học tăng cường thông qua học sâu sáng tạo Môn: Khai phá dữ liệu Nhóm 9 ● Nguyễn Khắc Hiếu ● Võ Công Thành ● Trần Hải Nam
  • 2. Nội dung báo cáo 1. Giới thiệu bài báo 2. Nội dung bài báo 3. Kết quả thực nghiệm 4. Phân tích bộ dữ liệu 5. Kết luận
  • 3. 1. Giới thiệu bài báo + Vấn đề đặt ra: Bất chấp những tiến bộ ấn tượng của tác nhân học sâu tăng cường, việc con người hiểu quá trình ra quyết định của chúng là một thách thức + Hướng giải quyết: Phát triển các kỹ thuật nhằm cung cấp câu trả lời của con người cho câu hỏi giải thích về các quyết định được đưa ra bởi các tác nhân, bài báo nghiên cứu trả lời 3 câu hỏi: - RQ1: Các mô hình thế hệ sâu có thể tạo ra các trạng thái phản thực có độ chính xác cao xuất hiện như thể chúng được tạo bởi trò chơi Atari không? - RQ2: Các trạng thái phản thực tế có thể giúp người dùng không phải là chuyên gia về học máy hiểu đủ về quyết định của một tác nhân để xác định một tác nhân có sai sót không? - RQ3: Các trạng thái phản thực tế có thể hiệu quả hơn để giúp người dùng hiểu quy trình ra quyết định của một tác tử hơn là kỹ thuật đường cơ sở lân cận gần nhất không?
  • 4. 2. Nội dung bài báo
  • 5. Các nghiên cứu liên quan Nghiên cứu AI: ● Phần lớn công việc giải thích học máy trước đây tập trung vào việc giải thích tính năng hoặc vùng nào của đầu vào hình ảnh là quan trọng đối với một dự đoán/hành động ● Các kỹ thuật tiếp cận bao gồm các kỹ thuật bản đồ nổi bật và các mô hình có thể diễn giải cục bộ ● Tuy nhiên, những phương pháp này không xác định cụ thể những thay đổi trong trường hợp dữ liệu hiện tại sẽ dẫn đến một kết quả khác. ● Phương pháp giải thích tương phản (CEM) đã được phát triển để xác định các tính năng hoặc sự khác biệt quan trọng có thể khiến một thể hiện dữ liệu được phân loại thành một lớp khác
  • 6. Các nghiên cứu liên quan Nghiên cứu học tăng cường: ● Công việc giải thích RL trước đây đã tập trung vào việc giải thích các khía cạnh khác nhau của công thức RL ● Các kỹ thuật giải thích RL bao gồm giải thích các chính sách thông qua các phương pháp như quy trình quyết định Markov, trạng thái trừu tượng, ngôn ngữ lập trình cấp cao, máy trạng thái hữu hạn và cơ chế chú ý ● Một loại kỹ thuật khác để giải thích RL đã sử dụng phương pháp dạy máy để giúp người dùng cuối hiểu mục tiêu của tác nhân ● Những phương pháp này về cơ bản là khác nhau, nhưng lại bổ sung cho cách tiếp cận phản thực tế của chúng ta trong việc tạo ra những lời giải thích
  • 7. Các nghiên cứu liên quan Nghiên cứu học sâu sáng tạo: ● Các phương pháp học sâu sáng tạo bao gồm các bộ mã hóa tự động và mạng đối nghịch ● Các phương pháp này cho phép tạo ra các trường hợp dữ liệu chưa từng thấy trước đây ● Tuy nhiên, mô hình mạng đối nghịch đã thu hút được nhiều sự chú ý hơn nhờ các ứng dụng mới của chúng trong việc mô hình hóa dữ liệu có độ phân giải cao, đặc biệt là tạo ra các khuôn mặt không tồn tại.Các mạng đối thủ đã được sử dụng để loại bỏ thông tin dự đoán nhãn lớp khỏi một không gian
  • 8. Mô hình học sâu sáng tạo cho trạng thái phản thực Trạng thái phản thực tế: ● Định nghĩa: với trạng thái truy vấn s, tạo ra trạng thái phản thực tế s' có chút khác biệt so với s, nhưng tác nhân sẽ thực hiện hành động a' thay vì a ● Cách tiếp cận: yêu cầu một tác nhân RL chuyên sâu đã được đào tạo do bên ngoài cung cấp. Chính sách đã học được đại diện bởi một mạng lưới thần kinh sâu
  • 9. Kiến trúc mạng sâu Bộ mã hóa E, bộ tạo G, bộ phân biệt D và tác nhân được đào tạo trước
  • 10. Bộ mã hóa, bộ tạo ● Bộ mã hóa E và bộ tạo G hoạt động như một cặp bộ mã hóa-giải mã - E: mạng nơ-ron tích chập sâu ánh xạ trạng thái đầu vào s thành biểu diễn tiềm ẩn chiều thấp hơn E(s) - G: mạng nơ-ron sinh tích chập sâu tạo hình ảnh Atari với biểu diễn tiềm ẩn E(s) và vectơ chính sách π(z) Công thức hàm mất mã hóa tự động của E và G
  • 11. Bộ phân biệt ● Bộ phân biệt D được đào tạo để dự đoán phân phối hành động đầy đủ π(z) cho trước E(s) Công thức hàm mất mát LD
  • 12. Mục tiêu và nhiệm vụ của mỗi bộ ● Bộ mã hóa E làm cho trình tạo tái tạo lại trạng thái s cho E(s) và π(A(s)) ● Bộ mã hóa E làm cho bộ phân biệt không thể dự đoán π(A(s)) cho E(s) => Để thực hiện hành vi này trong D, cần cực đại hóa entropy H(D(E(s))), trong đó:
  • 13. Siêu tham số λ ● Giúp đánh giá tầm quan trọng của tổn thất đối nghịch này trong hàm tổn thất tổng thể
  • 14. Bộ mã hóa tự động Wassertein ● Vấn đề đặt ra: các trạng thái phản thực yêu cầu khái niệm về sự gần gũi giữa trạng thái truy vấn s và trạng thái phản thực s'. Khái niệm này được đo bằng khoảng cách trong không gian tiềm ẩn của tác nhân z ● Giải pháp: sử dụng bộ mã hóa tự động Wasserstein (WAE) để tìm hiểu chức năng ánh xạ từ không gian tiềm ẩn ban đầu của tác nhân sang đa tạp hoạt động
  • 15. Bộ mã hóa tự động Wassertein ● Sử dụng tổn thất MSE được điều chỉnh theo độ chênh lệch trung bình tối đa (MMD) như công thức bên dưới:
  • 16. Đào tạo ● Bước 1: để một đặc vụ được đào tạo trước chơi trò chơi với khám phá e-tham lam và huấn luyện với tập dữ liệu X ● Bước 2: huấn luyện với hàm mất mát tổng thể bằng L = LAE + LD + LAdv + LWAE ● Bước 3: giảm thiểu hàm mất mát ở mỗi bước thời gian của trò chơi với việc giảm độ dốc ngẫu nhiên bằng cách sử dụng trình tối ưu hóa ADAM
  • 17. Thiết lập thử nghiệm Chi tiết mạng lưới ● Bộ mã hóa E: 6 lớp tích chập, theo sau là 2 lớp được kết nối đầy đủ với kích hoạt LeakyReLU và chuẩn hóa hàng loạt ● Trình tạo G: một lớp được kết nối đầy đủ, theo sau là 6 lớp tích chập được chuyển đổi ● Bộ phân biệt D: hai lớp được kết nối đầy đủ, theo sau là hàm softmax và đưa ra phân phối giữa các hành động cùng chiều ● Bộ mã hóa Wasserstein Ew: 3 lớp kết nối đầy đủ ánh xạ z tới vectơ 128 chiều zw, được chuẩn hóa sao cho ||zw||2 = 1
  • 18. Chi tiết đào tạo ● Bộ mã hóa, bộ tạo và bộ phân biệt được huấn luyện thông qua giảm độ dốc ngẫu nhiên bằng trình tối ưu hóa Adam. ● Sử dụng trạng thái hiện tại và 3 trạng thái trước đó được nối để thể hiện trạng thái chung. ● Bộ mã hóa tự động Wasserstein được đào tạo với các trình tối ưu hóa Adam có cùng tốc độ học tập α = 10−4 và các tham số β mặc định.
  • 19. Tạo điểm nổi bật trạng thái phản thực tế ● Vấn đề: Trạng thái phản thực tế thường chứa những thay đổi nhỏ khó nhận thấy ● Giải pháp: tạo mặt nạ phản thực bằng công thức mc = ||s − s' ||1. Sau đó, đặt mặt nạ mờ thành một kênh màu duy nhất và kết hợp nó với trạng thái ban đầu để có được những điểm nổi bật
  • 20. Phương pháp luận: Nghiên cứu người dùng Nhìn chung, việc đánh giá các giải thích là một vấn đề đầy thách thức và các giải thích phản thực tế đặc biệt khó khăn. Vì việc đánh giá các thông tin phản thực cần có sự kiểm tra của con người. => 2 nghiên cứu người dùng ● Nghiên cứu dành cho người dùng 1: Tính trung thực của các trạng thái phản thực. ● Nghiên cứu người dùng 2: Sử dụng thông tin phản thực để phát hiện tác nhân có sai sót.
  • 21. Tính trung thực của các trạng thái phản thực Phương pháp giải thích tương phản (CEM) => Khó vì tính chất nhiều chiều của hình ảnh Atari. Phiên bản cắt bỏ của mô hình tổng quát: bộ mã hóa, bộ phân biệt và bộ mã hóa tự động Wasserstein đã bị loại bỏ, bộ tạo được đào tạo với hàm mất mát MSE. Hình ảnh trong nghiên cứu người dùng đầu tiên được tạo bởi ba nguồn khác nhau: 10 từ trò chơi thực tế, 10 từ phương pháp giải thích trạng thái phản thực và 10 từ mạng đã loại bỏ. Những hình ảnh này được sắp xếp ngẫu nhiên cho mỗi người dùng.
  • 22. Sử dụng thông tin phản thực để phát hiện tác nhân có sai sót Nghiên cứu người dùng thứ hai nhằm đánh giá hiệu quả của các giải thích trạng thái phản thực tế. Đánh giá hiệu quả của giải thích đối nghịch bằng phương pháp thiết kế thí nghiệm phân tích hiệu quả 2x2x2.
  • 23. Thiết kế thử nghiệm Người tham gia quyết định dựa trên những lời giải thích phản thực tế. Một cách khác để đánh giá hiệu quả của các giải thích phản thực tế là yêu cầu những người tham gia dự đoán hành động của một tác nhân. Tạo ra các tác nhân thiếu sót: chặn nửa màn hình, bỏ rào chắn, che viên đạn, che con tàu. Đặc vụ thiếu sót này khó huấn luyện hơn một đặc vụ bình thường do đó cần 160 triệu bước trò chơi để đạt được hiệu suất đủ tốt, và siêu tham số tổn thất đối nghịch 𝜆 = 100
  • 24. Điều kiện ● Giải thích phản chứng hàng xóm gần nhất (NNCE) Tác nhân đã chơi trò chơi trong 𝑁 = 25 triệu lượt chơi để tạo bộ dữ liệu D = {(s1, z1, a1), . . . , (sN , zN , aN)) Để tạo phản thực từ tập dữ liệu này, tác nhân đã chơi một trò chơi mới và ở trạng thái mong muốn 𝒔, tìm điểm tiềm ẩn gần nhất 𝒛∗ ∈ D với điểm hiện tại 𝒛 = 𝐴(𝒔) tại đó tác nhân đã thực hiện hành động mong muốn là 𝑎’. Sau đó, chúng tôi hiển thị trạng thái liên kết 𝒔∗ từ bộ ba (𝒔∗, 𝒛∗, 𝑎') dưới dạng trạng thái phản thực gần nhất nơi tác nhân thực hiện một hành động khác 𝑎'.
  • 25. Điều kiện ● Đối với các giải thích về trạng thái phản thực Khi một trạng thái truy vấn được chọn, chúng tôi đã chọn hành động phản thực 𝑎' là hành động liên quan đến sự thay đổi khoảng cách lớn nhất giữa trạng thái tiềm ẩn Wasserstein ban đầu zW và trạng thái tiềm ẩn Wasserstein phản thực zW’
  • 26. Người tham gia và thủ tục 60 người tham gia: 30 người cho mỗi điều kiện Nghiên cứu này bao gồm 6 phần: 1. Lối chơi 4. Đánh giá 2. Phân tích tác nhân (đánh giá trước) 5. Phân tích tác nhân 3. Hướng dẫn 6. Phản hồi từ người dùng
  • 27. Ví dụ về trạng thái phản thực Các tác giả đưa ra các ví dụ về trạng thái phản thực tế cho các tác nhân được đào tạo trước trong các trò chơi Atari khác nhau; những ví dụ này bao gồm cả phản thực chất lượng cao và thấp. Ví dụ trò chơi Space Invaders:
  • 28. Ví dụ về trạng thái phản thực Hình 12 mô tả ví dụ, cũng được sử dụng trong nghiên cứu người dùng của chúng tôi. Ví dụ này tiết lộ rằng đặc vụ đã học cách ưu tiên các vị trí cụ thể để sắp xếp các phát bắn một cách an toàn, chọn kẻ thù để bắn một cách có chọn lọc
  • 29. Ví dụ về trạng thái phản thực Chúng tôi cũng bao gồm một ví dụ về cách giải thích trạng thái phản thực với tác nhân sai sót trong nghiên cứu người dùng thứ hai của chúng tôi. Hình 13 cho thấy rằng trong cách giải thích trạng thái phản thực tế được tạo ra, tác nhân sai sót không di chuyển con tàu vì nó không biết vị trí con tàu của mình
  • 30. RQ1: Độ chính xác của trạng thái phản thực tế Về độ trung thực, xếp hạng trung bình trên thang đo Likert 6. Những kết quả này cho thấy rằng các trạng thái phản thực của chúng tôi trung bình gần giống với trạng thái trò chơi nhưng chúng không hoàn hảo. Phiên bản cắt bỏ Giải thích trạng thái phản thực Trò chơi thực tế Score 1.93 4.00 4.97
  • 31. RQ2: Các trạng thái phản thực có thể giúp người dùng xác định tác nhân thiếu sótkhông? Những người tham gia đã thành công hơn đáng kể trong việc xác định tác nhân có sai sót khi được cung cấp các giải thích phản thực tế cho cả giải thích trạng thái phản thực tế Chúng tôi đã yêu cầu người tham gia đánh giá mức độ hữu ích của từng thành phần của lời giải thích trên thang đo Likert 5 điểm (1: Chỉ nổi bật, 2: Hầu hết là nổi bật, 3: Cả hai đều ngang nhau, 4 : Hầu hết là phản thực, 5: Chỉ phản thực).
  • 32. RQ3: So sánh các phương pháp phản chứng Xác định sai Xác định đúng Không chắc chắn Không có giải thích 10 (33%) 17 (57%) 3 (10%) Có giải thích 2 (7%) 27 (90%) 1 (3%) Bảng 2: Số lượng người tham gia, có và không có giải thích về sự phản thực tế Xác định sai Xác định đúng Không chắc chắn Không có giải thích 9 (30%) 19 (63%) 2 (7%) Có giải thích 9 (30%) 14 (47%) 7 (23%) Bảng 3: Số lượng người tham gia, có và không có NNCEs
  • 33. 3. Kết quả thực nghiệm
  • 34. Cấu trúc mã nguồn File Chức năng 4frame_get _avg_score .py Sử dụng 4 frame để huấn luyện create_new _agent.py Tạo đặc vụ ABL mới và lưu vào một tệp checkpoint để sử dụng trong quá trình huấn luyện hoặc đánh giá atari_data.p y Chứa một số hàm tiện ích để xử lý dữ liệu cho các mô hình học tăng cường được đào tạo trên các trò chơi Atari inverse_ne arest_neigh bors.py Triển khai phương pháp giải thích trạng thái phản thực tế bằng cách sử dụng kỹ thuật láng giềng gần nhất
  • 35. Cấu trúc mã nguồn File Chức năng main.py Huấn luyện và đánh giá tác nhân học tăng cường trên các trò chơi Atari model.py Xây dựng các lớp mô hình để các file khác sử dụng, các lớp mô hình gồm có: ConvolutionalNetwork, RecurrentNetwork, DuelingQNetwork, ExplainerNetwork top_entropy_co unterfactual.py Tạo ra sự biến thiên cho môi trường mà tác nhân thực thi train_agent.py Sử dụng để huấn luyện agent
  • 36. Các thư viện chính cần cài đặt
  • 37. Các lỗi chính gặp phải trong quá trình thử nghiệm ● Thư viện scipy không còn hỗ trợ nên thay bằng thư viện cv2 => Khi giảm giá trị processing để phù hợp với kích thước CPU thì gặp lỗi trong quá trình khởi tạo ảnh ● Thiếu thư viện env_test ● Thiếu file agent, nhóm đã thay thế bằng file abl_agent.tar của mã nguồn để thay thế nhưng vẫn báo lỗi Gửi thư cho tác giả
  • 38. 4. Phân tích bộ dữ liệu
  • 39. Bộ dữ liệu ● Sử dụng tập dữ liệu có sẵn của thư viện gym trong python là SpaceInvaders-V0 ● Cấu trúc của tập dữ liệu đào tạo SpaceInvaders-V0 là X = {(s1,a1), . . . , (sn,an)} của N cặp trạng thái- hành động, trong đó: + Vectơ hành động ai là các phân phối hành động thu được từ tác nhân được đào tạo khi nó thực thi chính sách đã học. Tóm lại, có thể xem tác nhân 2 là ánh xạ π(A(s))
  • 41. Kết luận ● Kết quả cho thấy rằng độ trung thực hoàn hảo có thể không cần thiết đối với các giải thích trạng thái phản thực để cung cấp cho những người không phải chuyên gia hiểu việc ra quyết định của một tác nhân. ● Mặc dù nghiên cứu tập trung vào các tác nhân Atari, nhưng phương pháp này có thể áp dụng rộng rãi hơn cho các miền ngoài Atari với thông tin đầu vào trực quan phức tạp hơn.