Nhom14-_Full.pptx

GVHD: Đỗ Hoàng Hiển
Nhóm 14
REAL-TIME INSTRUCTION
DETECTION IN WIRELESS
NETWORK:
A DEEP LEARNING BASED
INTELLIGENT MECHANISM

Danh sách
thành viên
Nguyễn Khắc Huy
Nguyễn Văn Tài
Nguyễn Trọng Tâm
Hoàng Thị Diễm Quỳnh

NỘI DUNG
1. Giới thiệu
2. Giải pháp và đóng
góp
3. Tổng quan cơ chế đề
xuất
4. Cơ chế phát hiện
xâm nhập dựa trên
thời gian thực
5. Case study

Giới thiệu
# Mạng cục bộ không dây
WLAN hay mạng cục bộ không dây là mạng cục bộ (LAN) gồm các máy tính liên lạc với
nhau bằng sóng vô tuyến.
Ưu điểm:
• Tiện lợi
• Tính di động cao
• Dễ dàng triển khai
• Khả năng mở rộng linh
hoạt
Nhược điểm:
• Hạn chế về mặt bảo mật
• Phạm vi truy cập còn hạn chế
• Độ tin cậy chưa cao
• Tốc độ mạng còn chậm

Giới thiệu
# Hệ thống phát hiện xâm nhập
Hệ thống phát hiện xâm nhập – IDS là viết tắt của Intrusion Detection System. Đây là
một phần mềm ứng dụng hoặc thiết bị được xây dựng để giám sát lưu lượng mạng,
đồng thời cảnh báo mỗi khi có các hành vi bất thường xâm nhập vào hệ thống.

Giới thiệu
# Bộ dữ liệu AWID
Bộ dữ liệu AWID là tập dữ liệu trong thế giới thực và nó bị mất cân bằng giữa các mẫu
tấn công và bình thường. Bộ dữ liệu AWID bao gồm một tập hợp lớn các gói (F) và một
gói nhỏ hơn (R). Hai phiên bản này không liên quan với nhau, tức là phiên bản nhỏ hơn
không được sản xuất từ phiên bản lớn hơn.

Giới thiệu
# Vấn đề
1. Khi xử lý bộ dữ liệu AWID, làm thế nào để xử lý các mẫu high-demensional data
trong trường hợp “curse of dimensionality‘’?
2. Do bộ dữ liệu AWID bị mất cân bằng, làm thế nào để cân bằng bộ dữ liệu trong
trường hợp dẫn đến vấn đề khớp quá mức và cải thiện hiệu suất phát hiện?
3. Làm thế nào để thiết kế một mô hình phát hiện để phát hiện bất thường theo cách
thời gian thực với hiệu suất phát hiện thỏa đáng?

Giải pháp và đóng góp
# Giải pháp
• Để giải quyết các vấn đề nêu ra ở trên, một cơ chế được phát hiện xâm nhập mạng không
dây dựa trên Conditional Deep Belief Network (CDBN) bao gồm Conditional Gaussian-
Bernoulli RBM (CGBRBM) được đề xuất để phát hiện mạng bất thường theo phương pháp
thời gian thực.
• Để khắc phục sự mất cân bằng về số lượng giữa dữ liệu bình thường và dữ liệu tấn công
trong tập dữ liệu huấn luyện AWID, thuật toán lựa chọn lấy mẫu dưới cơ sở cửa sổ
''SamSelect'' được áp dụng để cân bằng tập dữ liệu.
• Ngoài ra, để khắc phục những nhược điểm của các phương pháp hiện có trong việc giảm
kích thước dữ liệu, Bộ mã hóa tự động hợp đồng xếp chồng Stacked Contractive Auto-
Encoder (SCAE) được đề xuất để giảm kích thước của mẫu dữ liệu.

# Đóng góp
• Đây là một trong những nghiên cứu tiên phong về việc sử dụng CDBN trong nghiên cứu
phát hiện xâm nhập mạng không dây. Ngoài ra, cơ chế đề xuất được thực hiện theo cách
thời gian thực, mới lạ và hiệu quả.
• Để tránh tác động của các mẫu bình thường quá mức trong tập dữ liệu AWID đối với việc
huấn luyện mô hình phát hiện. Đây là lần đầu tiên áp dụng thuật toán ''SamSelect'' để cân
bằng tập dữ liệu bằng cách lấy mẫu dưới mức các mẫu bình thường. Kích thước của vectơ
đặc trưng được giảm bằng phương pháp Bộ mã hóa tự động (SDAE) cải tiến, đây là phương
pháp mới.

# Đóng góp
• Hiệu suất của cơ chế phát hiện xâm nhập được đề xuất trên hai tập dữ liệu (AWID,
LITNET) do ‘‘SamSelect’’ và SCAE xử lý có khả năng tốt.
• Tác động của kích thước cửa sổ quan sát theo thời gian của CDBN đối với hiệu suất phát
hiện được nghiên cứu cẩn thận. Hơn nữa, sự mạnh mẽ của cơ chế đề xuất của chúng tôi đối
với mẫu gây nhiễu cũng được nghiên cứu.

Tổng quan cơ chế
đề xuất

Tổng quan cơ chế đề xuất
# Tổng quan
Để huấn luyện hiệu quả trình phát hiện CDBN dựa trên tập dữ liệu huấn luyện cân bằng, tập
dữ liệu huấn luyện AWID trước tiên được chuẩn hóa, sau đó chúng tôi áp dụng thuật toán
''SamSelect'' để chọn các mẫu bình thường. Bằng cách đó, số lượng mẫu bình thường về cơ
bản sẽ bằng với số lượng mẫu tấn công.

# Chuẩn hóa dữ liệu
 Sử dụng phương thức “factorzie” của “pandas lab” trong Python, để ánh xạ các thuộc tính
giá trị biểu tượng thành các giá trị số nguyên.
 Sau khi chuyển đổi tất cả các giá trị thuộc tính thành giá trị số nguyên, chúng tôi sử dụng
phương trình sau để chuẩn hóa từng giá trị thuộc tính với phạm vi nằm trong khoảng [0, 1]:
𝑦 =
𝑥 − min(𝑥)
max 𝑥 − min(𝑥)
trong đó x là dữ liệu tập AWID được tiêu chuẩn hóa.

# Cân bằng dữ liệu
Tập dữ liệu huấn luyện AWID chứa 1.795.575 mẫu, trong đó 1.633.190 mẫu bình thường
và 162.385 mẫu tấn công. Để cân bằng tập dữ liệu, chúng tôi sử dụng một thuật toán
“SamSelect”. Thuật toán này sử dụng để lấy các mẫu bình thường dưới mức do các mẫu
bình thường được phân phối trong tất cả khoảng thời gian lấy mẫu.

# Thuật toán SamSelect

# Giảm kích thước dữ liệu dựa vào SCAE
• Auto-Encoder (AE) là một mạng neural học tập không giám sát, giúp tái tạo lại dữ liệu
đầu vào nhiều nhất có thể. Hai quy trình chính liên quan đến đào tạo AE, đó là đào tạo
trước khởi tạo trọng số mạng bằng thuật toán L-BFGS và tinh chỉnh để điều chỉnh các
tham số mạng bằng thuật toán BP (Backward Propagation).
• Bộ mã hóa Contractive Auto-Encoder (CAE) được đề xuất để đảm bảo dữ liệu được xây
dựng lại chứa đặc tính phân phối của dữ liệu đầu vào và loại bỏ nhiễu. Lúc này:
• Hàm loss là:
• với Ω là định mức Frobenius vuông được tính:

# Mô hình giảm kích thước SCAE

Cơ chế phát hiện
xâm nhập dựa trên
thời gian thực

Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Cấu trúc máy phát hiện CDBN
Đây là cách phát hiện dữ liệu mới được nhập theo real-time, theo cách này dữ liệu thử nghiệm
sẽ được truyền vào mô hình CDBN từng bước theo thời gian thay vì nhập toàn bộ tập dữ liệu
thử nghiệm.
Bộ phát hiện dựa trên CDBN được đề xuất sử
dụng đơn vị CGBRBM làm lớp đầu tiên và
trên đỉnh của CGBRBM có N - 1 RBM thông
thường, do đó, có N lớp ẩn trong toàn bộ kiến
trúc CDBN. Một đơn vị đầu ra nhiều bộ phân
loại (output unit) được thêm vào phía trên
cùng của kiến trúc CDBN, đơn vị này có thể
xuất nhãn phân loại và cho biết liệu dữ liệu
đã nhập có phải là một loại tấn công hay
không.

# Quá trình tiền đào tạo CDBN
• CDBN sử dụng quy trình tiền đào tạo(pre-traning) để khởi tạo các tham số mạng là trọng số
kết nối giữa các lớp và giá trị bù của từng nơ-ron lớp.
• Lấy một RBM làm ví dụ, trong đó có một lớp trực quan với m đơn vị hiển thị và một lớp ẩn
có n đơn vị ẩn. Hàm năng lượng của một RBM truyền thống có thể được định nghĩa như sau:
• Trong đó vj là phần tử thứ j của vectơ lớp hiển thị và hi là phần tử thứ i của vectơ lớp ẩn, wij
là phần tử thứ ij của ma trận trọng số giữa các đơn vị hiển thị và ẩn. Xác định di và cj lần lượt
là phần tử thứ j của vectơ độ lệch cho lớp ẩn và phần tử thứ j của vectơ độ lệch cho lớp hiển
thị.

Dựa trên phương trình (5), với các giá trị đơn vị của các lớp liền kề, phân phối xác suất có điều kiện
kích hoạt của các đơn vị ẩn và hiển thị được tính như sau:
Trong đó sigm(.) là hàm sigmoid. Bằng cách sử dụng phương pháp CD (Phân kỳ tương phản dựa trên
độ dốc), trọng số và độ lệch của RBM thông thường được cập nhật như sau:
Trong đó a là tỷ lệ học tập, và <.>m và <.>l là những kỳ vọng được tính toán trên dữ liệu và phân
phối mô hình.

Hình 5 minh họa cấu trúc của CGBRBM với một
lớp ẩn và K+1 lớp hiển thị. Xác định K là kích
thước của cửa sổ quan sát thời gian.
Tương tự với phương trình (5), hàm năng lượng
của CGBRBM được định nghĩa như sau:
Trong đó vj và hi lần lượt là phần tử thứ j của
vectơ hiển thị lớp và phần tử thứ i của lớp ẩn.
Tương tự, wij là phần tử thứ ij của ma trận trọng
số giữa các đơn vị lớp hiển thị và các đơn vị lớp
ẩn, s j là độ lệch chuẩn của phần tử thứ j trong
vectơ hiển thị, n và m là tượng trưng cho số đơn
vị ẩn và số đơn vị hiển thị.

Xác định b và c là vectơ phân cực của vectơ lớp ẩn và vectơ phân cực của lớp hiển thị, dt và ct được
tính như sau:
Trong đó vt -k là vectơ trước lớp hiển thị thứ k. Dựa trên phương trình (8), phân phối xác suất có điều
kiện của các đơn vị lớp ẩn và hiển thị có thể được tính như sau:

Áp dụng kỹ thuật CD dựa trên gradient, cấu trúc của CGBRBM có thể được cập nhật như sau:
Định nghĩa các ma trận trọng số là W , Ak và Bk trong đó
các phần tử được định nghĩa lần lượt là Wij, aijk và bijk,
tương ứng. Xác định <.>l và <.>m là kỳ vọng được tính
toán bởi phân phối dữ liệu và mô hình. Sau quy trình tiền
đào tạo, thêm một nút đầu ra được kết nối đầy đủ trên đầu
mô hình. Để trình bày hai nhãn biểu thị cuộc tấn công và
các mẫu bình thường, nút đầu ra được thiết kế dưới dạng
nhiều nút với chức năng kích hoạt sigmoid được xác định
trong biểu thức (6).
Sau các thao tác trên, mô hình sẽ được tinh chỉnh
bằng cách sử dụng đào tạo có giám sát lan truyền ngược
với dữ liệu được gắn nhãn có sẵn để đạt được đầy đủ cấu
trúc được đào tạo của mạng thần kinh.

# Quá trình tinh chỉnh CDBN
Sau quá trình tiền đào tạo, sử dụng quy trình tinh chỉnh để điều chỉnh các tham số như trọng số và độ
lệch. Lấy lớp ẩn thứ h làm ví dụ và xác định tốc độ học là h, ma trận trọng số và vectơ thiên vị của nó
có thể được cập nhật như sau:
Trong đó DWh,i, j và Ddh, j lần lượt là giá trị cập nhật cho phần tử thứ ij của ma trận trọng số và cho
phần tử thứ j của vectơ độ lệch. Ph-1.j là xác suất kích hoạt của phần tử thứ j của lớp ẩn thứ (h -1).
Trong đó M là số phần tử trong lớp ẩn thứ (h+1). Wh+1, j ,k , và ph, j lần lượt là phần tử thứ jk của
ma trận trọng số của (h+1) lớp ẩn và xác suất kích hoạt của phần tử thứ j của lớp ẩn thứ h.

# Quá trình tinh chỉnh CDBN
Tương tự như phương trình (12), vectơ trọng số và giá trị sai lệch của lớp đầu ra với một đơn vị (single-
unit) được cập nhật như sau:
Trong đó DWo, j là giá trị được cập nhật cho phần tử thứ j của vectơ trọng số, Ddo là giá trị được cập
nhật cho độ lệch, pH , j là xác suất kích hoạt của phần tử thứ j của lớp ẩn cuối cùng có chỉ mục là h = H
và:
Trong đó lo và L lần lượt là nhãn đầu ra dự đoán và giá trị thực của nhãn đầu ra. po là xác suất kích
hoạt của một đơn vị đầu ra

Case study
# Chuẩn bị
• Tập dữ liệu AWID-CLS-R-Trn được sử dụng để huấn luyện bộ phát hiện CDBN
và AWID-CLS-R-Tst được sử dụng để kiểm tra hiệu suất phát hiệN.
• Tập dữ liệu AWID-CLS-R-Trn chứa 1795575 mẫu, bao gồm 1633190 mẫu bình
thường và 162385 mẫu tấn công. Tập dữ liệu AWID-CLS-R-Tst chứa 575643
mẫu, bao gồm 530785 mẫu bình thường và 44858 mẫu tấn công.

Case study
# Chuẩn bị
Bảng minh họa sự phân bố của các kiểu tấn công khác nhau trong tập dữ liệu huấn luyện và
kiểm tra:

Case study
# Chuẩn bị
Trong bảng 2, ta có thể thấy rằng tập dữ liệu gần như cân bằng khi window size được đặt thành 2

Case study
Hiệu suất phát hiện với các Time observation window size khác nhau:

Case study
# Hiệu suất phát hiện tổng thể của cơ chế phát hiện được đề xuất
Bảng ma trận hợp nhất của cơ chế phát hiện được đề xuất:

Case study
Hiệu suất phát hiện với các phương pháp khác nhau:

Case study
Độ chính xác phát hiện với mức độ noise khác nhau:

Case study
Kết quả của các chỉ số hiệu suất phát hiện khác nhau:

Kết luận
Kết quả thí nghiệm cho thấy phương pháp phát hiện của nhóm tác giả có
thể đạt được kết quả tốt hơn hiệu suất phát hiện so với học sâu khác và
phương pháp truyền thống. Những thí nghiệm này cho thấy rằng cơ chế
được đề xuất có thể được thực hiện nhanh chóng cách với thời gian phát
hiện trung bình 1,14 ms và CDBN có thể được kết hợp hiệu quả với
''SamSelect'' và SCAE.

Nhom14-_Full.pptx

Recommandé

Recommandé

Contenu connexe

Similaire à Nhom14-_Full.pptx

Similaire à Nhom14-_Full.pptx (20)

Nhom14-_Full.pptx

Notes de l'éditeur