Giới thiệu
# Mạng cục bộ không dây
WLAN hay mạng cục bộ không dây là mạng cục bộ (LAN) gồm các máy tính liên lạc với
nhau bằng sóng vô tuyến.
Ưu điểm:
• Tiện lợi
• Tính di động cao
• Dễ dàng triển khai
• Khả năng mở rộng linh
hoạt
Nhược điểm:
• Hạn chế về mặt bảo mật
• Phạm vi truy cập còn hạn chế
• Độ tin cậy chưa cao
• Tốc độ mạng còn chậm
Giới thiệu
# Hệ thống phát hiện xâm nhập
Hệ thống phát hiện xâm nhập – IDS là viết tắt của Intrusion Detection System. Đây là
một phần mềm ứng dụng hoặc thiết bị được xây dựng để giám sát lưu lượng mạng,
đồng thời cảnh báo mỗi khi có các hành vi bất thường xâm nhập vào hệ thống.
Giới thiệu
# Bộ dữ liệu AWID
Bộ dữ liệu AWID là tập dữ liệu trong thế giới thực và nó bị mất cân bằng giữa các mẫu
tấn công và bình thường. Bộ dữ liệu AWID bao gồm một tập hợp lớn các gói (F) và một
gói nhỏ hơn (R). Hai phiên bản này không liên quan với nhau, tức là phiên bản nhỏ hơn
không được sản xuất từ phiên bản lớn hơn.
Giới thiệu
# Vấn đề
1. Khi xử lý bộ dữ liệu AWID, làm thế nào để xử lý các mẫu high-demensional data
trong trường hợp “curse of dimensionality‘’?
2. Do bộ dữ liệu AWID bị mất cân bằng, làm thế nào để cân bằng bộ dữ liệu trong
trường hợp dẫn đến vấn đề khớp quá mức và cải thiện hiệu suất phát hiện?
3. Làm thế nào để thiết kế một mô hình phát hiện để phát hiện bất thường theo cách
thời gian thực với hiệu suất phát hiện thỏa đáng?
Giải pháp và đóng góp
# Giải pháp
• Để giải quyết các vấn đề nêu ra ở trên, một cơ chế được phát hiện xâm nhập mạng không
dây dựa trên Conditional Deep Belief Network (CDBN) bao gồm Conditional Gaussian-
Bernoulli RBM (CGBRBM) được đề xuất để phát hiện mạng bất thường theo phương pháp
thời gian thực.
• Để khắc phục sự mất cân bằng về số lượng giữa dữ liệu bình thường và dữ liệu tấn công
trong tập dữ liệu huấn luyện AWID, thuật toán lựa chọn lấy mẫu dưới cơ sở cửa sổ
''SamSelect'' được áp dụng để cân bằng tập dữ liệu.
• Ngoài ra, để khắc phục những nhược điểm của các phương pháp hiện có trong việc giảm
kích thước dữ liệu, Bộ mã hóa tự động hợp đồng xếp chồng Stacked Contractive Auto-
Encoder (SCAE) được đề xuất để giảm kích thước của mẫu dữ liệu.
Giải pháp và đóng góp
# Đóng góp
• Đây là một trong những nghiên cứu tiên phong về việc sử dụng CDBN trong nghiên cứu
phát hiện xâm nhập mạng không dây. Ngoài ra, cơ chế đề xuất được thực hiện theo cách
thời gian thực, mới lạ và hiệu quả.
• Để tránh tác động của các mẫu bình thường quá mức trong tập dữ liệu AWID đối với việc
huấn luyện mô hình phát hiện. Đây là lần đầu tiên áp dụng thuật toán ''SamSelect'' để cân
bằng tập dữ liệu bằng cách lấy mẫu dưới mức các mẫu bình thường. Kích thước của vectơ
đặc trưng được giảm bằng phương pháp Bộ mã hóa tự động (SDAE) cải tiến, đây là phương
pháp mới.
Giải pháp và đóng góp
# Đóng góp
• Hiệu suất của cơ chế phát hiện xâm nhập được đề xuất trên hai tập dữ liệu (AWID,
LITNET) do ‘‘SamSelect’’ và SCAE xử lý có khả năng tốt.
• Tác động của kích thước cửa sổ quan sát theo thời gian của CDBN đối với hiệu suất phát
hiện được nghiên cứu cẩn thận. Hơn nữa, sự mạnh mẽ của cơ chế đề xuất của chúng tôi đối
với mẫu gây nhiễu cũng được nghiên cứu.
Tổng quan cơ chế đề xuất
# Tổng quan
Để huấn luyện hiệu quả trình phát hiện CDBN dựa trên tập dữ liệu huấn luyện cân bằng, tập
dữ liệu huấn luyện AWID trước tiên được chuẩn hóa, sau đó chúng tôi áp dụng thuật toán
''SamSelect'' để chọn các mẫu bình thường. Bằng cách đó, số lượng mẫu bình thường về cơ
bản sẽ bằng với số lượng mẫu tấn công.
Tổng quan cơ chế đề xuất
# Chuẩn hóa dữ liệu
Sử dụng phương thức “factorzie” của “pandas lab” trong Python, để ánh xạ các thuộc tính
giá trị biểu tượng thành các giá trị số nguyên.
Sau khi chuyển đổi tất cả các giá trị thuộc tính thành giá trị số nguyên, chúng tôi sử dụng
phương trình sau để chuẩn hóa từng giá trị thuộc tính với phạm vi nằm trong khoảng [0, 1]:
𝑦 =
𝑥 − min(𝑥)
max 𝑥 − min(𝑥)
trong đó x là dữ liệu tập AWID được tiêu chuẩn hóa.
Tổng quan cơ chế đề xuất
# Cân bằng dữ liệu
Tập dữ liệu huấn luyện AWID chứa 1.795.575 mẫu, trong đó 1.633.190 mẫu bình thường
và 162.385 mẫu tấn công. Để cân bằng tập dữ liệu, chúng tôi sử dụng một thuật toán
“SamSelect”. Thuật toán này sử dụng để lấy các mẫu bình thường dưới mức do các mẫu
bình thường được phân phối trong tất cả khoảng thời gian lấy mẫu.
Tổng quan cơ chế đề xuất
# Giảm kích thước dữ liệu dựa vào SCAE
• Auto-Encoder (AE) là một mạng neural học tập không giám sát, giúp tái tạo lại dữ liệu
đầu vào nhiều nhất có thể. Hai quy trình chính liên quan đến đào tạo AE, đó là đào tạo
trước khởi tạo trọng số mạng bằng thuật toán L-BFGS và tinh chỉnh để điều chỉnh các
tham số mạng bằng thuật toán BP (Backward Propagation).
• Bộ mã hóa Contractive Auto-Encoder (CAE) được đề xuất để đảm bảo dữ liệu được xây
dựng lại chứa đặc tính phân phối của dữ liệu đầu vào và loại bỏ nhiễu. Lúc này:
• Hàm loss là:
• với Ω là định mức Frobenius vuông được tính:
Tổng quan cơ chế đề xuất
# Mô hình giảm kích thước SCAE
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Cấu trúc máy phát hiện CDBN
Đây là cách phát hiện dữ liệu mới được nhập theo real-time, theo cách này dữ liệu thử nghiệm
sẽ được truyền vào mô hình CDBN từng bước theo thời gian thay vì nhập toàn bộ tập dữ liệu
thử nghiệm.
Bộ phát hiện dựa trên CDBN được đề xuất sử
dụng đơn vị CGBRBM làm lớp đầu tiên và
trên đỉnh của CGBRBM có N - 1 RBM thông
thường, do đó, có N lớp ẩn trong toàn bộ kiến
trúc CDBN. Một đơn vị đầu ra nhiều bộ phân
loại (output unit) được thêm vào phía trên
cùng của kiến trúc CDBN, đơn vị này có thể
xuất nhãn phân loại và cho biết liệu dữ liệu
đã nhập có phải là một loại tấn công hay
không.
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Quá trình tiền đào tạo CDBN
• CDBN sử dụng quy trình tiền đào tạo(pre-traning) để khởi tạo các tham số mạng là trọng số
kết nối giữa các lớp và giá trị bù của từng nơ-ron lớp.
• Lấy một RBM làm ví dụ, trong đó có một lớp trực quan với m đơn vị hiển thị và một lớp ẩn
có n đơn vị ẩn. Hàm năng lượng của một RBM truyền thống có thể được định nghĩa như sau:
• Trong đó vj là phần tử thứ j của vectơ lớp hiển thị và hi là phần tử thứ i của vectơ lớp ẩn, wij
là phần tử thứ ij của ma trận trọng số giữa các đơn vị hiển thị và ẩn. Xác định di và cj lần lượt
là phần tử thứ j của vectơ độ lệch cho lớp ẩn và phần tử thứ j của vectơ độ lệch cho lớp hiển
thị.
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Quá trình tiền đào tạo CDBN
Dựa trên phương trình (5), với các giá trị đơn vị của các lớp liền kề, phân phối xác suất có điều kiện
kích hoạt của các đơn vị ẩn và hiển thị được tính như sau:
Trong đó sigm(.) là hàm sigmoid. Bằng cách sử dụng phương pháp CD (Phân kỳ tương phản dựa trên
độ dốc), trọng số và độ lệch của RBM thông thường được cập nhật như sau:
Trong đó a là tỷ lệ học tập, và <.>m và <.>l là những kỳ vọng được tính toán trên dữ liệu và phân
phối mô hình.
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Quá trình tiền đào tạo CDBN
Hình 5 minh họa cấu trúc của CGBRBM với một
lớp ẩn và K+1 lớp hiển thị. Xác định K là kích
thước của cửa sổ quan sát thời gian.
Tương tự với phương trình (5), hàm năng lượng
của CGBRBM được định nghĩa như sau:
Trong đó vj và hi lần lượt là phần tử thứ j của
vectơ hiển thị lớp và phần tử thứ i của lớp ẩn.
Tương tự, wij là phần tử thứ ij của ma trận trọng
số giữa các đơn vị lớp hiển thị và các đơn vị lớp
ẩn, s j là độ lệch chuẩn của phần tử thứ j trong
vectơ hiển thị, n và m là tượng trưng cho số đơn
vị ẩn và số đơn vị hiển thị.
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Quá trình tiền đào tạo CDBN
Xác định b và c là vectơ phân cực của vectơ lớp ẩn và vectơ phân cực của lớp hiển thị, dt và ct được
tính như sau:
Trong đó vt -k là vectơ trước lớp hiển thị thứ k. Dựa trên phương trình (8), phân phối xác suất có điều
kiện của các đơn vị lớp ẩn và hiển thị có thể được tính như sau:
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Quá trình tiền đào tạo CDBN
Áp dụng kỹ thuật CD dựa trên gradient, cấu trúc của CGBRBM có thể được cập nhật như sau:
Định nghĩa các ma trận trọng số là W , Ak và Bk trong đó
các phần tử được định nghĩa lần lượt là Wij, aijk và bijk,
tương ứng. Xác định <.>l và <.>m là kỳ vọng được tính
toán bởi phân phối dữ liệu và mô hình. Sau quy trình tiền
đào tạo, thêm một nút đầu ra được kết nối đầy đủ trên đầu
mô hình. Để trình bày hai nhãn biểu thị cuộc tấn công và
các mẫu bình thường, nút đầu ra được thiết kế dưới dạng
nhiều nút với chức năng kích hoạt sigmoid được xác định
trong biểu thức (6).
Sau các thao tác trên, mô hình sẽ được tinh chỉnh
bằng cách sử dụng đào tạo có giám sát lan truyền ngược
với dữ liệu được gắn nhãn có sẵn để đạt được đầy đủ cấu
trúc được đào tạo của mạng thần kinh.
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Quá trình tinh chỉnh CDBN
Sau quá trình tiền đào tạo, sử dụng quy trình tinh chỉnh để điều chỉnh các tham số như trọng số và độ
lệch. Lấy lớp ẩn thứ h làm ví dụ và xác định tốc độ học là h, ma trận trọng số và vectơ thiên vị của nó
có thể được cập nhật như sau:
Trong đó DWh,i, j và Ddh, j lần lượt là giá trị cập nhật cho phần tử thứ ij của ma trận trọng số và cho
phần tử thứ j của vectơ độ lệch. Ph-1.j là xác suất kích hoạt của phần tử thứ j của lớp ẩn thứ (h -1).
Trong đó M là số phần tử trong lớp ẩn thứ (h+1). Wh+1, j ,k , và ph, j lần lượt là phần tử thứ jk của
ma trận trọng số của (h+1) lớp ẩn và xác suất kích hoạt của phần tử thứ j của lớp ẩn thứ h.
Cơ chế phát hiện xâm nhập dựa trên thời gian thực
# Quá trình tinh chỉnh CDBN
Tương tự như phương trình (12), vectơ trọng số và giá trị sai lệch của lớp đầu ra với một đơn vị (single-
unit) được cập nhật như sau:
Trong đó DWo, j là giá trị được cập nhật cho phần tử thứ j của vectơ trọng số, Ddo là giá trị được cập
nhật cho độ lệch, pH , j là xác suất kích hoạt của phần tử thứ j của lớp ẩn cuối cùng có chỉ mục là h = H
và:
Trong đó lo và L lần lượt là nhãn đầu ra dự đoán và giá trị thực của nhãn đầu ra. po là xác suất kích
hoạt của một đơn vị đầu ra
Case study
# Chuẩn bị
• Tập dữ liệu AWID-CLS-R-Trn được sử dụng để huấn luyện bộ phát hiện CDBN
và AWID-CLS-R-Tst được sử dụng để kiểm tra hiệu suất phát hiệN.
• Tập dữ liệu AWID-CLS-R-Trn chứa 1795575 mẫu, bao gồm 1633190 mẫu bình
thường và 162385 mẫu tấn công. Tập dữ liệu AWID-CLS-R-Tst chứa 575643
mẫu, bao gồm 530785 mẫu bình thường và 44858 mẫu tấn công.
Case study
# Chuẩn bị
Bảng minh họa sự phân bố của các kiểu tấn công khác nhau trong tập dữ liệu huấn luyện và
kiểm tra:
Case study
# Chuẩn bị
Trong bảng 2, ta có thể thấy rằng tập dữ liệu gần như cân bằng khi window size được đặt thành 2
Kết luận
Kết quả thí nghiệm cho thấy phương pháp phát hiện của nhóm tác giả có
thể đạt được kết quả tốt hơn hiệu suất phát hiện so với học sâu khác và
phương pháp truyền thống. Những thí nghiệm này cho thấy rằng cơ chế
được đề xuất có thể được thực hiện nhanh chóng cách với thời gian phát
hiện trung bình 1,14 ms và CDBN có thể được kết hợp hiệu quả với
''SamSelect'' và SCAE.
Ta có thể thấy tập dữ liệu AWID-CLS-R-Trn bị mất cân bằng do số lượng mẫu bình thường lớn hơn nhiều so với số lượng mẫu tấn công, tỷ lệ là 10:1.
Để cân bằng tập dữ liệu tốt nhất có thể, window size của SamSelect nên được chọn cẩn thận. Sau khi cân bằng tập dữ liệu huấn luyện, có 201007 mẫu bình thường và 162385 mẫu tấn công trong tập dữ liệu AWID-CLS-R-Trn và những dữ liệu này sẽ được điều chỉnh cho các thử nghiệm sau.
Đối với các mô phỏng sau đây, chúng ta cần xác định time observation window tốt nhất vì cửa sổ lớn hơn có thể tìm hiểu thêm nhiều thông tin tạm thời trong chuỗi đầu vào. Do đó, điều quan trọng là phải điều tra time observation window size đối với hiệu suất phát hiện. Xác định cửa sổ quan sát thời gian kích thước là 1 nằm trong khoảng từ 2 đến 5. Trong thử nghiệm này, chúng tôi đặt số lượng lớp ẩn là 5. Như được hiển thị trong Hình. 8, hiệu suất phát hiện là tốt nhất khi kích thước cửa sổ quan sát thời gian Δ = 4. Đồng thời, Độ chính xác cho Normal sample, Flooding attack, False attack và Injection attack là 0,989, 0,808, 0,727, 0,991.
Từ bảng, chúng ta có thể thấy rằng cơ chế được đề xuất có thể dễ dàng phát hiện dữ liệu thông thường với tỷ lệ cảnh báo sai thấp. Đối với các cuộc tấn công khác nhau, cơ chế này hiệu quả để phát hiện injection attack nhưng có độ chính xác phát hiện tương đối thấp so với flooding attack và false attack.
chúng tôi so sánh cơ chế phát hiện được đề xuất với các phương pháp tương tự, ví dụ: phương pháp cân bằng dữ liệu SMOTE (Kỹ thuật lấy mẫu quá mức thiểu số tổng hợp) và phương pháp giảm kích thước PCA (Phân tích thành phần chính). Từ Hình 10, chúng ta có thể thấy rằng cơ chế được đề xuất tốt hơn so với sự kết hợp của SMOTE, PCA và CDBN. Rõ ràng là SCAE tốt hơn PCA trong việc giảm kích thước của tập dữ liệu thử nghiệm và SCAE+CDBN hiệu quả hơn PCA+CDBN. Tương tự, tập dữ liệu do ''SamSelect'' xử lý hiệu quả hơn tập dữ liệu do SMOTE xử lý.
Cuối cùng, chúng tôi xác thực các ưu điểm của cơ chế phát hiện bằng cách so sánh với cơ chế phát hiện dựa trên RNN và cơ chế phát hiện dựa trên DBN bằng cách sử dụng đường cong đường cong đặc trưng hoạt động của bộ thu nhận (ROC) được vẽ trong Hình 11. True Positive Rate (TPR) là được định nghĩa là xác suất mà dữ liệu tấn công được xác định là tấn công. False positive rate (FPR) được định nghĩa là xác suất mà dữ liệu thông thường được xác định là bị tấn công. Từ kết quả được hiển thị trong Hình, chúng ta có thể nhận thấy rằng cơ chế được đề xuất có thể đạt được hiệu suất tốt nhất và diện tích dưới đường cong được gọi là AUC bằng 0,978, AUC của phương pháp dựa trên DBN lớn hơn so với phương pháp dựa trên RNN. Chúng tôi có thể kết luận rằng cơ chế phát hiện được đề xuất của chúng tôi vượt trội hơn so với các phương pháp dựa trên RNN và DBN.
Hơn nữa, việc so sánh hiệu suất với các phương pháp học nông khác cũng được nghiên cứu. Chúng tôi so sánh cơ chế được đề xuất với các phương pháp nông hiện có như SVM (Support vector machine) và Hồi quy logistic (Logistic regression) bằng cách sử dụng nền tảng máy học WEKA. Từ Hình 12, rõ ràng là cơ chế được đề xuất có thể vượt trội đáng kể so với các cơ chế phát hiện dựa trên SVM và LR. Theo phân tích trên, chúng ta cũng có thể kết luận rằng hiệu suất phát hiện của các phương pháp dựa trên học sâu có thể đạt được hiệu suất phát hiện tốt hơn so với các phương pháp dựa trên học nông. Điều này là do các phương pháp dựa trên học sâu có thể tìm hiểu các tính năng thiết yếu của tập dữ liệu. Chúng tôi muốn làm rõ rằng các đường cong ROC trong Hình 11 và 12 là dành cho phân loại nhị phân, nghĩa là chúng được vẽ bằng cách phân tích kết quả khi phát hiện cuộc tấn công và mẫu bình thường.
chúng tôi liên tục đánh giá hiệu suất của lược đồ phát hiện của mình bằng cách so sánh với các phương pháp dựa trên SVM và LR. Trong thử nghiệm này, chúng tôi sử dụng các chỉ số hiệu suất như Precision, Recall, Mcc, Acc để minh họa kết quả. Từ bảng 5, chúng ta có thể thấy rằng cơ chế được đề xuất có thể đạt được hiệu suất phát hiện tốt nhất.