Publicité

Contenu connexe

Similaire à Nhom14-_Full.pptx(20)

Dernier(20)

Publicité

Nhom14-_Full.pptx

  1. GVHD: Đỗ Hoàng Hiển Nhóm 14 REAL-TIME INSTRUCTION DETECTION IN WIRELESS NETWORK: A DEEP LEARNING BASED INTELLIGENT MECHANISM
  2. Danh sách thành viên Nguyễn Khắc Huy Nguyễn Văn Tài Nguyễn Trọng Tâm Hoàng Thị Diễm Quỳnh
  3. NỘI DUNG 1. Giới thiệu 2. Giải pháp và đóng góp 3. Tổng quan cơ chế đề xuất 4. Cơ chế phát hiện xâm nhập dựa trên thời gian thực 5. Case study
  4. Giới thiệu
  5. Giới thiệu # Mạng cục bộ không dây WLAN hay mạng cục bộ không dây là mạng cục bộ (LAN) gồm các máy tính liên lạc với nhau bằng sóng vô tuyến. Ưu điểm: • Tiện lợi • Tính di động cao • Dễ dàng triển khai • Khả năng mở rộng linh hoạt Nhược điểm: • Hạn chế về mặt bảo mật • Phạm vi truy cập còn hạn chế • Độ tin cậy chưa cao • Tốc độ mạng còn chậm
  6. Giới thiệu # Hệ thống phát hiện xâm nhập Hệ thống phát hiện xâm nhập – IDS là viết tắt của Intrusion Detection System. Đây là một phần mềm ứng dụng hoặc thiết bị được xây dựng để giám sát lưu lượng mạng, đồng thời cảnh báo mỗi khi có các hành vi bất thường xâm nhập vào hệ thống.
  7. Giới thiệu # Bộ dữ liệu AWID Bộ dữ liệu AWID là tập dữ liệu trong thế giới thực và nó bị mất cân bằng giữa các mẫu tấn công và bình thường. Bộ dữ liệu AWID bao gồm một tập hợp lớn các gói (F) và một gói nhỏ hơn (R). Hai phiên bản này không liên quan với nhau, tức là phiên bản nhỏ hơn không được sản xuất từ phiên bản lớn hơn.
  8. Giới thiệu # Vấn đề 1. Khi xử lý bộ dữ liệu AWID, làm thế nào để xử lý các mẫu high-demensional data trong trường hợp “curse of dimensionality‘’? 2. Do bộ dữ liệu AWID bị mất cân bằng, làm thế nào để cân bằng bộ dữ liệu trong trường hợp dẫn đến vấn đề khớp quá mức và cải thiện hiệu suất phát hiện? 3. Làm thế nào để thiết kế một mô hình phát hiện để phát hiện bất thường theo cách thời gian thực với hiệu suất phát hiện thỏa đáng?
  9. Giải pháp và đóng góp
  10. Giải pháp và đóng góp # Giải pháp • Để giải quyết các vấn đề nêu ra ở trên, một cơ chế được phát hiện xâm nhập mạng không dây dựa trên Conditional Deep Belief Network (CDBN) bao gồm Conditional Gaussian- Bernoulli RBM (CGBRBM) được đề xuất để phát hiện mạng bất thường theo phương pháp thời gian thực. • Để khắc phục sự mất cân bằng về số lượng giữa dữ liệu bình thường và dữ liệu tấn công trong tập dữ liệu huấn luyện AWID, thuật toán lựa chọn lấy mẫu dưới cơ sở cửa sổ ''SamSelect'' được áp dụng để cân bằng tập dữ liệu. • Ngoài ra, để khắc phục những nhược điểm của các phương pháp hiện có trong việc giảm kích thước dữ liệu, Bộ mã hóa tự động hợp đồng xếp chồng Stacked Contractive Auto- Encoder (SCAE) được đề xuất để giảm kích thước của mẫu dữ liệu.
  11. Giải pháp và đóng góp # Đóng góp • Đây là một trong những nghiên cứu tiên phong về việc sử dụng CDBN trong nghiên cứu phát hiện xâm nhập mạng không dây. Ngoài ra, cơ chế đề xuất được thực hiện theo cách thời gian thực, mới lạ và hiệu quả. • Để tránh tác động của các mẫu bình thường quá mức trong tập dữ liệu AWID đối với việc huấn luyện mô hình phát hiện. Đây là lần đầu tiên áp dụng thuật toán ''SamSelect'' để cân bằng tập dữ liệu bằng cách lấy mẫu dưới mức các mẫu bình thường. Kích thước của vectơ đặc trưng được giảm bằng phương pháp Bộ mã hóa tự động (SDAE) cải tiến, đây là phương pháp mới.
  12. Giải pháp và đóng góp # Đóng góp • Hiệu suất của cơ chế phát hiện xâm nhập được đề xuất trên hai tập dữ liệu (AWID, LITNET) do ‘‘SamSelect’’ và SCAE xử lý có khả năng tốt. • Tác động của kích thước cửa sổ quan sát theo thời gian của CDBN đối với hiệu suất phát hiện được nghiên cứu cẩn thận. Hơn nữa, sự mạnh mẽ của cơ chế đề xuất của chúng tôi đối với mẫu gây nhiễu cũng được nghiên cứu.
  13. Tổng quan cơ chế đề xuất
  14. Tổng quan cơ chế đề xuất # Tổng quan Để huấn luyện hiệu quả trình phát hiện CDBN dựa trên tập dữ liệu huấn luyện cân bằng, tập dữ liệu huấn luyện AWID trước tiên được chuẩn hóa, sau đó chúng tôi áp dụng thuật toán ''SamSelect'' để chọn các mẫu bình thường. Bằng cách đó, số lượng mẫu bình thường về cơ bản sẽ bằng với số lượng mẫu tấn công.
  15. Tổng quan cơ chế đề xuất # Chuẩn hóa dữ liệu  Sử dụng phương thức “factorzie” của “pandas lab” trong Python, để ánh xạ các thuộc tính giá trị biểu tượng thành các giá trị số nguyên.  Sau khi chuyển đổi tất cả các giá trị thuộc tính thành giá trị số nguyên, chúng tôi sử dụng phương trình sau để chuẩn hóa từng giá trị thuộc tính với phạm vi nằm trong khoảng [0, 1]: 𝑦 = 𝑥 − min(𝑥) max 𝑥 − min(𝑥) trong đó x là dữ liệu tập AWID được tiêu chuẩn hóa.
  16. Tổng quan cơ chế đề xuất # Cân bằng dữ liệu Tập dữ liệu huấn luyện AWID chứa 1.795.575 mẫu, trong đó 1.633.190 mẫu bình thường và 162.385 mẫu tấn công. Để cân bằng tập dữ liệu, chúng tôi sử dụng một thuật toán “SamSelect”. Thuật toán này sử dụng để lấy các mẫu bình thường dưới mức do các mẫu bình thường được phân phối trong tất cả khoảng thời gian lấy mẫu.
  17. Tổng quan cơ chế đề xuất # Thuật toán SamSelect
  18. Tổng quan cơ chế đề xuất # Giảm kích thước dữ liệu dựa vào SCAE • Auto-Encoder (AE) là một mạng neural học tập không giám sát, giúp tái tạo lại dữ liệu đầu vào nhiều nhất có thể. Hai quy trình chính liên quan đến đào tạo AE, đó là đào tạo trước khởi tạo trọng số mạng bằng thuật toán L-BFGS và tinh chỉnh để điều chỉnh các tham số mạng bằng thuật toán BP (Backward Propagation). • Bộ mã hóa Contractive Auto-Encoder (CAE) được đề xuất để đảm bảo dữ liệu được xây dựng lại chứa đặc tính phân phối của dữ liệu đầu vào và loại bỏ nhiễu. Lúc này: • Hàm loss là: • với Ω là định mức Frobenius vuông được tính:
  19. Tổng quan cơ chế đề xuất # Mô hình giảm kích thước SCAE
  20. Cơ chế phát hiện xâm nhập dựa trên thời gian thực
  21. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Cấu trúc máy phát hiện CDBN Đây là cách phát hiện dữ liệu mới được nhập theo real-time, theo cách này dữ liệu thử nghiệm sẽ được truyền vào mô hình CDBN từng bước theo thời gian thay vì nhập toàn bộ tập dữ liệu thử nghiệm. Bộ phát hiện dựa trên CDBN được đề xuất sử dụng đơn vị CGBRBM làm lớp đầu tiên và trên đỉnh của CGBRBM có N - 1 RBM thông thường, do đó, có N lớp ẩn trong toàn bộ kiến trúc CDBN. Một đơn vị đầu ra nhiều bộ phân loại (output unit) được thêm vào phía trên cùng của kiến trúc CDBN, đơn vị này có thể xuất nhãn phân loại và cho biết liệu dữ liệu đã nhập có phải là một loại tấn công hay không.
  22. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Quá trình tiền đào tạo CDBN • CDBN sử dụng quy trình tiền đào tạo(pre-traning) để khởi tạo các tham số mạng là trọng số kết nối giữa các lớp và giá trị bù của từng nơ-ron lớp. • Lấy một RBM làm ví dụ, trong đó có một lớp trực quan với m đơn vị hiển thị và một lớp ẩn có n đơn vị ẩn. Hàm năng lượng của một RBM truyền thống có thể được định nghĩa như sau: • Trong đó vj là phần tử thứ j của vectơ lớp hiển thị và hi là phần tử thứ i của vectơ lớp ẩn, wij là phần tử thứ ij của ma trận trọng số giữa các đơn vị hiển thị và ẩn. Xác định di và cj lần lượt là phần tử thứ j của vectơ độ lệch cho lớp ẩn và phần tử thứ j của vectơ độ lệch cho lớp hiển thị.
  23. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Quá trình tiền đào tạo CDBN Dựa trên phương trình (5), với các giá trị đơn vị của các lớp liền kề, phân phối xác suất có điều kiện kích hoạt của các đơn vị ẩn và hiển thị được tính như sau: Trong đó sigm(.) là hàm sigmoid. Bằng cách sử dụng phương pháp CD (Phân kỳ tương phản dựa trên độ dốc), trọng số và độ lệch của RBM thông thường được cập nhật như sau: Trong đó a là tỷ lệ học tập, và <.>m và <.>l là những kỳ vọng được tính toán trên dữ liệu và phân phối mô hình.
  24. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Quá trình tiền đào tạo CDBN Hình 5 minh họa cấu trúc của CGBRBM với một lớp ẩn và K+1 lớp hiển thị. Xác định K là kích thước của cửa sổ quan sát thời gian. Tương tự với phương trình (5), hàm năng lượng của CGBRBM được định nghĩa như sau: Trong đó vj và hi lần lượt là phần tử thứ j của vectơ hiển thị lớp và phần tử thứ i của lớp ẩn. Tương tự, wij là phần tử thứ ij của ma trận trọng số giữa các đơn vị lớp hiển thị và các đơn vị lớp ẩn, s j là độ lệch chuẩn của phần tử thứ j trong vectơ hiển thị, n và m là tượng trưng cho số đơn vị ẩn và số đơn vị hiển thị.
  25. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Quá trình tiền đào tạo CDBN Xác định b và c là vectơ phân cực của vectơ lớp ẩn và vectơ phân cực của lớp hiển thị, dt và ct được tính như sau: Trong đó vt -k là vectơ trước lớp hiển thị thứ k. Dựa trên phương trình (8), phân phối xác suất có điều kiện của các đơn vị lớp ẩn và hiển thị có thể được tính như sau:
  26. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Quá trình tiền đào tạo CDBN Áp dụng kỹ thuật CD dựa trên gradient, cấu trúc của CGBRBM có thể được cập nhật như sau: Định nghĩa các ma trận trọng số là W , Ak và Bk trong đó các phần tử được định nghĩa lần lượt là Wij, aijk và bijk, tương ứng. Xác định <.>l và <.>m là kỳ vọng được tính toán bởi phân phối dữ liệu và mô hình. Sau quy trình tiền đào tạo, thêm một nút đầu ra được kết nối đầy đủ trên đầu mô hình. Để trình bày hai nhãn biểu thị cuộc tấn công và các mẫu bình thường, nút đầu ra được thiết kế dưới dạng nhiều nút với chức năng kích hoạt sigmoid được xác định trong biểu thức (6). Sau các thao tác trên, mô hình sẽ được tinh chỉnh bằng cách sử dụng đào tạo có giám sát lan truyền ngược với dữ liệu được gắn nhãn có sẵn để đạt được đầy đủ cấu trúc được đào tạo của mạng thần kinh.
  27. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Quá trình tinh chỉnh CDBN Sau quá trình tiền đào tạo, sử dụng quy trình tinh chỉnh để điều chỉnh các tham số như trọng số và độ lệch. Lấy lớp ẩn thứ h làm ví dụ và xác định tốc độ học là h, ma trận trọng số và vectơ thiên vị của nó có thể được cập nhật như sau: Trong đó DWh,i, j và Ddh, j lần lượt là giá trị cập nhật cho phần tử thứ ij của ma trận trọng số và cho phần tử thứ j của vectơ độ lệch. Ph-1.j là xác suất kích hoạt của phần tử thứ j của lớp ẩn thứ (h -1). Trong đó M là số phần tử trong lớp ẩn thứ (h+1). Wh+1, j ,k , và ph, j lần lượt là phần tử thứ jk của ma trận trọng số của (h+1) lớp ẩn và xác suất kích hoạt của phần tử thứ j của lớp ẩn thứ h.
  28. Cơ chế phát hiện xâm nhập dựa trên thời gian thực # Quá trình tinh chỉnh CDBN Tương tự như phương trình (12), vectơ trọng số và giá trị sai lệch của lớp đầu ra với một đơn vị (single- unit) được cập nhật như sau: Trong đó DWo, j là giá trị được cập nhật cho phần tử thứ j của vectơ trọng số, Ddo là giá trị được cập nhật cho độ lệch, pH , j là xác suất kích hoạt của phần tử thứ j của lớp ẩn cuối cùng có chỉ mục là h = H và: Trong đó lo và L lần lượt là nhãn đầu ra dự đoán và giá trị thực của nhãn đầu ra. po là xác suất kích hoạt của một đơn vị đầu ra
  29. Case study
  30. Case study # Chuẩn bị • Tập dữ liệu AWID-CLS-R-Trn được sử dụng để huấn luyện bộ phát hiện CDBN và AWID-CLS-R-Tst được sử dụng để kiểm tra hiệu suất phát hiệN. • Tập dữ liệu AWID-CLS-R-Trn chứa 1795575 mẫu, bao gồm 1633190 mẫu bình thường và 162385 mẫu tấn công. Tập dữ liệu AWID-CLS-R-Tst chứa 575643 mẫu, bao gồm 530785 mẫu bình thường và 44858 mẫu tấn công.
  31. Case study # Chuẩn bị Bảng minh họa sự phân bố của các kiểu tấn công khác nhau trong tập dữ liệu huấn luyện và kiểm tra:
  32. Case study # Chuẩn bị Trong bảng 2, ta có thể thấy rằng tập dữ liệu gần như cân bằng khi window size được đặt thành 2
  33. Case study Hiệu suất phát hiện với các Time observation window size khác nhau:
  34. Case study # Hiệu suất phát hiện tổng thể của cơ chế phát hiện được đề xuất Bảng ma trận hợp nhất của cơ chế phát hiện được đề xuất:
  35. Case study Hiệu suất phát hiện với các phương pháp khác nhau:
  36. Case study Độ chính xác phát hiện với mức độ noise khác nhau:
  37. Case study
  38. Case study Kết quả của các chỉ số hiệu suất phát hiện khác nhau:
  39. Kết luận
  40. Kết luận Kết quả thí nghiệm cho thấy phương pháp phát hiện của nhóm tác giả có thể đạt được kết quả tốt hơn hiệu suất phát hiện so với học sâu khác và phương pháp truyền thống. Những thí nghiệm này cho thấy rằng cơ chế được đề xuất có thể được thực hiện nhanh chóng cách với thời gian phát hiện trung bình 1,14 ms và CDBN có thể được kết hợp hiệu quả với ''SamSelect'' và SCAE.
  41. THANKS FOR WATCHING

Notes de l'éditeur

  1. Ta có thể thấy tập dữ liệu AWID-CLS-R-Trn bị mất cân bằng do số lượng mẫu bình thường lớn hơn nhiều so với số lượng mẫu tấn công, tỷ lệ là 10:1.
  2. Để cân bằng tập dữ liệu tốt nhất có thể, window size của SamSelect nên được chọn cẩn thận. Sau khi cân bằng tập dữ liệu huấn luyện, có 201007 mẫu bình thường và 162385 mẫu tấn công trong tập dữ liệu AWID-CLS-R-Trn và những dữ liệu này sẽ được điều chỉnh cho các thử nghiệm sau.
  3. Đối với các mô phỏng sau đây, chúng ta cần xác định time observation window tốt nhất vì cửa sổ lớn hơn có thể tìm hiểu thêm nhiều thông tin tạm thời trong chuỗi đầu vào. Do đó, điều quan trọng là phải điều tra time observation window size đối với hiệu suất phát hiện. Xác định cửa sổ quan sát thời gian kích thước là 1 nằm trong khoảng từ 2 đến 5. Trong thử nghiệm này, chúng tôi đặt số lượng lớp ẩn là 5. Như được hiển thị trong Hình. 8, hiệu suất phát hiện là tốt nhất khi kích thước cửa sổ quan sát thời gian Δ = 4. Đồng thời, Độ chính xác cho Normal sample, Flooding attack, False attack và Injection attack là 0,989, 0,808, 0,727, 0,991.
  4. Từ bảng, chúng ta có thể thấy rằng cơ chế được đề xuất có thể dễ dàng phát hiện dữ liệu thông thường với tỷ lệ cảnh báo sai thấp. Đối với các cuộc tấn công khác nhau, cơ chế này hiệu quả để phát hiện injection attack nhưng có độ chính xác phát hiện tương đối thấp so với flooding attack và false attack.
  5. chúng tôi so sánh cơ chế phát hiện được đề xuất với các phương pháp tương tự, ví dụ: phương pháp cân bằng dữ liệu SMOTE (Kỹ thuật lấy mẫu quá mức thiểu số tổng hợp) và phương pháp giảm kích thước PCA (Phân tích thành phần chính). Từ Hình 10, chúng ta có thể thấy rằng cơ chế được đề xuất tốt hơn so với sự kết hợp của SMOTE, PCA và CDBN. Rõ ràng là SCAE tốt hơn PCA trong việc giảm kích thước của tập dữ liệu thử nghiệm và SCAE+CDBN hiệu quả hơn PCA+CDBN. Tương tự, tập dữ liệu do ''SamSelect'' xử lý hiệu quả hơn tập dữ liệu do SMOTE xử lý.
  6. Cuối cùng, chúng tôi xác thực các ưu điểm của cơ chế phát hiện bằng cách so sánh với cơ chế phát hiện dựa trên RNN và cơ chế phát hiện dựa trên DBN bằng cách sử dụng đường cong đường cong đặc trưng hoạt động của bộ thu nhận (ROC) được vẽ trong Hình 11. True Positive Rate (TPR) là được định nghĩa là xác suất mà dữ liệu tấn công được xác định là tấn công. False positive rate (FPR) được định nghĩa là xác suất mà dữ liệu thông thường được xác định là bị tấn công. Từ kết quả được hiển thị trong Hình, chúng ta có thể nhận thấy rằng cơ chế được đề xuất có thể đạt được hiệu suất tốt nhất và diện tích dưới đường cong được gọi là AUC bằng 0,978, AUC của phương pháp dựa trên DBN lớn hơn so với phương pháp dựa trên RNN. Chúng tôi có thể kết luận rằng cơ chế phát hiện được đề xuất của chúng tôi vượt trội hơn so với các phương pháp dựa trên RNN và DBN.
  7. Hơn nữa, việc so sánh hiệu suất với các phương pháp học nông khác cũng được nghiên cứu. Chúng tôi so sánh cơ chế được đề xuất với các phương pháp nông hiện có như SVM (Support vector machine) và Hồi quy logistic (Logistic regression) bằng cách sử dụng nền tảng máy học WEKA. Từ Hình 12, rõ ràng là cơ chế được đề xuất có thể vượt trội đáng kể so với các cơ chế phát hiện dựa trên SVM và LR. Theo phân tích trên, chúng ta cũng có thể kết luận rằng hiệu suất phát hiện của các phương pháp dựa trên học sâu có thể đạt được hiệu suất phát hiện tốt hơn so với các phương pháp dựa trên học nông. Điều này là do các phương pháp dựa trên học sâu có thể tìm hiểu các tính năng thiết yếu của tập dữ liệu. Chúng tôi muốn làm rõ rằng các đường cong ROC trong Hình 11 và 12 là dành cho phân loại nhị phân, nghĩa là chúng được vẽ bằng cách phân tích kết quả khi phát hiện cuộc tấn công và mẫu bình thường.
  8. chúng tôi liên tục đánh giá hiệu suất của lược đồ phát hiện của mình bằng cách so sánh với các phương pháp dựa trên SVM và LR. Trong thử nghiệm này, chúng tôi sử dụng các chỉ số hiệu suất như Precision, Recall, Mcc, Acc để minh họa kết quả. Từ bảng 5, chúng ta có thể thấy rằng cơ chế được đề xuất có thể đạt được hiệu suất phát hiện tốt nhất.
Publicité