1. 10520487 – Đinh Văn Tài
10520468 – Lê Đoàn Thành Tâm
10520467 – Nguyễn Đăng Khoa
10520492 – Lê Văn Khánh
2. Nội dung
Giới thiệu tổng quan
Đặc điểm nổi bật
Cơ chế hoạt động
Trường hợp sử dụng
Cấu trúc dữ liệu đầu ra
Xử lý dữ liệu đầu ra
Cài đặt
Tài liệu tham khảo
Demo
August 14
Nhóm 5: Bulk Extractor
2
3. Giới thiệu tổng quan
Bulk Extractor (BE) là một chương trình trích xuất các
thông tin như địa chỉ email, số thẻ tín dụng, url và các loại
thông tin khác từ các tập tin bằng chứng số.
Là một công cụ điều tra số hữu ích cho nhiều nhiệm vụ
như: điều tra xâm nhập và mã độc, điều tra danh tính và
điều tra mạng, cũng như phân tích hình ảnh và bẻ khoá
mật khẩu.
August 14
Nhóm 5: Bulk Extractor
3
4. Giới thiệu tổng quan(tt)
Hoạt động trên các ảnh đĩa, các tập tin hoặc thư mục các tập
tin và trích xuất các thông tin hữu ích mà không cần phân tích
các hệ thống tập tin hoặc cấu trục hệ thống tập tin.
Đầu vào được chia thành các trang và xử lý bởi một hoặc
nhiều máy quét. Các kết quả được lưu trữ trong các tập tin
chức năng có thể dễ dàng kiểm tra, phân tích, hoặc xử lý bằng
các công cụ tự động khác.
Lĩnh vực ứng dụng: thực thi pháp luật, quốc phòng, tình báo và
điều tra mạng.
August 14
Nhóm 5: Bulk Extractor
4
5. Đặc điểm nổi bật
Tìm thấy những email, url và số thẻ tín dụng mà các công
cụ khác bỏ lỡ vì BE có thể xử lý dữ liệu nén, dữ liệu đầy
đủ hay bị hỏng một phần.
Xây dựng danh sách các từ (wordlist) mà nó tìm thấy.
Xử lý đa luồng.
Biểu đồ các thông tin phổ biến.
August 14
Nhóm 5: Bulk Extractor
5
6. Cơ chế hoạt động
August 14
Nhóm 5: Bulk Extractor
6
7. Trường hợp sử dụng
Điều tra mã độc
Điều tra mạng
Điều tra danh tính
Bẻ khoá mật khẩu
Phân tích thông tin hình ảnh
Sử dụng BE trong môi trường chuyên môn cao
August 14
Nhóm 5: Bulk Extractor
7
8. Điều tra mã độc
BE tìm chứng cứ trên hầu như tất cả các file thực thi trên các ổ
đĩa cứng bao gồm cả những tập tin nén.
BE không cung cấp giá trị băm đầy đủ của tập tin, đúng hơn, nó
cung cấp giá trị băm của chỉ 4KB đầu tiên của tập tin.
Nghiên cứu của Simson & Jessica đã chỉ ra rằng 4KB đầu tiên
là có thể dự đoán được bởi vì hầu hết các file thực thi có một
giá trị băm riêng biệt cho các 4KB đầu tiên của tập tin.
Ngoài ra, rất nhiều các tập tin phân mảnh và chỉ nhìn vào 4KB
đầu tiên vẫn cung cấp thông tin liên quan cho cuộc điều tra bởi
vì phân mảnh là không thể xảy ra ở 4KB đầu tiên.
August 14
Nhóm 5: Bulk Extractor
8
9. Điều tra mạng
Điều tra mạng có thể quét nhiều loại loại thông tin. Một vài
đặc trưng của các cuộc điều tra là cần phải tìm khóa mã
hóa, các giá trị băm và thông tin về các gói tin ethernet. BE
cung cấp một số máy quét ra các tập tin tính năng có chứa
thông tin này (AES, base16, … Scanner).
Các tập tin ether.txt, ip.txt, tcp.txt và domain.txt được tạo ra
bởi net scanner. Nó tìm kiếm các gói tin ethernet và cấu
trúc bộ nhớ liên kết với mạng lưới cấu trúc dữ liệu trong bộ
nhớ.
August 14
Nhóm 5: Bulk Extractor
9
10. Điều tra danh tính
Điều tra danh tính tìm kiếm nhiều loại thông tin bao gồm
email, thẻ tín dụng, số điện thoại, gps và các từ khoá.
Accts Scanner rất hữu ích cho cuộc điều tra danh tính. Nó
tạo ra một số tập tin tính năng với thông tin nhận dạng bao
gồm:
ccn.txt — số thẻ tín dụng
ccn_track2.txt - theo dõi thông tin thẻ tín dụng 2 - thông tin có liên quan
nếu có ai đó đang cố gắng để làm thẻ tín dụng giả mạo.
pii.txt – thông tin cá nhân bao gồm ngày sinh và số cmnd
telephone.txt – số điện thoại
August 14
Nhóm 5: Bulk Extractor
10
11. Bẻ khoá mật khẩu
Nếu một cuộc điều tra đang tìm cách để bẻ một mật
khẩu, máy quét wordlist có thể hữu ích.
August 14
Nhóm 5: Bulk Extractor
11
12. Phân tích thông tin hình ảnh
Trong một cuộc điều tra cần phân tích hình ảnh đặc
biệt, ví dụ như một cuộc điều tra nội dung khiêu dâm
trẻ em, máy quét Exif sẽ hữu ích.
Nó tìm thấy hình ảnh JPEG trên ảnh đĩa và sau đó
tách những dữ liệu mã hóa có thể, ví dụ, các tập tin
ZIP hoặc các tập tin ngủ đông sau đó viết dữ liệu
phân tích được vào tập tin jpeg.txt.
August 14
Nhóm 5: Bulk Extractor
12
13. Sử dụng BE trong môi
trường chuyên môn cao
Nếu sử dụng bulk_extractor trong một môi
trường chuyên môn, hai tính năng đặc trưng
sau có thể hữu dụng.
Banner file.
Plug-ins (external scanner).
August 14
Nhóm 5: Bulk Extractor
13
14. Cấu trúc dữ liệu đầu ra
Kết quả đầu ra sau khi Bulk extractor thực hiện xong quá
trình quét gồm các file:
• Ccn.txt : số thẻ tín dụng.
• Ccn_track2.txt : Thông tin mã số Track 2.
• Domain.txt : Chứ các tên miền Internet.
• Email.txt : Chứa các địa chỉ mail.
• Ether.txt : Chứa địa chỉa MAC Ethernet tìm thấy trong gói IP
August 14
Nhóm 5: Bulk Extractor
14
15. Cấu trúc dữ liệu đầu ra (tt)
• Exif.txt : Chứa các EXIFs từ hình ảnh và video.
• Find.txt : Chứa kết quả của yêu cầu tìm kiếm.
• IP.txt : Chứa địa chỉ IP thông qua các gói IP
• Telephone.txt : Chứa các số điện thoại của Mỹ và Quốc Tế
• URL.txt : Chứa URL tìm thấy trong cache cua trình duyệt,
email,…
• URL_searches.txt :Một biểu đồ từ ngữ được sử dụng trong
tìm kiếm Internet từ các dịch vụ như Google, Bing, Yahoo,…
August 14
Nhóm 5: Bulk Extractor
15
16. Cấu trúc dữ liệu đầu ra (tt)
• Wordlist.txt : Một danh sách của tất cả các “words" chiết xuất
từ đĩa, hữu ích cho bẻ mật khẩu.
• Wordlist_*.txt : Danh sách từ với bản sao loại bỏ, định dạng
trong một hình thức có thể dễ dàng nhập vào một chương
trình password-cracking.
• Zip.txt : Chứa thông tin các tập tin ZIP được tìm thấy.
August 14
Nhóm 5: Bulk Extractor
16
17. Cấu trúc dữ liệu đầu ra (tt)
Ngoài ra hai tập tin bổ sung có thể được tạo ra:
• *_stopped.txt : Chứa các thông tin mà không cần người dùng
chú ý tới, nhưng nếu loại bỏ nó đi có thể làm mất đi cái gì đó
quan trọng.
• *_histogram.txt : Tạo ra biểu đồ tính năng, thể hiện mức độ
xuất hiện thường xuyên của email, URL, hay các thông tin
khác trên ổ cứng hay bộ nhớ trên thiết bị di động.
August 14
Nhóm 5: Bulk Extractor
17
18. Cấu trúc dữ liệu đầu ra (tt)
Bulk Extractor còn tạo ra một tập tin Report.xml :
• Một báo cáo XML Forensics kỹ thuật số bao gồm thông tin về
các phương tiện truyền thông nguồn, làm thế nào chương
trình bulk_extractor đã được biên dịch và chạy, thời gian để
xử lý các bằng chứng kỹ thuật số, và một siêu báo cáo của
các thông tin đã được tìm thấy.
August 14
Nhóm 5: Bulk Extractor
18
19. Xử lý dữ liệu đầu ra
Bulk_extractor có 4 chương trình xử lý
Bulk_dif.py
Cda_tool.py
Identify_filenames.py
Make_context_stop_list.py
August 14
Nhóm 5: Bulk Extractor
19
20. Bulk_diff.py
Báo cáo sự khác nhau giữa 2 lần chạy bulk_extractor
Chạy bulk_extractor trên đia cứng, cho máy tính hoạt
động 1 thời gian, sau đó chạy lại 1 lần nữa.
Mục đích là có thể dựa vào báo cáo, để suy ra hoạt
động của người dùng giữa 2 lần chạy bulk_extractor
21. Cda_tool.py
Công cụ này hiện đang được phát triển
Nó đọc báo cáo từ nhiều bulk_extractor chạy trên
các ổ đĩa, sau đó thể hiện mối tương quan trên các ổ
đĩa bằng kỹ thuật Garfinkel’s Cross Drive Analysis
Được dùng để xác định thành viên của các mạng
lưới hiện có
22. Identify_filenames.py
Trong tập tin đặc điểm của Bulk_extractor, mỗi đặc
điểm được chú thích với 1 vài byte gắn vào phần
đầu image mà nó tìm thấy
Chương trình nhận vào tập tin đặc điểm và DFXML
Kết quả nó tạo ra 1 file chứa các đặc điểm chú thích
và tập các đặc điểm được tìm thấy trên đĩa
23. Make_context_stop_list.py
Các nhà pháp chứng thường làm tạo một “Stop lists”
Bulk_extractor thì tạo ra một stop_lists ngữ cảnh , mà một số đặc điểm
sẽ bị dấu nếu ngữ cảnh đó được tìm thấy
Make_context_stop_list.py thì thu thập nhiều kết quả từ bulk_extractor
và tạo một danh sách ngữ cảnh stop-list. Stop-list này được sử dụng để
dấu các đặc điểm được tìm thấy khi nó thuộc các ngữ cảnh đặt biệt
Stop_lists này được cung cấp cho Windows và Linux từ website của
bulk extractor
Nó xây dựng danh sách các từ dựa trên tất cả các từ nó tìm thấy trong dữ liệu thậm chí chúng trong các tập tin nén chưa có không gian phân bổ. Danh sách từ này có thể hữu ích cho bẻ mật khẩu.
Đây là ứng dụng đa luồng: chạy BE trên một máy tính với hai lần số lượng lỗi thường sẽ làm cho thời gian hoàn thành giảm một nữa.
BE tạo ra biểu đồ hiển thị địa chỉ email, url, tên miền, từ tìm kiếm và các loại thông tin trên ổ đĩa phổ biến nhất
Ví dụ, nếu các nhà điều tra đang cố gắng tìm ra ai là một người và những người cộng sự của họ, họ sẽ được nhìn vào số điện thoại, thuật ngữ tìm kiếm để xem những gì họ đang làm và email để xem những người mà họ đang giao tiếp với.
Kết quả đầu ra sau khi Bulk extractor thực hiện xong quá trình quét gồm các file:
Ccn.txt : số thẻ tín dụng.
Ccn_track2.txt : Thông tin mã số Track 2.
Domain.txt : Chứ các tên miền Internet, bao gồm cả địa chỉ trong các văn bản.
Email.txt : Chứa các địa chỉ mail.
Ether.txt : Chứa địa chỉa MAC Ethernet tìm thấy trong gói IP