Tổ chức: TopDev.
Chủ đề: Nền tảng thuật toán của AI, Machine Learning, Big Data
Speaker: Ông Xuân Hồng - Researcher engineer @ Trusting Social.
Ngày: 15/10/2017.
12. Processing - Distributed computing
● Master/Driver
○ Chuyển program thành
các tasks cho các
workers.
○ Scheduling tasks để các
workers hoạt động đồng
bộ với nhau.
● n-Cluster/Executors
○ Hoàn thành các tasks và
trả kết quả về Driver.
○ Cache dữ liệu khi được
yêu cầu.
● SparkContext dùng để tạo
RDDs.
29. Cho dãy số 12, 3, 5. Tìm medians (trung vị)?
B1: sắp xếp tăng dần thành 3, 5, 12. Worse case O(n^2)
B2: tìm trung vị. 3/2 = 1.5 ~ 2
B3: kết quả 5
Medians
30. Medians
Tìm medians tần số chuyển động tracking theo giây trên đồng hồ Mitsfit?
Biết rằng giá trị giao động trong khoảng [-20.000, 20.000]
31. 19.999 / 10.000 = 1 (for bin)
19.999 % 10.000 = 9.999 (for next bin)
Find and medians base number
Results: list medians [1, 9, 9, 9, 9]
Medians
32. ● Wavelet vs Fast Fourier Transform
● JPEG, PNG, Gif
● MP4, MOV
● Zip, gzip
Compression
Giả sử lưu lượng dữ liệu
truyền qua Internet là
1.000.000.000 TB/s.
Nếu kĩ thuật nén cải thiện
được 0.1%. Ta sẽ tiết kiệm
được 1.000.000.000 * 0.1 /
100 = 1.000.000 TB/s
34. More and more
● Machine learning
○ Random forest
○ Matrix computation (dense, sparse
vector)
○ Deep learning
● Big number:
○ Add, subtract, multiply, divide
35. Nội dung
● Tổng quan Big Data
● MapReduce - thuật toán nền tảng của Big Data
● Các thuật toán làm hằng ngày với Big Data
● Chia sẻ kinh nghiệm
36. ● Sử dụng cache và partition đúng cách để
tăng tốc tính toán.
● Sử dụng vim, nano, less để quan sát file
Big Data.
● Kiến thức cần có: toán rời rạc, xác suất
thống kê, đại số tuyến tính.
○ Tính độ phức tạp.
○ Đọc hiểu các giải thuật liên quan.
● Sử dụng các công nghệ tiên tiến khi cần
thiết:
○ GPU, quantum computing
● Yêu thích việc tối ưu tính toán.
● Nên áp dụng thuật toán theo hướng:
○ Chia để trị.
○ Quy hoạch động.
○ Xấp xỉ.
○ Độ phức tạp không quá O(n^2).
● Cố gắng thu nhỏ dữ liệu càng nhiều càng
tốt:
○ Lấy mẫu 1% quần thể.
○ Giảm số chiều dữ liệu.
● Nên sử dụng binary file parquet cho lưu
trữ và tính toán Big Data.
○ Kích thước được nén nhỏ.
○ Column oriented
Chia sẻ kinh nghiệm
37. ● Tổng quan về cấu trúc và dữ liệu
● Introduction to Algorithm, 3rd Edition (MIT Press)
● Sketching algorithm for Big Data
● Mining massive dataset (Stanford)
● 7 techniques dimensionality reduction
● Microsoft quantum computing
Tham khảo thêm