2. Các vấn đề về click fraud
Data mining (DM) vs kỹ thuật lọc click fraud
Ứng dụng data mining cho công nghệ Click fraud
detection.
Một vài kết quả.
3. Xảy ra với quảng cáo tính phí theo CPC (có ít theo
CPA).
Sự khác nhau giữa Click fraud & Invalid click.
Các hình thức click fraud: Tools, click bots,
publishers tự clicks, đối thủ cạnh tranh click, thậm
chí thuê nhân công giá rẻ để click quảng cáo.
4. Các hình thức click fraud luôn thay đổi
Việc chặn click fraud rất khó khăn vì phải mining
trên lượng data rất lớn (500->1 tỷ rows/day và có
thể tăng).
Một số report về click fraud trên thế giới.
8. Các yếu tố:
◦ IP, cookies, referral, domain…
◦ Google có khoảng 150 yếu tố
Các rules:
◦ Số click/ad tăng đột biến.
◦ 1 user click nhiều hơn 1 số cho phép.
◦ Click ko có referrral, ko có IP.
◦ Click đến từ 1 proxy server nghi ngờ.
9. DW: sử dụng Inforbright là DW dạng column
orient, compression ratio có thể đạt 1:40, sử dụng
công nghẹ gọi là KG để mapping data.
Yếu tố mining: sử dụng 5 yếu tố chính là IP,
Cookies, Domain, Timecreate, Browsers, OS.
Các rules:
◦ fraud click khi 1 visitor click nhiều hơn số lần cho phép
(bị loại bỏ hoàn toàn các click đến từ visitor này).
◦ Số click tăng đột ngột trên 1 banners
10. Số banners active khoảng 2k, trong đó CPC
chiếm khoảng 1800 banners.
Tốc độ tính toán: 5 phút 1 lần
Số click ko hợp lệ: ~10%