4. Web crawler thách thức
1. Số lượng page rất lớn
2. Cấu trúc mã html phức tạp
3. Tốc độ , tần xuất cần nhanh
5. Không phải là điểm mạnh của
php
1. PHP cần mô hình phức tạp cho
việc crawler
2. Bóc tách dữ liệu với PHP tương
đối khó
• regular expression là không đủ
• PHP DOM và các thư viện (dom)
khác , chậm và ngốn memory
6. Một số giải pháp cho php
1. Sử dụng cloud computing cho việc xử lý và
lưu trữ (cloud rất phù hợp với stateless)
2. Dùng mô hình job queue cho việc bóc tách
đọc lập
8. Hatforrent dùng công nghệ gì
1. Java
2. MongoDB
3. ActiveMQ
4. Rhino
5. Google appengine – Amazon EC2
9. Tại sao lại dùng hatforrent
1. Chỉ việc nhận content
2. Không cron , không crawl , không tốn
resource
3. Đủ mạnh để lấy 99% content trên thế
giới
4. Đang phát triển rất nhanh
12. Hỗ trợ
1. Lấy content ở tất cả các trang web
2. Dải IP rộng (tránh bị blacklisted)
ip4:216.239.32.0/19
ip4:64.233.160.0/19
ip4:66.249.80.0/20
ip4:72.14.192.0/18
ip4:209.85.128.0/17
ip4:66.102.0.0/20
ip4:74.125.0.0/16
ip4:64.18.0.0/20
ip4:207.126.144.0/20
ip4:173.194.0.0/16
3 .Đẩy dữ liệu vào wordpress , blogspot , rest API
13. Ứng dụng
1. News aggregator
http://www.esexpress.net/
2. http://tintute.com/
3. Autoblog
4. Q&A style
http://www.questiondb.com/
5. ứng dụng đọc báo đọc trên mobile
14. API
1. Đã có public API để các trang có thể
nhận dữ liệu từ hatforrent (Rest Style)
2. Đang phát triển API đẩy thẳng vào các
loại csdl phổ biến
16. Cần cộng đồng hỗ trợ
1. Viết plugin để làm việc trực tiếp trên
WordPress để (như WP-robot)
2. Viết PHP API để có thể đẩy content
vào
• Joomla
• Drupal
• Magento
• Forum Engine