ソーシャル・ニュースリーダー「Crowsnest」におけるTwitterのリアルタイム解析と情報整理の未来
- 2. •
• @kaiseh
•
TopHatenar, Blogopolis
12 1 30
- 4. • Web
Twitter URL
12 1 30
- 5. • Twitter
• Twitter
12 1 30
- 7. • RT Twitter
• Google
Twitter
12 1 30
- 10. • Crowsnest
•
12 1 30
- 11. : URL
✴
• URL
✴Crowsnest
• URL
12 1 30
- 12. :
✴
•< , ID
>
✴Crowsnest
•< ID,
ID >
12 1 30
- 13. :
✴
•
•
✴Crowsnest
• ID
•
12 1 30
- 14. :
✴
•
URL
✴Crowsnest
• :
URL
12 1 30
- 15. • Crowsnest
• Crowsnest
• Web
12 1 30
- 16. •
• Flipboard Cover Stories
• Summify
12 1 30
- 20. URL
• Search API (search.json)
• “http”
• Streaming API (statuses/filter.json)
• “http”
• Timelines API (statuses/home_timeline.json)
•
12 1 30
- 21. • 80 distinct URLs / sec
• 6.9M distinct URLs / day
• 2.3 Tweets / URL
• 15.9M Tweets / day
• 72 URL
12 1 30
- 22. Crowsnest
(1)
•
• Crowsnest
• Apache Solr
12 1 30
- 23. Crowsnest
(2)
•
• → , , , , ,
, , , bigram
• Crowsnest
• 1000 → ID1, ID2, ... , ID1000
12 1 30
- 25. • URL→ ID
• URL
• URL
•
•
12 1 30
- 26. •
•
• ID 32
• etc
12 1 30
- 27. • fastutil
• Map<Integer, Integer> Int2IntMap
• 1
•
12 1 30
- 28. •
• URL
•
• Simple9
• MessagePack
12 1 30
- 29. ID 32
• 64
...
•
32
ID
12 1 30
- 30. Web
Fetcher Fetcher Fetcher
Indexer Indexer Indexer
In-Memory In-Memory In-Memory
Index Index Index
MySQL
12 1 30