The document discusses various topics related to web scraping and robots/bots using Ruby including:
- Using the Anemone gem to crawl and parse URLs
- Using Nokogiri to parse HTML and extract data using XPath queries
- Making HTTP requests to APIs using RestClient and parsing JSON responses
- Scraping dynamic content by executing JavaScript using Nokogiri
- Techniques for handling proxies, cookies, and CAPTCHAs when scraping
- Scaling scraping workloads using threads and queues in Ruby
24. >> html = RestClient.get("http://.../robomacaco")
>> html_doc = Nokogiri::HTML(html)
>> info = html_doc.xpath("//span[@class='name']")
>> info.text
=> "robo-macaco@hotmail.com
RIO DE JANEIRO - RJ - Brasil
21 9675-0199
25.
26. cookies
cookies = {}
c = "s_nr=12954999; s_v19=12978609471; ... __utmc=206845458"
cook = c.split(";").map {|i| i.strip.split("=")}
cook.each {|u| cookies[u[0]] = u[1]}
RestClient.get(url, :cookies => cookies)
46. Nessa vida de programador maluco
Me aparece cada situação
De repente um cliente, uma proposta bruta
Pra pegar de um site informação
Você tá louco, esse tipo de crime eu não faço
Se quiser tenho uns amigos lá do sul
Faz pra mim que eu te pago com essa jóia cool
Te dou um ruby
Pra você roubar
Com o seu robô
Quer fazer robô?
É só usar ruby
É só usar ruby
Pra fazer robô
http://www.flickr.com/photos/jobafunky/5572503988