jeltz
July 16, 2013, 5:44pm
1
Próbuję przeparsować strony Google Shopping w Nokogiri (np. https://www.google.com/shopping/product/10802645001340230785?&sa=X&ei=Y0LlUbacDcGhtAbPpoD4BQ&ved=0CEsQ8wIwAA ). Xpath biorę z inspectora w chromie.
Potrzebuję wydostać tytuł i cenę.
Takie coś dla tytułu działa:
doc.at_xpath('//*[@id="product-name"]').content.strip
A to już nie działa. Choć wg. mnie wszystko się zgadza:
doc.at_xpath('//*[@id="summary-prices"]/span/span').content.strip
Wiecie może co robię źle?
Hej,
jak pobierzesz sobie stronę wgetem/curlem to zobaczysz, że w statycznej wersji nie ma #summary-prices . Google po załadowaniu pewnie jsem modyfikuje stronę, ty w nokogiri już nie wyłapiesz tego. Radzę pracować inspektorem kodu na “surowej” wersji.
gotar
July 17, 2013, 7:09am
3
albo jak sie nie da i rakuje jakis danych uzyc np phantomjs i za jego pomoca zczytywac strony
gotar
July 17, 2013, 7:11am
4
a co do fajnego zczytywania xpath i innych selektorów:
http://selectorgadget.com/
dziala swietnie klikasz co cie interesuje, odklikujesz nadmiarowe i masz gotowy selektor, super sprawa
jeltz
July 18, 2013, 3:32pm
5
Dzięki za pomoc. Zaciągnąłem stronę przez wget i przemapowałem ścieżki.