Nokogiri i xpath z Google Chrome

jeltz · July 16, 2013, 5:44pm

Próbuję przeparsować strony Google Shopping w Nokogiri (np. https://www.google.com/shopping/product/10802645001340230785?&sa=X&ei=Y0LlUbacDcGhtAbPpoD4BQ&ved=0CEsQ8wIwAA). Xpath biorę z inspectora w chromie.

Potrzebuję wydostać tytuł i cenę.

Takie coś dla tytułu działa:

doc.at_xpath('//*[@id="product-name"]').content.strip

A to już nie działa. Choć wg. mnie wszystko się zgadza:

doc.at_xpath('//*[@id="summary-prices"]/span/span').content.strip

Wiecie może co robię źle?

sebcioz · July 16, 2013, 8:28pm

Hej,

jak pobierzesz sobie stronę wgetem/curlem to zobaczysz, że w statycznej wersji nie ma #summary-prices. Google po załadowaniu pewnie jsem modyfikuje stronę, ty w nokogiri już nie wyłapiesz tego. Radzę pracować inspektorem kodu na “surowej” wersji.

gotar · July 17, 2013, 7:09am

albo jak sie nie da i rakuje jakis danych uzyc np phantomjs i za jego pomoca zczytywac strony

gotar · July 17, 2013, 7:11am

a co do fajnego zczytywania xpath i innych selektorów:

http://selectorgadget.com/

dziala swietnie klikasz co cie interesuje, odklikujesz nadmiarowe i masz gotowy selektor, super sprawa

jeltz · July 18, 2013, 3:32pm

Dzięki za pomoc. Zaciągnąłem stronę przez wget i przemapowałem ścieżki.