Nie-przeglądarkowe zapytania do serwerów

gRuby · February 7, 2011, 2:06pm

cześć;

Pytanie do gości administrujących większymi aplikacjami, które “odpytują” inne aplikacje o zadany content.

Wiem, trochę bigos … więc na przykładzie:
Interesują nas np. wyniki giełdowe i wysyłamy zapytanie o konkretne spółki do jakiegoś serwisu biznesowo-informacyjnego (coś na podobieństwo wyspecjalizowanych robotów sieciowych).
Wiem, że w detalu nie stanowi to większego problemu.

Pytanie właściwe: czy przy dużej i częstej ilości takich zapytań właściciele tych “odpytywanych” portali nie będą się dąsać za takie pytania i banować na przykład IP pytającego ?
Kolega z tego forum zasugerował że takie praktyki miały miejsce.
Może ktoś potwierdzić/zaprzeczyć … naprowadzić pliz … ?

pozdro !

radarek · February 7, 2011, 2:21pm

To raczej pytanie do tego konkretnego serwisu a nie do nas. Z pewnością nie jest to zbyt ładne ściągać content w tak dużej ilości z cudzej strony (no chyba, że dostaliśmy pozwolenie na to albo jest do tego API z regulaminem który tego nie zabrania). Zablokować zawsze Cię mogą (zwykle IP, ew. konto jeśli logujesz się na jakieś).

gRuby · February 7, 2011, 2:36pm

true - to rzeczywiście nie ładnie.
Zasadniczo treść umieszczana w necie jest do cytowania jeśli podajemy źródło (takie są chyba warunki większości poważnych serwisów) - i tu kłopotu nie mamy … Mnie chodzi o Wasze doświadczenia w tej materii …

dzięki …

lotus · February 7, 2011, 3:38pm

Jak będziesz bezczelnie scrapować, to najprawdopodobniej Cię zablokują. Najlepiej brać z api albo się dogadać.

Tomash · February 7, 2011, 3:41pm

Z prowadzącymi serwisy giełdowe? Hahahahahahaha!

Do poczytania:
http://blog.mocna-kawa.com/2010/05/jak-podsluchiwac-aplikacje-mobilne/
(i komcie)

gRuby · February 7, 2011, 3:53pm

ok, serwisy giełdowe to tylko przykład.
Mnie zastanawiają pytania do różnych portali (nie tylko giełdowych) i nie są to pytania dotyczące contentu - gdzie dostęp miałby być limitowany …
Pytamy o to, co pokazują całemu światu.

dzieki za pomoc !

Tomash · February 7, 2011, 4:09pm

Jeśli boisz się, że mogą Cię zblokować, to scrape’uj tak żeby nie przeciążyć serwerów – np. z przerwą 2-3 sekundy pomiędzy kolejnymi stronami/linkami.

gRuby · February 7, 2011, 4:14pm

tak, nie ma założeń do obciążania odpytywanych serwerów.
Zmienną istotną jest zakładana regularność (co 15 minut dajmy na to)
Jakiś admin po jakimś czasie może to wyłapać - stąd pytanie o to jak to interpretują w praktyce …

paneq · February 7, 2011, 5:12pm

W praktyce zautomatyzowane podbieranie cudzej bazy danych podpada pod kradzież własności intelektualnej. Ogólnie są na to przepisy. Dlatego zdecydowanie lepiej się ugadać.

Tomash · February 7, 2011, 5:37pm

Jasne, zwłaszcza że rozmawiamy o danych które autor / posiadacz praw udostępnił wszystkim za darmo w sieci.

edyta: zalinkowałem mniejszy obrazek

Bragi · February 7, 2011, 6:30pm

Nie zmienia to faktu, że nie można takich danych wykorzystywać bez pozwolenia autora. Pamiętaj, że kolekcja/kompozycja jest również chroniona prawem (np. składanka CD jako taka to odrębny utwór).

Sprawa jest prosta: chesz korzystać to zdobądź licencję.

Anonymous · February 7, 2011, 6:45pm

W polce obowiązuje zasada że informacje publiczne oraz katalogowe (typu ogłoszenia, adresy, prognozy pogody, kursy giełdowe itp.), oraz wszystko co nie jest szczegółowo objęte prawem autorskim, jest uznawane za publiczne i może być kopiowane i przetwarzane bez pozwolenia.

Jeżeli strona nie zmusza cię do akceptacji licencji przed oglądaniem treści, to ona też cię nie obowiązuje. Więc wszystkie serwisy ogłoszeniowe, serwisy podające dane giełdowe,pogodowe itd. itp. Które nie zmuszają cię do akceptacji licencji, a tylko posiadają je na stronie. Można spokojnie w świetle polskiego prawa scrapować.

Nie mam pod ręką paragrafów ale są to wnioski z opinii prawnej. (Co oczywiście >Disclaimer< nie znaczy że to co piszę jest takową opinią, ani że jestem prawnikiem).

Tomash · February 7, 2011, 6:50pm

Może ktoś wkleić opinię prawnika na ten temat? Bo jak widzę że na kolejnym już forum “domorośli prawnicy” robią FUD, to mi się ulewa.

gRuby · February 7, 2011, 7:38pm

Zgadzam się w całej rozciągłości z ogólną linią Waszych odpowiedzi że to pytanie bardziej do prawników i interpretacji przepisów.
Świadomie jednak zadaję to pytanie tutaj - bo interesuje mnie doświadczenie adminów i stosowana praktyka właścicieli/adminów contentu.

Zagadnienia prawne nie są tak banalne - bo co, jeśli odpytywane aplikacje nie są zarejestrowane w Polsce ?
Dla urozmicenia dodam, że wynikiem pracy takiej aplikacji/robota są tylko url-e (linki) do odpytywanej aplikacji (właściciela contentu). Można by więc uznać takiego robota za wartość dodaną dla wartości serwisu. I właśnie to jest meritum pytania: co oni na to - czy ktoś spotkał się z czymś takim ?

wielkie dzięki za Wasze opinie !

Tomash · February 7, 2011, 7:46pm

Jedno słowo: google.
No, może jeszcze dwa: google cache.
Ewentualnie kolejne: webarchive.

paneq · February 7, 2011, 10:49pm

Swoją opowiedź oparłem na danych przekazanych mi na UAM przez osobę prowadzącą przedmiot o nazwie “Ochrona własności intelektualnej”, która była prawnikiem specjalizującym się w tym zakresie.

To, że ja publicznie udostępniam stronę na której możesz na 130 różnych sposobów przeglądać jakieś dane, nad którymi się napracowałem by je opublikować typu dajmy na to przeprowadziłem badania opinii publicznej i wiem z dokładnością co do powiatu jak bardzo lubiany jest dan poseł (totalnie wymyślony przykład) nie znaczy, że ty możesz teraz zapuścić wgeta i w zmechanizowany oraz automatyczny sposób odwoływać się do mojej bazy danych i następnie użyć ich np by na swojej stronie zaprezentować te same dane w postaci 10 razy lepszej bo zawierającej grafikę.

Ba, nawet samo zutomatyzowane przetwarzanie już pewnie podpada pod paragraf.

Bazy danych podlegają w Polsce i ogólnie na świecie ochronie autorskiej, nawet jeśli wystawiam je publicznie byś mógł sobie poprzeglądać te dane.

Jedyne prawo jakie ci przysługuje do takich danych to conajwyżej prawo cytatu.

http://www.google.pl/search?q=ochrona+autorska+baz+danych

Jak to się ma do tego, z czego żyje Google? Nie mam pojęcia. Może fakt istnienia robots.txt i opcji opt-out pozwala im funkcjonować ? Z drugiej strony europejscy wydawcy książek nie byli tak miło nastawieni do ich indeksowania jak pamiętam…

laszpio · February 8, 2011, 3:15pm

W praktyce pewnie wszystko zależy od eli… eli to jest korzystne dla serwisu, eli nie jest korzytne/nie zżera zbyt wielu zasobów serwisu. Z mojej praktyki mogę powiedzieć, że zwykle po wyjaśnieniu do czego i w jaki są wykorzystywane zrzucane dane następowała pozytywna reakcja - w jaki sposób możmy pomóc / zniesienia ograniczeń lub wypracowania konsensusu tak by scrapowanie nie zarzynało serwisów (https://github.com/papercavalier/throttler może się przydać).

gRuby · February 8, 2011, 5:12pm

Dokładnie na to czekałem. To sporo informacji: potrafią wychwycić, skontaktować się i nie koniecznie się irytować.

dzięki laszpio !

sbl · February 9, 2011, 12:22am

Tego typu informacje podchodzą pod przepisy Ustawy o ochronie baz danych (np. http://lex.pl/bap/student/Dz.U.2001.128.1402.html), w mniejszym zakresie - przepisów o ochronie praw autorskich. Ustawa jest krótka, więc można spokojnie przeczytać do porannej kawki i się dowiedzieć co oficjalnie można, a czego nie

gRuby · February 14, 2011, 1:58pm

hm, jak widać - mimo mego zacięcia nie udało mi się dostatecznie wyklarować, że nie do końca interesują mnie kwestie prawne (przynajmniej nie w kontekście tego forum

Niemniej dzięki za wszelkie Wasze uwagi.
… i jeszcze do poczytania:

http://wiadomosci.onet.pl/media/onet-wsrod-najczesciej-cytowanych-mediow,1,4168236,wiadomosc.html