Nie-przeglądarkowe zapytania do serwerów

hosiawak · February 14, 2011, 9:41pm

W kwestii obciążania serwerów przez crawlery z własnego doświadczenia mogę napisać, że w ciągu 3 lat nie miałem przypadku, kiedy ktoś narzekałby na zbytnie obciążenie. Moje roboty (serwis ogłoszeniowy) nie odpytują danej domeny częściej niż 1.5 czy 0.5 sekundy (czas uzależniony od kilku zmiennych). Ciężko mi sobie wyobrazić serwer, który padłby po takim odpytywaniu. To chyba nie te czasy kiedy odpalenie jakiegoś crawlera potrafiło rozłożyć serwer, fakt czasami też się to zdarza, dlatego trzeba uważać co się robi i najlepiej sprawdzać jak reaguje druga strona (np. sprawdzamy średni czas odpowiedzi, na podstawie, którego można czasami wywnioskować czy serwer jest w dobrym stanie czy przeciążony).

Dla porównania - roboty Google nie są zbytnio pobłażliwe, czasami przeglądając logi widać kilka /kilkanaście zapytań od Google crawlera na sekundę. Nikt z Google nie pytał mnie czy mój serwer to wytrzyma ani czy mają pozwolenie na indeksację wysyłając oficjalne pismo

Co do kwestii prawnych to w dużej mierze zależy od tego co robimy z tym danymi. Na początku mojej zabawy z robotami myślałem mniej więcej to samo co napisał Paneq, teraz wypowiedź Świstaka wydaje mi się bardziej “z życia wzięta”.

paneq · February 14, 2011, 11:28pm

Jak to mówią: Umów nie podpisuje się na wypadek gdyby wszystko poszło ok. Pewnie prawa też na tą okoliczność się nie pisze prawda? Jestem też święcie przekonany, że wiele serwisów nie będzie się czepiać o pobieranie danych a sporo pewnie nawet tego nie zauważy. Co jednak nijak się ma do prawa.

qertoip · February 16, 2011, 3:15pm

Po kilku latach skrobania - od serwisów z ofertami nieruchomości, przez randkowe, a na serwisach transakcyjnych banków skończywszy - nigdy nie spotkałem się z problemem blokowania moich robotów. Więc jeśli nie jesteś wyjątkowym życiowym pechowcem, nie przejmuj się i pisz swoją skrobaczkę.

Bragi · March 2, 2011, 11:20am

W podobnym temacie: 95 tys. zł odszkodowania w ugodzie dotyczącej m.in. ochrony bazy danych serwisu internetowego oferującego opony

Jest to co prawda ugoda ale też sygnał, że pilnować się trzeba.

hosiawak · March 2, 2011, 11:54am

@Bragi: Świetny przykład jak tego nie należy robić (oponeo.pl vs. opony.net) - nie znam szczegółów sporu ale wygląda na to, że opony.net miało robota, który pobrał całą bazę opon z oponeo.pl, wykorzystało tę bazę do utworzenia serwisu konkurencyjnego do oponeo.pl (sprzedaż opon) - oponeo.pl nic z tego nie ma (poza nowym konkurentem).

astropanic · March 2, 2011, 1:19pm

Witajcie,

Kolega delikatnie pytal o temat ciagniecia contentu na przykladzie gieldy, nie robmy z tego od razu cyrku. Pytanie padlo czy serwer bedzie blokowal takie odpytywania, a nie czy jest to legalne czy tez nie.

Jak ja rzezbie po serwerach targajac content, korzystam z kilku tanich firm hostingowych, wkladam na nich prymitywne skrypty, ktore powoduja ze tak na prawde one odpytuja docelowa maszyna i to one zwracaja mi wyniki, z punktu widzenia serwera sa to rozne requesty, z roznych maszyn, w miare losowe, na dodatek ze spora przerwa pomiedzy requestami. Do dzis sie to swietnie sprawdza, bez zadnych problemow, wymagania co do hostingu, nie potrzeba bazy danych, musi byc w stanie wyslac zapytanie http oraz odpowiedziec na rzadanie http, tyle.

Jesli chodzi o blokady serwera, zaden admin o zdrowych zmyslach nie zablokuje Cie na stale. Albo nastapi throttling, ze nie dostaniesz wiecej niz x odpowiedzi w czasie krotszym niz y, albo zostaniesz zbanowany na czas x, jesli sie adminowi nudzi to Ci “podrzuci” z automatu jakies smieci jako content i tyle.

Powodzenia

Tomash · March 2, 2011, 3:09pm