Algorytm mieszający - rozkminka

exage · February 2, 2012, 9:07am

Witam,
mam taki nietypowy algorytm i zastanawiam się jak go najlepiej zaimplementować. Mianowicie sytuacja wygląda następująco, mam przykładowy model Person o następujących kolumnach: id, name (imię i nazwisko), order (pozycja na liście).

Teraz zagadka. Jak, wykorzystując kolumnę order, pobierając przykładowo z bazy po 50 rekordów, posortować je tak aby osoby z tym samym nazwiskiem były od siebie maksymalnie oddalone na liście.

Próbuję to rozwiązać zmodyfikowaną przeze mnie wersją algorytmu sortowania przez wstawianie, ale chyba kiepsko to wymyśliłem.

Z góry dziękuję za wszelkie sugestie,

Pozdrawiam,
exage

dfens · February 2, 2012, 9:43am

posortować po pobraniu w kodzie ruby, czy jeszcze w bazie?

exage · February 2, 2012, 10:19am

W bazie wykorzystując kolumnę order. Ewentualnie, zastanawiam się jeśli tego by się nie dało zrobić sortować te rekordy jakoś przy wprowadzaniu ich do bazy danych.

sbl · February 2, 2012, 1:15pm

exage, spróbuj pomyśleć nad wykorzystaniem algorytmu (a w zasadzie odwrotności wyniku jego dzałania): http://pl.wikipedia.org/wiki/Odległość_Levenshteina

knife · February 2, 2012, 8:39pm

Odległość Levenshteina na niewiele się tutaj zda, bo chcemy sprawdzać czy nazwiska są takie same a nie czy są podobne.

@exege
Kolumna order ma tak ustawiać rekordy Person aby takie same nazwiska znajdowały się jak najdalej od siebie?

exage · February 3, 2012, 9:32am

@knife: dokładnie o to chodzi.

paneq · February 3, 2012, 8:04pm

A duże masz te zbiory osób?

apohllo · February 3, 2012, 8:09pm

A może mógłbyś opisać po co Ci jest to potrzebne? Może chcesz rozwiązać problem w niewłaściwy sposób?

paneq · February 3, 2012, 8:24pm

Myślę, że to co nam opisałeś nawet nie jest sortowaniem zakładając, że przez sortowanie rozumiemy uporządkowanie obiektów w ciąg na podstawie porównań każdego dwóch z nich. Dla mnie sortowanie jest procesem w którym porównując obiekt A i B, inne obiekty w kolekcji nie mają wpływu na wynik tego porównaniu. To co tutaj próbujesz osiągnąć jest bardzo nietrywialne i zastanawiam się nad złożonością tego problemu w ogóle.

Wyobraź sobie takie ciąg wstawianych nazwisk

A A B A B C A B C A A B C B A, a może: A B C A B
Wyobrażam sobie, że pewnie wstawiając dowolne nazwisko do bazy trzeba bardzo dużo kombinacji sprawdzić żeby uzyskać optymalny wynik. Być może w małej liczbie elementów mógłbyś sprawdzić wszystkie możliwe kombinacje i dla nich wyliczyć wartość współczynnika jakiegoś i po nim posortować ale to będzie bardzo nieoptymalne.

Tak samo jak apohllo trudno mi sobie wyobrazić usecase.

Na temat ewentualnej algorytmiki i złożoności tego problemu mógłby się wypowiedzieć ktoś z większym doświadczeniem akademickim

knife · February 3, 2012, 11:23pm

Szkic prostego rozwiązania:

Zgrupuj obiekty Person wg nazwiska.
Dla każdej grupy:
Wstawiaj do docelowej tabeli obiekty o danym nazwisku co k miejsc (k = ilość wszystkich rekordów / ilość rekordów w grupie).
Oczywiście jeśli dane miejsce jest już zajęte obiekt należy wstawić w najbliższe wolne miejsce.
Łatwe w implementacji choć niekoniecznie optymalne.

apohllo · February 4, 2012, 12:03pm

No i co przy każdym insercie ma to robić? Bez use-case to jest błądzenie we mgle.

knife · February 4, 2012, 1:20pm

Raczej przy każdej operacji pobierania rekordów. Wydaje się, że problem dotyczy sposobu prezentacji danych, dlatego zrezygnowałbym z pamiętania porządku w kolumnie order (wstawianie nowego rekordu może być zbyt kosztowne).
Problem ciekawy, chętnie poznam lepsze rozwiązania.

exage · February 6, 2012, 8:26am

@paneq średnio po 30 - 50 tys rekordów.

Problem nie dotyczy sposobu prezentacji danych. Pomieszanie tego w idealny sposób w rozsądnym czasie jest chyba nierealne. Tak jak napisałem, te rekordy mogę też ‘porządkować’ przy wprowadzaniu ich do bazy. Wstępnie wymyśliłem coś takiego: pierwsza pętla pobiera elementy z tabeli dopóki ta tabela nie jest pusta, w środku biorę jeden element i ‘przymierzam’ go do bazy, jeżeli w pobliżu nie ma podobnych nazwisk to wstawia do bazy i usuwa. Do tego jakieś zabezpieczenie, żeby się nie zapętlił w niekorzystnym przypadku. Nie jest to za mądre, ale na razie nic innego mi nie przychodzi do głowy.

gotar · February 6, 2012, 9:16am

A może tak z innej strony co w ogóle chcesz osiądnąć, to że posortować w taki sposób to wszyscy wiedzą już tylko po co? Jaki jest przypadek uzycia tego? Opisz jakiś scenariusz, moze mozna to rozwiazac inaczej

apohllo · February 6, 2012, 11:59am

Raczej przy każdej operacji pobierania rekordów.[/quote]
Prawie jak PHP 5.3.9 - we put a bug in yo patch, so u can patch while u patch. Innymi słowy: leczenie choroby trucizną.

knife · February 6, 2012, 9:59pm

Oczywiście nie mówię tutaj o pobieraniu 50tyś rekordów i grupowaniu ich wg autora, a następnie zapisywaniu nowej kolejności w bazie danych. Myślałem o sensownej liczbie rekordów które można wyświetlić na jednej stronie. Takie ustalanie kolejności można by zaimplementować nawet w JS. Tylko jak widać, nie o to chodziło autorowi pytania.
@exage
To rozważania czysto teoretyczne, czy takie ułożenie nazwisk jest wymogiem w realnej aplikacji?
Może projektujesz coś na wzór sortowni Amazonu, gdzie podobne przedmioty nie mogą znajdować się na tej samej półce?