Ich kann auf SO keine Frage zu meinem speziellen Problem finden, also verzeihen Sie mir, wenn dies schon einmal gefragt wurde!
Wie auch immer, ich schreibe ein Skript, das eine Reihe von URLs durchläuft und mir eine Liste eindeutiger URLs mit eindeutigen Parametern liefert.
Das Problem, das ich habe, ist, die Parameter zu vergleichen, um mehrere Duplikate auszuschließen. Es ist ein bisschen schwer zu erklären, so einige Beispiele sind wahrscheinlich in Ordnung:
Angenommen, ich habe eine Liste von URLs wie diese
- hxxp://www.somesite.com/page.php?id=3&title=derp
- hxxp://www.somesite.com/page.php?id=4&title=blah
- hxxp://www.somesite.com/page.php?id=3&c=32&title=thing
- hxxp://www.somesite.com/page.php?b=33&id=3
Ich habe es Parsing jede URL in eine Liste von Listen, so schließlich habe ich eine Liste wie diese:
sort = [['id', 'title'], ['id', 'c', 'title'], ['b', 'id']]
Ich muss einen Weg finden, wie ich zu diesem Zeitpunkt nur 2 Listen in meiner Liste habe:
new = [['id', 'c', 'title'], ['b', 'id']]
Ab sofort habe ich ein bisschen Zeit, um das zu klären, ich weiß, dass ich kurz davor bin und mir schon seit ein paar Tagen den Kopf darüber zerbreche :(. Irgendwelche Ideen?
Vielen Dank im Voraus! :)
EDIT: Entschuldigung, dass ich mich nicht klar ausgedrückt habe! Dieses Skript zielt darauf ab, einzigartige Einstiegspunkte für Webanwendungen nach dem Spidering zu finden. Grundsätzlich, wenn eine URL 3 eindeutige Einstiegspunkte hat
['id', 'c', 'title']
Das wäre mir lieber als ein und derselbe Link mit 2 eindeutigen Einstiegspunkten, wie z. B.:
['id', 'title']
Ich brauche also meine neue Liste von Listen, um die mit 2 zu eliminieren und die mit 3 NUR dann zu bevorzugen, wenn die kleineren Variablen in der größeren Menge sind. Wenn es immer noch unklar ist, lasst es mich wissen, und danke für die schnellen Antworten! :)