563 Stimmen

Leistung von HashSet vs. Liste

Es ist klar, dass eine Suchleistung des generischen HashSet<T> Klasse höher ist als die der generischen List<T> Klasse. Vergleichen Sie einfach den hashbasierten Schlüssel mit dem linearen Ansatz in der List<T> Klasse.

Die Berechnung eines Hash-Schlüssels kann jedoch selbst einige CPU-Zyklen in Anspruch nehmen, so dass die lineare Suche bei einer geringen Anzahl von Elementen eine echte Alternative zur HashSet<T> .

Meine Frage: Wo liegt der Break-even?

Zur Vereinfachung des Szenarios (und um fair zu sein) nehmen wir an, dass die List<T> Klasse verwendet das Element Equals() Methode, um einen Artikel zu identifizieren.

1060voto

innominate227 Punkte 10129

Viele Leute sagen, dass, sobald man eine Größe erreicht hat, bei der die Geschwindigkeit tatsächlich ein Problem darstellt, die HashSet<T> wird immer schlagen List<T> aber das hängt davon ab, was Sie tun.

Nehmen wir an, Sie haben eine List<T> die im Durchschnitt immer nur 5 Artikel enthalten werden. Wenn bei einer großen Anzahl von Zyklen in jedem Zyklus ein einzelnes Element hinzugefügt oder entfernt wird, ist es möglicherweise besser, ein List<T> .

Ich habe dies auf meinem Rechner getestet, und es muss schon sehr, sehr klein sein, um einen Vorteil zu erhalten List<T> . Bei einer Liste mit kurzen Zeichenfolgen ist der Vorteil nach Größe 5 verschwunden, bei Objekten nach Größe 20.

1 item LIST strs time: 617ms
1 item HASHSET strs time: 1332ms

2 item LIST strs time: 781ms
2 item HASHSET strs time: 1354ms

3 item LIST strs time: 950ms
3 item HASHSET strs time: 1405ms

4 item LIST strs time: 1126ms
4 item HASHSET strs time: 1441ms

5 item LIST strs time: 1370ms
5 item HASHSET strs time: 1452ms

6 item LIST strs time: 1481ms
6 item HASHSET strs time: 1418ms

7 item LIST strs time: 1581ms
7 item HASHSET strs time: 1464ms

8 item LIST strs time: 1726ms
8 item HASHSET strs time: 1398ms

9 item LIST strs time: 1901ms
9 item HASHSET strs time: 1433ms

1 item LIST objs time: 614ms
1 item HASHSET objs time: 1993ms

4 item LIST objs time: 837ms
4 item HASHSET objs time: 1914ms

7 item LIST objs time: 1070ms
7 item HASHSET objs time: 1900ms

10 item LIST objs time: 1267ms
10 item HASHSET objs time: 1904ms

13 item LIST objs time: 1494ms
13 item HASHSET objs time: 1893ms

16 item LIST objs time: 1695ms
16 item HASHSET objs time: 1879ms

19 item LIST objs time: 1902ms
19 item HASHSET objs time: 1950ms

22 item LIST objs time: 2136ms
22 item HASHSET objs time: 1893ms

25 item LIST objs time: 2357ms
25 item HASHSET objs time: 1826ms

28 item LIST objs time: 2555ms
28 item HASHSET objs time: 1865ms

31 item LIST objs time: 2755ms
31 item HASHSET objs time: 1963ms

34 item LIST objs time: 3025ms
34 item HASHSET objs time: 1874ms

37 item LIST objs time: 3195ms
37 item HASHSET objs time: 1958ms

40 item LIST objs time: 3401ms
40 item HASHSET objs time: 1855ms

43 item LIST objs time: 3618ms
43 item HASHSET objs time: 1869ms

46 item LIST objs time: 3883ms
46 item HASHSET objs time: 2046ms

49 item LIST objs time: 4218ms
49 item HASHSET objs time: 1873ms

Hier sind diese Daten als Diagramm dargestellt:

enter image description here

Hier ist der Code:

static void Main(string[] args)
{
    int times = 10000000;

    for (int listSize = 1; listSize < 10; listSize++)
    {
        List<string> list = new List<string>();
        HashSet<string> hashset = new HashSet<string>();

        for (int i = 0; i < listSize; i++)
        {
            list.Add("string" + i.ToString());
            hashset.Add("string" + i.ToString());
        }

        Stopwatch timer = new Stopwatch();
        timer.Start();
        for (int i = 0; i < times; i++)
        {
            list.Remove("string0");
            list.Add("string0");
        }
        timer.Stop();
        Console.WriteLine(listSize.ToString() + " item LIST strs time: " + timer.ElapsedMilliseconds.ToString() + "ms");

        timer = new Stopwatch();
        timer.Start();
        for (int i = 0; i < times; i++)
        {
            hashset.Remove("string0");
            hashset.Add("string0");
        }
        timer.Stop();
        Console.WriteLine(listSize.ToString() + " item HASHSET strs time: " + timer.ElapsedMilliseconds.ToString() + "ms");
        Console.WriteLine();
    }

    for (int listSize = 1; listSize < 50; listSize+=3)
    {
        List<object> list = new List<object>();
        HashSet<object> hashset = new HashSet<object>();

        for (int i = 0; i < listSize; i++)
        {
            list.Add(new object());
            hashset.Add(new object());
        }

        object objToAddRem = list[0];

        Stopwatch timer = new Stopwatch();
        timer.Start();
        for (int i = 0; i < times; i++)
        {
            list.Remove(objToAddRem);
            list.Add(objToAddRem);
        }
        timer.Stop();
        Console.WriteLine(listSize.ToString() + " item LIST objs time: " + timer.ElapsedMilliseconds.ToString() + "ms");

        timer = new Stopwatch();
        timer.Start();
        for (int i = 0; i < times; i++)
        {
            hashset.Remove(objToAddRem);
            hashset.Add(objToAddRem);
        }
        timer.Stop();
        Console.WriteLine(listSize.ToString() + " item HASHSET objs time: " + timer.ElapsedMilliseconds.ToString() + "ms");
        Console.WriteLine();
    }

    Console.ReadLine();
}

120voto

nawfal Punkte 65966

Es ist im Grunde sinnlos, zwei Strukturen zu vergleichen Leistung die sich unterschiedlich verhalten. Verwenden Sie die Struktur, die die Absicht vermittelt. Auch wenn Sie sagen, dass Ihr List<T> hätte keine Duplikate und die Iterationsreihenfolge spielt keine Rolle, so dass es vergleichbar mit einem HashSet<T> ist es immer noch eine schlechte Wahl für die Verwendung List<T> weil es relativ wenig fehlertolerant ist.

Ich werde also Folgendes prüfen einige andere Aspekte der Leistung,

+------------+--------+-------------+-----------+----------+----------+-----------+
| Collection | Random | Containment | Insertion | Addition |  Removal | Memory    |
|            | access |             |           |          |          |           |
+------------+--------+-------------+-----------+----------+----------+-----------+
| List<T>    | O(1)   | O(n)        | O(n)      | O(1)*    | O(n)     | Lesser    |
| HashSet<T> | O(n)   | O(1)        | n/a       | O(1)     | O(1)     | Greater** |
+------------+--------+-------------+-----------+----------+----------+-----------+
  • Obwohl die Addition in beiden Fällen O(1) ist, ist sie bei HashSet relativ langsamer, da sie Kosten für die Vorberechnung des Hash-Codes vor der Speicherung verursacht.

  • Die überlegene Skalierbarkeit von HashSet hat ihren Preis im Speicher. Jeder Eintrag wird als neues Objekt zusammen mit seinem Hash-Code gespeichert. Dieser Artikel könnte Ihnen eine Idee geben.

82voto

Eloff Punkte 19617

Sie sehen das falsch. Ja, eine lineare Suche in einer Liste wird ein HashSet für eine kleine Anzahl von Elementen schlagen. Aber der Leistungsunterschied spielt bei so kleinen Sammlungen normalerweise keine Rolle. Es sind im Allgemeinen die großen Sammlungen, um die Sie sich Sorgen machen müssen, und das ist der Punkt, an dem Sie in Kategorien von Big-O denken . Wenn Sie jedoch einen echten Engpass bei der HashSet-Leistung gemessen haben, können Sie versuchen, eine Mischform aus Liste und HashSet zu erstellen, aber dazu müssen Sie viele empirische Leistungstests durchführen und keine Fragen zu SO stellen.

38voto

drzaus Punkte 22843

Ich dachte nur, ich würde mich mit einigen Benchmarks für verschiedene Szenarien einbringen, um die vorherigen Antworten zu veranschaulichen:

  1. Einige (12 - 20) kleine Zeichenfolgen (Länge zwischen 5 und 10 Zeichen)
  2. Viele (~10K) kleine Strings
  3. Einige lange Zeichenfolgen (Länge zwischen 200 und 1000 Zeichen)
  4. Viele (~5K) lange Strings
  5. Ein paar ganze Zahlen
  6. Viele (~10K) ganze Zahlen

Und für jedes Szenario suchen Sie die Werte, die erscheinen:

  1. Am Anfang der Liste ("Start", Index 0)
  2. Nahe am Anfang der Liste ("früh", Index 1)
  3. In der Mitte der Liste ("Mitte", Index count/2)
  4. Am Ende der Liste ("spät", Index count-2)
  5. Am Ende der Liste ("end", Index count-1)

Vor jedem Szenario habe ich Listen mit zufälligen Zeichenketten in zufälliger Größe erstellt und dann jede Liste in ein Hashset eingegeben. Jedes Szenario wurde im Wesentlichen 10.000 Mal ausgeführt:

(Test-Pseudocode)

stopwatch.start
for X times
    exists = list.Contains(lookup);
stopwatch.stop

stopwatch.start
for X times
    exists = hashset.Contains(lookup);
stopwatch.stop

Beispielhafte Ausgabe

Getestet unter Windows 7, 12GB Ram, 64 bit, Xeon 2.8GHz

---------- Testing few small strings ------------
Sample items: (16 total)
vgnwaloqf diwfpxbv tdcdc grfch icsjwk
...

Benchmarks:
1: hashset: late -- 100.00 % -- [Elapsed: 0.0018398 sec]
2: hashset: middle -- 104.19 % -- [Elapsed: 0.0019169 sec]
3: hashset: end -- 108.21 % -- [Elapsed: 0.0019908 sec]
4: list: early -- 144.62 % -- [Elapsed: 0.0026607 sec]
5: hashset: start -- 174.32 % -- [Elapsed: 0.0032071 sec]
6: list: middle -- 187.72 % -- [Elapsed: 0.0034536 sec]
7: list: late -- 192.66 % -- [Elapsed: 0.0035446 sec]
8: list: end -- 215.42 % -- [Elapsed: 0.0039633 sec]
9: hashset: early -- 217.95 % -- [Elapsed: 0.0040098 sec]
10: list: start -- 576.55 % -- [Elapsed: 0.0106073 sec]

---------- Testing many small strings ------------
Sample items: (10346 total)
dmnowa yshtrxorj vthjk okrxegip vwpoltck
...

Benchmarks:
1: hashset: end -- 100.00 % -- [Elapsed: 0.0017443 sec]
2: hashset: late -- 102.91 % -- [Elapsed: 0.0017951 sec]
3: hashset: middle -- 106.23 % -- [Elapsed: 0.0018529 sec]
4: list: early -- 107.49 % -- [Elapsed: 0.0018749 sec]
5: list: start -- 126.23 % -- [Elapsed: 0.0022018 sec]
6: hashset: early -- 134.11 % -- [Elapsed: 0.0023393 sec]
7: hashset: start -- 372.09 % -- [Elapsed: 0.0064903 sec]
8: list: middle -- 48,593.79 % -- [Elapsed: 0.8476214 sec]
9: list: end -- 99,020.73 % -- [Elapsed: 1.7272186 sec]
10: list: late -- 99,089.36 % -- [Elapsed: 1.7284155 sec]

---------- Testing few long strings ------------
Sample items: (19 total)
hidfymjyjtffcjmlcaoivbylakmqgoiowbgxpyhnrreodxyleehkhsofjqenyrrtlphbcnvdrbqdvji...
...

Benchmarks:
1: list: early -- 100.00 % -- [Elapsed: 0.0018266 sec]
2: list: start -- 115.76 % -- [Elapsed: 0.0021144 sec]
3: list: middle -- 143.44 % -- [Elapsed: 0.0026201 sec]
4: list: late -- 190.05 % -- [Elapsed: 0.0034715 sec]
5: list: end -- 193.78 % -- [Elapsed: 0.0035395 sec]
6: hashset: early -- 215.00 % -- [Elapsed: 0.0039271 sec]
7: hashset: end -- 248.47 % -- [Elapsed: 0.0045386 sec]
8: hashset: start -- 298.04 % -- [Elapsed: 0.005444 sec]
9: hashset: middle -- 325.63 % -- [Elapsed: 0.005948 sec]
10: hashset: late -- 431.62 % -- [Elapsed: 0.0078839 sec]

---------- Testing many long strings ------------
Sample items: (5000 total)
yrpjccgxjbketcpmnvyqvghhlnjblhgimybdygumtijtrwaromwrajlsjhxoselbucqualmhbmwnvnpnm
...

Benchmarks:
1: list: early -- 100.00 % -- [Elapsed: 0.0016211 sec]
2: list: start -- 132.73 % -- [Elapsed: 0.0021517 sec]
3: hashset: start -- 231.26 % -- [Elapsed: 0.003749 sec]
4: hashset: end -- 368.74 % -- [Elapsed: 0.0059776 sec]
5: hashset: middle -- 385.50 % -- [Elapsed: 0.0062493 sec]
6: hashset: late -- 406.23 % -- [Elapsed: 0.0065854 sec]
7: hashset: early -- 421.34 % -- [Elapsed: 0.0068304 sec]
8: list: middle -- 18,619.12 % -- [Elapsed: 0.3018345 sec]
9: list: end -- 40,942.82 % -- [Elapsed: 0.663724 sec]
10: list: late -- 41,188.19 % -- [Elapsed: 0.6677017 sec]

---------- Testing few ints ------------
Sample items: (16 total)
7266092 60668895 159021363 216428460 28007724
...

Benchmarks:
1: hashset: early -- 100.00 % -- [Elapsed: 0.0016211 sec]
2: hashset: end -- 100.45 % -- [Elapsed: 0.0016284 sec]
3: list: early -- 101.83 % -- [Elapsed: 0.0016507 sec]
4: hashset: late -- 108.95 % -- [Elapsed: 0.0017662 sec]
5: hashset: middle -- 112.29 % -- [Elapsed: 0.0018204 sec]
6: hashset: start -- 120.33 % -- [Elapsed: 0.0019506 sec]
7: list: late -- 134.45 % -- [Elapsed: 0.0021795 sec]
8: list: start -- 136.43 % -- [Elapsed: 0.0022117 sec]
9: list: end -- 169.77 % -- [Elapsed: 0.0027522 sec]
10: list: middle -- 237.94 % -- [Elapsed: 0.0038573 sec]

---------- Testing many ints ------------
Sample items: (10357 total)
370826556 569127161 101235820 792075135 270823009
...

Benchmarks:
1: list: early -- 100.00 % -- [Elapsed: 0.0015132 sec]
2: hashset: end -- 101.79 % -- [Elapsed: 0.0015403 sec]
3: hashset: early -- 102.08 % -- [Elapsed: 0.0015446 sec]
4: hashset: middle -- 103.21 % -- [Elapsed: 0.0015618 sec]
5: hashset: late -- 104.26 % -- [Elapsed: 0.0015776 sec]
6: list: start -- 126.78 % -- [Elapsed: 0.0019184 sec]
7: hashset: start -- 130.91 % -- [Elapsed: 0.0019809 sec]
8: list: middle -- 16,497.89 % -- [Elapsed: 0.2496461 sec]
9: list: end -- 32,715.52 % -- [Elapsed: 0.4950512 sec]
10: list: late -- 33,698.87 % -- [Elapsed: 0.5099313 sec]

15voto

Walden Leverich Punkte 4308

Die Gewinnschwelle hängt von den Kosten für die Berechnung des Hashwerts ab. Hash-Berechnungen können trivial sein, oder auch nicht... :-) Es gibt immer die System.Collections.Specialized.HybridDictionary Klasse, damit Sie sich nicht um den Break-even-Punkt kümmern müssen.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X