Wie viel schneller kann ein Algorithmus auf CUDA- oder OpenCL-Code im Vergleich zu einem allgemeinen Einzelprozessorkern ausgeführt werden (unter Berücksichtigung der Tatsache, dass der Algorithmus sowohl für das CPU- als auch für das GPU-Ziel geschrieben und optimiert wurde)?
Ich weiß, dass es sowohl von der Grafikkarte als auch von der CPU abhängt, aber sagen wir, eine der schnellsten GPUs von NVIDIA und ein (einzelner Kern eines) Intel i7-Prozessors?
Und ich weiß, dass es auch von der Art des Algorithmus abhängt.
Ich brauche keine strikte Antwort, sondern erfahrene Beispiele wie: für einen Bildmanipulationsalgorithmus mit doppelpräzisem Fließkomma und 10 Operationen pro Pixel dauerte zunächst 5 Minuten und läuft jetzt mit dieser Hardware in x Sekunden.