Die Antwort von Alex ist richtig. Der Zeitaufwand für den Wrapper ist minimal. Beachten Sie, dass PyCUDA einige nette Metaprogrammierkonstrukte für die Erzeugung von Kerneln hat, die nützlich sein könnten.
Wenn Sie nur Elemente eines Bildes addieren oder subtrahieren wollen, sollten Sie CUDA wahrscheinlich gar nicht verwenden. Die Zeit, die für die Übertragung über den PCI-E-Bus benötigt wird, übersteigt die Einsparungen, die Sie durch die Parallelität erzielen.
Jedes Mal, wenn Sie mit CUDA arbeiten, ist es sinnvoll, über das CGMA-Verhältnis (Verhältnis zwischen Berechnungen und globalem Speicherzugriff) nachzudenken. Ihre Addition/Subtraktion ist nur 1 Fließkommaoperation für 2 Speicherzugriffe (1 Lese- und 1 Schreibzugriff). Aus der Sicht von CUDA ist das sehr ungünstig.