Es gibt afaik keine Funktion in der Standardbibliothek. Wenn Sie also portablen Code schreiben, haben Sie es mit einer Schleife zu tun.
Wenn Sie nicht portierbaren Code schreiben, sollten Sie in der Dokumentation Ihres Compilers/Plattforms nachsehen, aber halten Sie nicht den Atem an, denn es ist selten, hier viel Hilfe zu bekommen. Vielleicht wird jemand anderes mit Beispielen von Plattformen, die etwas anbieten, beitragen.
Die Art und Weise, wie Sie Ihre eigene schreiben würden, hängt davon ab, ob Sie in der API definieren können, dass der Aufrufer garantiert, dass der dst-Zeiger ausreichend für 64-Bit-Schreibvorgänge auf Ihrer Plattform (oder Plattformen, falls portabel) ausgerichtet ist. Auf jeder Plattform, die überhaupt einen 64-Bit-Integer-Typ hat, gibt malloc zumindest entsprechend ausgerichtete Zeiger zurück.
Wenn Sie mit Nichtausrichtung zurechtkommen müssen, dann brauchen Sie etwas wie die Antwort von moonshadow. Der Compiler kann das memcpy mit einer Größe von 8 inline/unrollieren (und 32- oder 64-Bit unaligned write ops verwenden, wenn es sie gibt), so dass der Code ziemlich flink sein sollte, aber meine Vermutung ist, dass er wahrscheinlich nicht die ganze Funktion für das Ziel, das aligned ist, spezialisieren wird. Ich würde gerne korrigiert werden, aber ich fürchte, das wird nicht der Fall sein.
Wenn Sie also wissen, dass der Aufrufer Ihnen immer einen dst mit ausreichender Ausrichtung für Ihre Architektur und einer Länge, die ein Vielfaches von 8 Byte ist, geben wird, dann machen Sie eine einfache Schleife, die einen uint64_t (oder was auch immer der 64-Bit-Int in Ihrem Compiler ist) schreibt, und Sie werden wahrscheinlich (keine Versprechungen) mit schnellerem Code enden. Auf jeden Fall wird Ihr Code kürzer.
Wie auch immer, wenn Ihnen die Leistung wichtig ist, sollten Sie ein Profil erstellen. Wenn es nicht schnell genug ist, versuchen Sie es noch einmal mit weiteren Optimierungen. Wenn es immer noch nicht schnell genug ist, fragen Sie nach einer asm-Version für die CPU(s), auf denen es nicht schnell genug ist. memcpy/memset kann durch plattformspezifische Optimierung massive Leistungssteigerungen erzielen.