755 Stimmen

Was ist der beste Weg, um Akzente zu entfernen (normalisieren) in einem Python Unicode-String?

Ich habe eine Unicode-Zeichenkette in Python, und ich möchte alle Akzente (diakritische Zeichen) entfernen.

Ich habe im Internet eine elegante Möglichkeit gefunden, dies zu tun (in Java):

  1. konvertiert die Unicode-Zeichenkette in ihre lange normalisierte Form (mit einem separaten Zeichen für Buchstaben und diakritische Zeichen)
  2. alle Zeichen entfernen, deren Unicode-Typ "diakritisch" ist.

Muss ich eine Bibliothek wie pyICU installieren oder ist dies nur mit der Python-Standardbibliothek möglich? Und was ist mit Python 3?

Wichtiger Hinweis: Ich möchte Code mit einer expliziten Zuordnung von akzentuierten Zeichen zu ihrem nicht akzentuierten Gegenstück vermeiden.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X