Problem beim Trimmen einer japanischen Zeichenkette in Java

Question

Problem beim Trimmen einer japanischen Zeichenkette in Java

Gefragt el 26 de Januar, 2009: Wann wurde die Frage gestellt
4927 Ansichten: Anzahl der Besuche der Frage
5 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Ich habe die folgende Zeichenfolge (japanisch) "" Das erste Zeichen ist ein Leerzeichen, aber seine Nummer in Unicode ist 12288. Wenn ich also "".trim() ausführe, erhalte ich denselben String (trim funktioniert nicht). Wenn ich trim in C++ ausführe, funktioniert es gut. Weiß jemand, wie man dieses Problem in Java lösen kann? Gibt es eine spezielle Trim-Methode für Unicode?

Gefragt el 26 de Januar, 2009 von Pablo Retyk

Answer 1

5 Antworten

Answer 2

8voto

Fabian Steeg Punkte 43903

Als Alternative zum StringUtils Klasse, die Mike erwähnt hat, können Sie auch einen Unicode-fähigen regulären Ausdruck verwenden, der nur die Java-eigenen Bibliotheken nutzt:

"".replaceAll("\\p{Z}", "")

Oder, um wirklich nur zu trimmen, und nicht entfernen Leerzeichen innerhalb der Zeichenfolge:

"  ".replaceAll("(^\\p{Z}+|\\p{Z}+$)", "")

Beantwortet el 26 de Januar, 2009 von Fabian Steeg (43903 Punkte )

Answer 3

4voto

McDowell Punkte 105255

をご覧ください。 Unicode-Normalisierung und die Normalisierer Klasse. Die Klasse ist neu in Java 6, aber Sie finden eine entsprechende Version in der ICU4J Bibliothek, wenn Sie eine frühere JRE verwenden.

    int character = 12288;
    char[] ch = Character.toChars(character);
    String input = new String(ch);
    String normalized = Normalizer.normalize(input, Normalizer.Form.NFKC);

    System.out.println("Hex value:\t" + Integer.toHexString(character));
    System.out.println("Trimmed length           :\t"
            + input.trim().length());
    System.out.println("Normalized trimmed length:\t"
            + normalized.trim().length());

Beantwortet el 26 de Januar, 2009 von McDowell (105255 Punkte )

Answer 4

3voto

Mike Sickler Punkte 31956

Versuchen Sie die Apache Commons'. StringUtils Klasse. Die Methode StringUtils.strip() sollte für Sie funktionieren.

Beantwortet el 26 de Januar, 2009 von Mike Sickler (31956 Punkte )

Answer 5

2voto

Paul Whelan Punkte 16284

In den Java-Dokumenten wird erklärt, warum dies nicht funktioniert.

Wenn dieses String-Objekt eine leere Zeichenfolge darstellt, oder die ersten und das letzte Zeichen der Zeichenfolge Zeichenfolge, die durch dieses String Objekt repräsentiert werden, beide einen Code größer als ' \u0020 ' (das Leerzeichen), dann ein Verweis auf dieses String-Objekt zurückgegeben.

Sie könnten Ihre eigene Version leicht erstellen. Vielleicht könnte die Methode codePointAt für diesen Zweck verwendet werden.

http://java.sun.com/j2se/1.5.0/docs/api/java/lang/String.html

Beantwortet el 26 de Januar, 2009 von Paul Whelan (16284 Punkte )

Answer 6

2voto

Michael Borgwardt Punkte 334642

Sie müssen Ihre eigenen Texte schreiben trim() Methode basierend auf Character.isWhitespace() - leider, trim() tut nicht das, was sein API-Dokument behauptet: Es entfernt nur ASCII-Leerzeichen, keine anderen Arten von Leerzeichen.

Beantwortet el 26 de Januar, 2009 von Michael Borgwardt (334642 Punkte )

Problem beim Trimmen einer japanischen Zeichenkette in Java

Antworten

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

Problem beim Trimmen einer japanischen Zeichenkette in Java

Antworten

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: