verschiedene Arten von utf-Bindestrichen in Ruby 1.8.7 in Angriff nehmen

Question

verschiedene Arten von utf-Bindestrichen in Ruby 1.8.7 in Angriff nehmen

Gefragt el 1 de Oktober, 2010: Wann wurde die Frage gestellt
2387 Ansichten: Anzahl der Besuche der Frage
1 Antworten: Anzahl der Fragenantworten
Gelöst: Aktueller Status der Frage

Wir haben verschiedene Arten von Bindestrichen (in einigen Texten) in der Datenbank gespeichert. Bevor ich sie mit einem vom Benutzer eingegebenen Text vergleiche, muss ich jede Art von Bindestrichen zu einem einfachen Bindestrich/Minus (ascii 45) normalisieren.

Die möglichen Bindestriche, die wir umwandeln müssen, sind:

Minus() U+2212 &minus; or &#x2212; or &#8722;
Hyphen-minus(-) U+002D &#45;
Hyphen(-) U+2010
Soft Hyphen   U+00AD  &shy;
Non-breaking hyphen  U+2011  &#8209
Figure dash()  U+2012 (8210) &#x2012; or &#8210;
En dash(–) U+2013 (8211) &ndash;, &#x2013; or &#8211;
Em dash(—) U+2014 (8212) &mdash;, &#x2014; or &#8212;
Horizontal bar() U+2015 (8213) &#x2015; or &#8213;

Diese müssen alle mit gsub in Bindestrich-minus(-) umgewandelt werden. Ich habe verwendet CharDet gem, um den Zeichenkodierungstyp der abgerufenen Zeichenfolge zu erkennen. Es wird angezeigt Fenster-1252 . Ich habe versucht Iconv um die Kodierung in ascii zu konvertieren. Aber es wird eine Ausnahme geworfen Iconv::IllegalSequence .

ruby -v => ruby 1.8.7 (2009-06-12 patchlevel 174) [i686-darwin9.8.0]
rails -v => Rails 2.3.5
mysql-Kodierung => 'latin1'

Haben Sie eine Idee, wie man das erreichen kann?

Gefragt el 1 de Oktober, 2010 von intellidiot

Answer 1

1 Antworten

Answer 2

1voto

John Machin Punkte 78125

Achtung: Ich weiß nichts über Ruby, aber Sie haben Probleme, die nichts mit der Programmiersprache zu tun haben, die Sie verwenden.

Sie brauchen nicht zu konvertieren Hyphen-minus(-) U+002D - a simple hyphen/minus (ascii 45) ; sie sind dasselbe.

Sie glauben, dass die Datenbankkodierung latin1 . Die Aussage "Meine Daten sind in ISO-8859-1 alias latin1 kodiert" steht in einer Reihe mit "Der Scheck ist in der Post" und "Natürlich liebe ich dich auch noch am Morgen". Sie besagt lediglich, dass es sich um eine Ein-Byte-pro-Zeichen-Kodierung handelt.

Unter der Annahme, dass "abgerufener String" "aus der Datenbank extrahierter Byte-String" bedeutet, chardet ist sehr wahrscheinlich ganz richtig in der Berichterstattung windows-1252 alias cp1252 -- dies kann jedoch ein Zufall sein, da chardet scheint dies manchmal als Standard zu melden, wenn andere Möglichkeiten ausgeschöpft sind.

(a) Diese Unicode-Zeichen können nicht dekodiert werden in latin1 o cp1252 o ascii :

Minus() U+2212 &minus; or &#x2212; or &#8722;
Hyphen(-) U+2010
Non-breaking hyphen  U+2011  &#8209
Figure dash()  U+2012 (8210) &#x2012; or &#8210;
Horizontal bar() U+2015 (8213) &#x2015; or &#8213;

Was gibt Ihnen den Eindruck, dass sie möglicherweise in der Eingabe oder in der Datenbank auftauchen könnten?

(b) Diese Unicode-Zeichen können dekodiert werden in cp1252 でなくて latin1 o ascii :

En dash(–) U+2013 (8211) &ndash;, &#x2013; or &#8211;
Em dash(—) U+2014 (8212) &mdash;, &#x2014; or &#8212;

Diese (höchstwahrscheinlich die EN DASH) müssen Sie wirklich in einen Bindestrich/Bindestrich in ASCII umwandeln. Was war in der Zeichenkette, die chardet berichtet als windows-1252 ?

(c) Dies kann entschlüsselt werden in cp1252 y latin1 でなくて ascii :

Soft Hyphen   U+00AD  &shy;

Wenn eine Zeichenkette Nicht-ASCII-Zeichen enthält, wird jeder Versuch (mit iconv oder eine andere Methode), um sie in ascii wird fehlschlagen, es sei denn, Sie verwenden eine Art "Ignorieren" oder "Ersetzen durch ? Option". Warum versuchen Sie das zu tun?

Beantwortet el 10 de Oktober, 2010 von John Machin (78125 Punkte )

verschiedene Arten von utf-Bindestrichen in Ruby 1.8.7 in Angriff nehmen

Antwort

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by:

verschiedene Arten von utf-Bindestrichen in Ruby 1.8.7 in Angriff nehmen

Antwort

Verwandte Fragen

Empfohlene Fragen

Top-Tags

CodeJaeger.com

Powered by: