Ich habe einen großen Datensatz mit Wörtern word_i
und Gewichte weight[i,j]
, wobei Gewicht die "Verbindungsstärke" zwischen den Wörtern ist.
Ich möchte diese Daten binarisieren, aber ich möchte wissen, ob es einen Algorithmus gibt, der jedes Wort so binär kodiert, dass der Hamming-Abstand zwischen den Wortkodes mit dem Gewicht korreliert.
Hinzugefügt:
Das Problem, an dem ich arbeite, ist, dass ich versuchen möchte, einem neuronalen Netz oder SVM beizubringen, Assoziationen zwischen Wörtern herzustellen. Und deshalb habe ich beschlossen, die Daten zu binarisieren. Fragen Sie mich nicht, warum ich keine Markov-Modelle oder nur Graphen verwenden möchte, ich habe sie ausprobiert und möchte sie mit neuronalen Netzen vergleichen.
Also,
-
Ich möchte, dass mein NN bei gegebenem Wort "a" seine engste Assoziation oder eine beliebige Menge von Wörtern und deren Wahrscheinlichkeit zurückgibt
-
Ich habe versucht, einfach zu binarisieren und "ab" als Eingabe und "Gewicht" als bevorzugte Antwort zu verwenden, aber das hat nicht funktioniert,
-
Ich dachte daran, den Schwellenwert (für Gewichte) um 1 weiteres Bit zu ändern. Je kleiner dieser Schwellenwert ist, desto mehr Bits benötigen Sie,
-
Ich habe eine Situation: a->b w1; b->a w2; w1>>w2, die Richtung ist also wichtig.