5 Stimmen

kurze, homogene Strings (DNA) nach gemeinsamen Untermustern zu clustern und einen Konsens über die Klassen zu erzielen

Aufgabe:
um einen großen Pool kurzer DNA-Fragmente in Klassen zu gruppieren, die gemeinsame Teilsequenzmuster aufweisen, und die Konsenssequenz jeder Klasse zu finden.

  • Pool: ca. 300 Sequenzfragmente
  • 8 - 20 Buchstaben pro Fragment
  • 4 mögliche Buchstaben: a,g,t,c
  • Jedes Fragment ist in drei Regionen unterteilt:
    1. 5 generische Buchstaben
    2. 8 oder mehr Positionen von g's und c's
    3. 5 generische Buchstaben
      (Als Regex wäre das [gcta]{5}[gc]{8,}[gcta]{5} )

Plan:
um ein multiples Alignment (z. B. mitClustalW2) durchzuführen, um Klassen zu finden, die gemeinsame Sequenzen in Region 2 und ihre Konsenssequenzen haben.

Fragen:

  1. Sind meine Fragmente zu kurz, und würde es helfen, sie zu vergrößern?
  2. Ist die Region 2 mit nur zwei zulässigen Buchstabentypen zu homogen, um Muster in ihrer Abfolge zu zeigen?
  3. Welche alternativen Methoden oder Instrumente können Sie für diese Aufgabe vorschlagen?

Mit freundlichen Grüßen,

Simon

1voto

Calyth Punkte 1653

Ihre Region zwei, mit den 2 Buchstaben, könnte ein bisschen zu ähnlich sein, eine größere Länge oder Variabilität (z.B. mehr Buchstaben) könnte helfen.

CodeJaeger.com

CodeJaeger ist eine Gemeinschaft für Programmierer, die täglich Hilfe erhalten..
Wir haben viele Inhalte, und Sie können auch Ihre eigenen Fragen stellen oder die Fragen anderer Leute lösen.

Powered by:

X