Thread Einlesen mehrerer Dateien (38 answers)
Opened by Alex at 2013-04-23 11:08

String_Test
 2013-05-02 12:24
#167395 #167395
User since
2013-04-23
19 Artikel
BenutzerIn
[default_avatar]
Vielen Dank für deine große Mühe :)
Ich habe dein Programm jetzt bei mir ans Laufen bekommen, allerdings verstehe ich gerade nicht was genau es auf welche Weise macht.

Es nimmt die .ffn Datei bzw. zwei dieser Dateien (wenn selbes Verzeichnis) und schreibt deren Inhalt in eine neue Datei? in dieser ist die erste Zeile immer der Name, gefolgt von einer Sequenz oder?

In meinen outfiles scheint aber die ganze Sequenz zu sein oder zumindest viel zuviel an Sequenz. Auch stimmt i.wie das Verfahren nicht oder kann dein Programm die 24 Zeichen nach den ersten 3 Zeichen einer Enzym-Sequenz gar nicht ausschneiden und ich muss dies noch implementieren? Dann hätte ich ein Problem aus den outfiles den Beginn der jeweiligen Enzymsequenzen zu ermitteln.

Hier mal zum Vergleich der Beginn von zwei Dateien und deren outfiles.
Quote
>gb|CP000828.1|:c2319-1627 NUDIX hydrolase [Acaryochloris marina MBIC11017]
ATGCCCTATACCTATGATTATCCGCGC

>gb|CP000828.1|:2404-3255 hypothetical protein AM1_0004 [Acaryochloris marina MBIC11017]
ATGCAACAGCATTTTGAAGTCGCGGCC

outfile:

> Acaryochloris marina MBIC11017
CCCTATACCTATGATTATCCGCGCCTCGATCTCAAAGTCCTACTGATT

_________________________________________________________________________

>gb|CP000350.1|:c1908-1 Glucose inhibited division protein A [Leptospira borgpetersenii serovar Hardjo-bovis JB197]
ATGATCGAATCCAAAAACCAATCTTTT

outfile:

> Leptospira borgpetersenii serovar Hardjo-bovis JB197
ATAGTTGTATCCATAGCAAACCAG


Bei dem ersten Beispiel stimmt die erste Enzymsequenz aber die zweite angehangene ist nicht korrekt. Bei dem Zweiten sehe ich überhaupt keine Übereinstimmung zwischen der zu entnehmenden und der entnommenen Sequenz :(

Dafür müsste in deinem Code folgende Zeile verantwortlich sein:
Code (perl): (dl )
            elsif ( $line =~ m/\A...([ATGC]{25})/ ) {
im Vergleich die Zeile aus meinem alten Programm
Code (perl): (dl )
1
2
3
4
my $DNAString=join("",@DNAReadIn);
           $DNAString =~s/(\]\n)/,/g;

while ($DNAString =~ m{,\w{3}(\w{24})}g)
Hier habe ich die ] in ein , umgewandelt um so die Stelle mit ,\w\w\w zu finden um anschließend die nächsten 24 Zeichen zu extrahieren, da der Enzym-Sequenzbeginn (das Startcodon) nicht immer ATG ist.

View full thread Einlesen mehrerer Dateien