Einlesen mehrerer Dateien - #167399 (Allgemeines zu Perl)

String_Test

2013-05-02 15:50

User since
2013-04-23
19 Artikel
BenutzerIn
[default_avatar]

Ja es sollen aus allen Enzym-Sequenzen bestimmte Abschnitte herausgeschnitten werden, das hab ich glaube ich nicht deutlich genug gesagt :( deshalb hier mal ein Originalauszug aus einer Datei:

Quote
>gb|CP000351.1|:139-891 ParA-like protein [Leptospira borgpetersenii serovar Hardjo-bovis JB197]
ATGATAGTTGTATCCATAGCAAACCAGAAAGGTGGAGAAGGTAAAACTACAACCTCTCTTAATTTATCGA
TGGGGCTTGCGAGAAGAGGAAAAAAAACTCTGCTCGTTGATATAGATCCTCAAGCAAATTCAACCGGTAT
TTTTACAAATCCAGAAGGTATTGAGAAATCAATGCATGGAGTTTTTAACTCAAAAATGACTATCCAAGAA
ATCATGATTGAAACGAGGTTACCTGATCTTTTTTTGGCCCCTTCTAAAATGAATCTTGCGGAAGTAGAAA
CACTTTCCGGAAATTCCGTAGATGCGCCTTATATTCTGAGAGACTCTCTTCAAAGTGTGAGTGGGATCGA
CTTTTGTATCATCGATTGTCCACCTAGCTTATCTATTTTTACGATTAATGCACTCGTCGGATCAAATTAC
GTAATTATTCCACTTCAGGCTGAAAAATTTTCCGTAGATGGAATTGTAGGACTTCAACAAACAATCACAA
GCATCAAAAAAAGAATCAATCCTAACCTTGAAATTTTAGGAGCCCTAGTTACTCAACTCAAGCCTCAAAC
ACTTTTGACGAAAACTATCGTACCCGTTTTAACAAAATACTTTCGAATTTTCGAAACAAGCATCTCTGAT
GGAGTTGCAGTAGGAGAATCCCATCTTGCTAAAAAGTCGGTATTTGAATACAACAAGACGAGTAAACAAG
CCCAGGAATATGAAGGGTTTATAGAGGAGTTTTTAAATGAGCTCAAAAAGTAA
>gb|CP000351.1|:875-1720 ParB-like protein [Leptospira borgpetersenii serovar Hardjo-bovis JB197]
ATGAGCTCAAAAAGTAAACGACTCGGCTCTCTCGCAGATGTATTCCAAGCCGAAAAGTTGGAGGGGACTA
TTCGTAAAATTCGGCTCGATAAAATTCTTCCATCCGAAAACCAGCCCAGACAAGATCGAAAAAAAGGAAT
CGAAGACCTCGCGAGAAGTTTAGACAAAGACGGACTACTCCAACCAATCATTGTCACAAAACAAAATCCG
GAAGATGAGAACTATAAAATTGTAGCCGGAGAAAGAAGATACCACGCAGCGAAACAATTAGGCTGGGCAG
AAATAGAATGTAAAATTTTAGACCGGGACGAAAAAGAAACCTTTCGACTTGCAATTATAGAAAATCTTCA
AAGAGAAAATTTATCCCCTTATGAAGAAGTGGAAGCCATGTCACACTTAAAGAATAGCTTCAAATATACA
GATCAAGAATTAGGAACTCTCTTTGGAAAAAGTAGAAGTTACATGACGGAGCTTCTTGGAATTTCAAATC
TAAGCAAAGAAGAACTTAGATCCTGCAAAGAAGCAGGAATTGAAAGTAAAAATTTATTGATCCAAGCAGT
TGCAGCTTCTCGAAAAGGAACCTTCTCTGAGTTTTTAAATTTATTTCAAACGGGTGCACTTAAAACCGTT
AAAGATGCAAAATCTTTTAACCGGGAAGAGGAAAACTTGTCCACACCTAAAATTACAAGTGCGACAAACC
CAAAAGTTTCAAATTTAAATTCAACGGAATATAAGATCACAAAAAAACAAGGTCTAATTCAAATTAGTTC
TGATAATGAAGAACTGTTAGGTAATATTTTTAAACTAATCAAAAAAGAAATCCGTAAAAAATTCAATTCT
ATATAA

Hierbei sollen halt nur die 24 Zeichen, die nach dem Startcodon (die ersten drei Zeichen) stehen extrahiert werden (hier in FETT).

Ich überlege gerade welche Methode effektiver arbeitet und einfacher zu schreiben ist:

1) In der combine_Datei wie in deinem Beispiel bereits nur den Namen und die benötigten Sequenzen zu speichern und deren Inhalt dann einfach an die endgültige Datei anzuhängen.

oder

2) Lediglich die beiden Dateien komplett in die combine_Datei zu überführen und dann zusammen mit den anderen Bakterien .ffn Dateien mit subs oder Schleifen auszulesen und zu extrahieren.