Skip to content
Snippets Groups Projects
Commit 922db3a6 authored by Thomas Wacquet's avatar Thomas Wacquet
Browse files

some changes in classes

parent 5ab332fc
No related branches found
No related tags found
No related merge requests found
......@@ -17,7 +17,7 @@ label = "NC_007357.1 Influenza A virus (A/Goose/Guangdong/1/96(H5N1)) polymerase
# Lectures des reads :
reads = {}
with gzip.open('SRR10971381_1.fastq.gz', 'rt') as fastq:
with gzip.open('data/covid.gz', 'rt') as fastq:
counter = 0
for i, record in enumerate(SeqIO.parse(fastq, 'fastq'), start=1):
reads[i] = (str(record.seq))
......@@ -35,34 +35,36 @@ genes_grippe = genes_grippe.ParseFasta() # ID long => garder l'entier en entier
#genome="BGAABCGHJ"
# Genome
## - genome
## + create_suffix_table()
## + search_suffix()
## + get_suffix()
# Reads
## +
## + split_k_mers(k)
##
# découpe le genome en n kmers de taille k
def split_kmers(genome, k):
i = 0
res = []
# chaque k lettres, découper un nouveau mot et le placer dans la liste des kmers
for i in range(0, len(genome), k):
res.append(genome[i:i+k])
# si le kmer de fin est trop petit le retirer
if len(res[len(res)-1]) < k:
res.pop()
return res
class Genome:
def __init__(self, seq):
self.__seq = seq
self.__suffix_table = self.__create_suffix_table(self)
# crée la table des indices des suffixes triés
def create_suffix_table(genome):
def __create_suffix_table(self):
# génère indices de 0 à la taille du génome
indices = [i for i in range(len(genome))]
return sorted(indices, key=get_suffix)
indices = [i for i in range(len(self.__seq))]
return sorted(indices, key=self.__get_suffix)
# obtenir le suffixe à la position i
def get_suffix(i):
return gene_grippe[i:]
# obtenir le suffixe à la position i - pour trier correctement
def __get_suffix(self, i):
return self.__seq[i:]
def search_suffix(genome, suffix_table, kmer, i1, i2):
def search_indice(self, seq_to_search):
return self.__search_suffix(seq_to_search, 0, len(self.__seq))
def __search_suffix(self, seq_to_search, i1, i2):
# kmer non trouvé
if i2 - i1 < 1:
return -1
......@@ -70,21 +72,84 @@ def search_suffix(genome, suffix_table, kmer, i1, i2):
m = (i1 + i2) // 2
# si le kmer est trouvé au début du suffixe, renvoyer la position
if genome[suffix_table[m]:].startswith(kmer):
return suffix_table[m]
if self.__seq[self.__suffix_table[m]:].startswith(seq_to_search):
return self.__suffix_table[m]
# si le kmer est plus grand que le suffixe du milieu, parcourir la droite du tableau des suffixes
if kmer > genome[suffix_table[m]:]:
return search_suffix(genome, suffix_table, kmer, m+1, i2)
if seq_to_search > self.__seq[self.__suffix_table[m]:]:
return self.__search_suffix(self.__seq, self.__suffix_table, seq_to_search, m+1, i2)
# s'il est plus petit, parcourir la gauche
else:
return search_suffix(genome, suffix_table, kmer, i1, m)
return self.__search_suffix(self.__seq, self.__suffix_table, seq_to_search, i1, m)
# découpe le genome en n kmers de taille k
# def split_kmers(genome, k):
# i = 0
# res = []
# # chaque k lettres, découper un nouveau mot et le placer dans la liste des kmers
# for i in range(0, len(genome), k):
# res.append(genome[i:i+k])
# # si le kmer de fin est trop petit le retirer
# if len(res[len(res)-1]) < k:
# res.pop()
# return res
# crée la table des indices des suffixes triés
# def create_suffix_table(genome):
# génère indices de 0 à la taille du génome
# indices = [i for i in range(len(genome))]
# return sorted(indices, key=get_suffix)
# obtenir le suffixe à la position i
# def get_suffix(i):
# return gene_grippe[i:]
# def search_suffix(genome, kmer, i1, i2):
# # kmer non trouvé
# if i2 - i1 < 1:
# return -1
# m = (i1 + i2) // 2
# # si le kmer est trouvé au début du suffixe, renvoyer la position
# if genome[suffix_table[m]:].startswith(kmer):
# return suffix_table[m]
# # si le kmer est plus grand que le suffixe du milieu, parcourir la droite du tableau des suffixes
# if kmer > genome[suffix_table[m]:]:
# return search_suffix(genome, suffix_table, kmer, m+1, i2)
# # s'il est plus petit, parcourir la gauche
# else:
# return search_suffix(genome, suffix_table, kmer, i1, m)
class Read:
def __init__(self, seq):
self.__seq = seq
def split_into_kmers(self, k):
i = 0
res = []
# chaque k lettres, découper un nouveau mot et le placer dans la liste des kmers
for i in range(0, len(self.__seq), k):
res.append(self.__seq[i:i + k])
# si le kmer de fin est trop petit le retirer
if len(res[len(res) - 1]) < k:
res.pop()
return res
#print(split_kmers(reads[1], 10))
for read in reads.values():
kmers = split_kmers(read, 11)
r = Read(read)
kmers = r.split_kmers(11)
for gene_grippe in genes_grippe.values():
suffix_table = create_suffix_table(gene_grippe)
_suffix_table = create_suffix_table(gene_grippe)
for kmer in kmers:
pos = search_suffix(gene_grippe, suffix_table, kmer, 0, len(suffix_table))
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment