Partie 2 finie. A retravailler

cc6b19b5 · Samuel Nguyen · 7881f86a · cc6b19b5 · cc6b19b5 · cc6b19b5
Commit cc6b19b5 authored 5 months ago by Samuel Nguyen
--- a/.idea/.name
+++ b/.idea/.name
+tp_2_miso_dict.py
\ No newline at end of file
--- a/.idea/misc.xml
+++ b/.idea/misc.xml
 <?xml version="1.0" encoding="UTF-8"?>
 <project version="4">
-  <component name="ProjectRootManager" version="2" project-jdk-name="Python 3.10" project-jdk-type="Python SDK" />
+  <component name="Black">
+    <option name="sdkName" value="Python 3.12" />
+  </component>
+  <component name="ProjectRootManager" version="2" project-jdk-name="Python 3.12" project-jdk-type="Python SDK" />
 </project>
\ No newline at end of file
--- a/.idea/tp2_hachage.iml
+++ b/.idea/tp2_hachage.iml
@@ -2,7 +2,7 @@
 <module type="PYTHON_MODULE" version="4">
  <component name="NewModuleRootManager">
    <content url="file://$MODULE_DIR$" />
-    <orderEntry type="inheritedJdk" />
+    <orderEntry type="jdk" jdkName="Python 3.12" jdkType="Python SDK" />
    <orderEntry type="sourceFolder" forTests="false" />
  </component>
  <component name="PyDocumentationSettings">

--- a/tp_2_miso_dict.py
+++ b/tp_2_miso_dict.py
@@ -2,6 +2,7 @@ import matplotlib.pyplot as plt
 import numpy as np
 import time
 import sys
+import statistics  #pour faire la moyenne des temps d'insertion pour chaque facteur de charge
@@ -21,13 +22,38 @@ def experiment_load_factor(load_factors : list):
 		Les nombres de réallocations de mémoire
 		Les tailles de mémoire occupée par le dictionnaire pour chaque facteur de charge
 	"""
+	# Initialisation
 	insertion_times = []
 	num_resizes = []
 	sizes = []
 	for factor in load_factors :
 		dictio = {}
-	# num_elements = .......... QUESTION 2 PARTIE 2
+		num_resize=0
-	return [],[],[]
+		last_size = sys.getsizeof(dictio)
+		num_elements = int(factor*100)
+		tempsecoules = []
+		for i in range(num_elements) :
+			cle = 'cle'+str(i)
+			start_time = time.time()
+			dictio[cle] = i
+			end_time = time.time()
+			tempsecoule = end_time - start_time
+			tempsecoules.append(tempsecoule)
+			current_size = sys.getsizeof(dictio)
+			if current_size > last_size :
+				num_resize += 1
+				last_size = current_size
+		size = sys.getsizeof(dictio)
+		insertion_time = statistics.mean(tempsecoules)
+		insertion_times.append(insertion_time)
+		num_resizes.append(num_resize)
+		sizes.append(size)
+	return insertion_times, num_resizes, sizes
 def experiment_longest():
 	"""
@@ -50,14 +76,32 @@ def visualisation(load_factors, insertion_times, num_resizes, sizes, frequencies
 	"""
 	Visualisation des résultats
 	"""
+	num_elements = []
+	for factor in load_factors :
+		num_elements.append(factor*100)
 	# Temps d'insertion en fonction du facteur de charge
+	plt.plot(load_factors, insertion_times)
+	plt.xlabel('Facteur de charge')
+	plt.xticks(load_factors, [str(x) for x in load_factors], rotation=45)
+	plt.ylabel("Temps d'insertion (secondes)")
+	plt.title("Temps d'insertion en fonction du facteur de charge")
+	plt.savefig("temps_d_insertion.png")
 	# Nombre de réallocations de mémoire en fonction du facteur de charge
+	plt.plot(load_factors, num_resizes)
+	plt.xlabel('Facteur de charge')
+	plt.xticks(load_factors, [str(x) for x in load_factors], rotation=45)
+	plt.ylabel("Nombre de réallocations de mémoire")
+	plt.title("Nombre de réallocations de mémoire en fonction du facteur de charge")
+	plt.savefig("nombre_reallocations.png")
 	# Taille de mémoire occupée en fonction du nombre d'éléments
+	plt.plot(sizes, num_elements)
+	plt.xlabel("Nombre d'éléments")
+	plt.xticks(num_elements, [str(x) for x in num_elements], rotation=45)
+	plt.ylabel("Taille de mémoire occupée (octets)")
+	plt.title("Taille de mémoire occupée en fonction du nombre d'éléments")
+	plt.savefig("taille_memoire.png")
 	# Deuxième étude
-	f = list()
+	f = list(frequencies)
 	plt.figure(figsize=(10, 6))
 	plt.bar(range(len(f)), f)
 	plt.xlabel('Temps d\'insertion (s)')
@@ -67,7 +111,7 @@ def visualisation(load_factors, insertion_times, num_resizes, sizes, frequencies
 	xticks = np.logspace(-6, 1, 3)
 	xtick_labels = [f'{x:.1e}' for x in xticks]
 	plt.xticks(xticks, xtick_labels)
-	plt.savefig('histogramme.png')
+	plt.savefig('deuxieme_etude.png')
 load_factors = [0.01, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0]
 insertion_times, num_resizes, sizes = experiment_load_factor(load_factors)

--- a/tp_2_miso_mphf.py
+++ b/tp_2_miso_mphf.py
@@ -8,7 +8,6 @@ import random
 ###### PARTIE 1 ######
 def construction_mphf(set_kmer, n, gamma=2, nb_niveaux=3):
    """
 	Construit une fonction de hachage minimale parfaite (MPHF) pour un ensemble de k-mers.
@@ -95,7 +94,7 @@ def construction_mphf(set_kmer, n, gamma=2, nb_niveaux=3):
    # On fait ces étapes car les collisions n'ont pas pu être placées avant,
    #  on leur attribue un rang plus grand pour ne pas perturber l'ordre précédent
    if not mphf:
-		print("⚠️ Attention : MPHF vide, vérifiez les données en entrée.")
+        print("Attention : MPHF vide, vérifiez les données en entrée.")
    return mphf
@@ -184,7 +183,8 @@ def compare_taille(n_max, fichier_sortie):
        tableau, mphf = create_hash_table(set_kmer, n)
        n_values.append(n)
-		table_size.append(sys.getsizeof(tableau)+sys.getsizeof(mphf)) # pourquoi ici on ne mesure pas juste la taille en mémoire du tableau ?
+        table_size.append(sys.getsizeof(tableau) + sys.getsizeof(
+            mphf))  # pourquoi ici on ne mesure pas juste la taille en mémoire du tableau ?
        # Car sys.getsizeof(tableau) ne mesure que la liste elle-même, pas les objets stockés dedans.
        # On veut mesurer la mémoire totale du système de hachage, pas seulement la liste.
        dict_size.append(sys.getsizeof(set_kmer))
@@ -199,6 +199,7 @@ def compare_taille(n_max, fichier_sortie):
    plt.savefig(fichier_sortie)
    plt.close()
 # dé-commenter quand vous êtes prêts, expliquer les résultats
 compare_taille(10000, "mphf.png")