import numpy as np import pandas as pd from app import comp from app.comp.moy_sem import comp_ranks_series from app.pe.moys import pe_moy from app.pe.moys.pe_moy import get_colonne_df import re CODE_MOY_UE = "UEs" CODE_MOY_COMPETENCES = "Compétences" CHAMP_GENERAL = "Général" # Nom du champ de la moyenne générale CHAMP_GROUPE = "groupe" CHAMP_PROMO = "promo" class MoyennesTag: def __init__( self, tag: str, type_moyenne: str, matrice_notes: pd.DataFrame, # etudids x UEs|comp matrice_coeffs: pd.DataFrame, # etudids x UEs|comp infos: dict, ): """Classe centralisant un ensemble de moyennes/class/stat, obtenu par un groupe d'étudiants, à un tag donné, en stockant les moyennes aux UEs|Compétences et la moyenne générale (toutes UEs confondues). Args: tag: Un tag matrice_notes: Les moyennes (etudid x acronymes_ues|compétences) aux différentes UEs ou compétences matrice_coeffs: Les coeffs (etudid x acronymes_ues|compétences) aux différentes UEs ou compétences infos: Informations (aggrégat, cohorte ayant servi à calculer les moyennes) """ self.tag = tag """Le tag associé aux moyennes""" self.type = type_moyenne """Le type de moyennes (par UEs ou par compétences)""" self.infos = { "aggregat": infos["aggregat"], "tag": tag, "cohorte": infos["cohorte"], } """Info sur les éléments (aggrégat, cohorte) ayant servi à calculer les moyennes""" # Les moyennes par UE/compétences (ressources/SAEs confondues) self.matrice_notes: pd.DataFrame = matrice_notes """Les notes par UEs ou Compétences (DataFrame etudids x UEs|comp)""" self.matrice_coeffs: pd.DataFrame = matrice_coeffs """Les coeffs à appliquer pour le calcul des moyennes générales (toutes UE ou compétences confondues). NaN si étudiant non inscrit""" self.intitules: list[str] = list(self.matrice_notes.columns) """Les intitules (acronymes d'UE ou compétences) renseignés dans les moyennes""" assert len(self.intitules) == len( set(self.intitules) ), "Des champs de moyennes en doublons" self.etudids: list[int] = list(self.matrice_notes.index) """Les étudids renseignés dans les moyennes""" self.moyennes_dict: dict[str, pe_moy.Moyenne] = {} """Dictionnaire associant à chaque UE|Compétence ses données moyenne/class/stat""" for col in self.intitules: # if ue.type != UE_SPORT: # Les moyennes tous modules confondus notes = matrice_notes[col] infos = self.infos | {"intitule": col} self.moyennes_dict[col] = pe_moy.Moyenne(notes, infos) # Les moyennes générales (toutes UEs confondues) self.notes_gen = pd.Series(np.nan, index=self.matrice_notes.index) """Notes de la moyenne générale (toutes UEs|Comp confondues)""" if self.has_notes(): self.notes_gen = self.compute_moy_gen( self.matrice_notes, self.matrice_coeffs ) infos = self.infos | {"intitule": CHAMP_GENERAL} self.moyenne_gen = pe_moy.Moyenne(self.notes_gen, infos) """Dataframe retraçant les moyennes/classements/statistiques général (toutes UESs confondues et modules confondus)""" def has_notes(self): """Détermine si les moyennes (aux UEs ou aux compétences) ont des notes Returns: True si la moytag a des notes, False sinon """ for col, moy in self.moyennes_dict.items(): if not moy.has_notes(): return False return True # notes = self.matrice_notes # nbre_nan = notes.isna().sum().sum() # nbre_notes_potentielles = len(notes.index) * len(notes.columns) # if nbre_nan == nbre_notes_potentielles: # return False # else: # return True def compute_moy_gen(self, moys: pd.DataFrame, coeffs: pd.DataFrame) -> pd.Series: """Calcule la moyenne générale (toutes UE/compétences confondus), en pondérant les notes obtenues aux UEs|Compétences par les coeff (ici les crédits ECTS). Args: moys: Les moyennes (etudids x acronymes_ues/compétences) coeff: Les coeff (etudids x acronymes_ues/compétences) """ # Calcule la moyenne générale dans le semestre (pondérée par le ECTS) try: moy_gen_tag = comp.moy_sem.compute_sem_moys_apc_using_ects( moys, coeffs.fillna(0.0), # formation_id=self.formsemestre.formation_id, skip_empty_ues=True, ) return moy_gen_tag except TypeError as e: raise TypeError( "Pb dans le calcul de la moyenne toutes UEs/compétences confondues" ) def to_df(self, options={"min_max_moy": True}) -> pd.DataFrame: """Renvoie le df synthétisant l'ensemble des données connues. Adapte : * les noms des colonnes aux données fournies dans l'attribut ``infos`` (nom d'aggrégat, type de cohorte). * à l'option ``min_max_moy`` (limitant les colonnes) """ if "min_max_moy" not in options or options["min_max_moy"]: with_min_max_moy = True else: with_min_max_moy = False # Les étudiants triés par etudid etudids_sorted = sorted(self.etudids) # Le dataFrame à générer df = pd.DataFrame(index=etudids_sorted) # Ajout des notes pour tous les champs champs = list(self.intitules) for champ in champs: moy: pe_moy.Moyenne = self.moyennes_dict[champ] df_champ = moy.to_df( with_min_max_moy=with_min_max_moy ) # le dataframe (les colonnes ayant été renommées) colonnes_renommees = ajout_numero_a_colonnes( list(df.columns), list(df_champ.columns) ) if colonnes_renommees: df_champ.columns = colonnes_renommees df = df.join(df_champ) # Ajoute la moy générale df_moy_gen = self.moyenne_gen.to_df(with_min_max_moy=with_min_max_moy) colonnes_renommees = ajout_numero_a_colonnes( list(df.columns), list(df_moy_gen.columns) ) if colonnes_renommees: df_moy_gen.columns = colonnes_renommees df = df.join(df_moy_gen) return df def ajout_numero_a_colonnes(colonnes, colonnes_a_ajouter): """Partant d'une liste de noms de colonnes, vérifie si les noms des colonnes_a_ajouter n'entre pas en conflit (aka ne sont pas déjà présent dans colonnes). Si nom, renvoie `None`. Si oui, propose une liste de noms de colonnes_a_ajouter dans laquelle chaque nom est suivi d'un `"(X)"` (où X est un numéro choisi au regard des noms de colonnes). Les noms des colonnes sont de la forme "S1|maths|UE|Groupe|note (1)" Devrait être supprimé à terme, car les noms des colonnes sont théoriquement prévus pour être unique/sans doublons. """ assert len(colonnes) == len(set(colonnes)), "Il y a déjà des doublons dans colonnes" colonnes_sans_numero = [col.split(" (")[0] for col in colonnes] conflits = set(colonnes_sans_numero).intersection(colonnes_a_ajouter) if not conflits: # Pas de conflit return None pattern = r"\((\d*)\)" p = re.compile(pattern) numeros = [] for col in colonnes: numeros.extend(p.findall(col)) if numeros: numeros = [int(num) for num in numeros] num_max = max(numeros) else: num_max = 0 ajouts = [f"{col} ({num_max+1})" for col in colonnes_a_ajouter] return ajouts