Aller au-dela de value_counts () : creer des tableaux de frequences visuellement attrayants avec juste 3 lignes de code (a l’aide de precisions OkCupid)
- Posted by alvifaiq
- On March 4, 2022
- 0
Quelques astuces simples mais indispensables que vous ne connaissiez probablement pas
Bien que le possible le plus simple de coder une table de frequences pour 1 objet Series dans la bibliotheque Python pandas consiste a appliquer la value_counts() methode, le resultat de une telle operation parait plutot basique. Nous pouvons le rendre plus informatif en ajustant nos parametres booleens une methode normalize , sort , ascending , et dropna , ou en regroupant nos valeurs (si elles seront numeriques) dans des bacs. Cependant, les laternatives ici sont assez limitees, donc pour ameliorer visuellement la table de frequences resultante, nous pouvons envisager deux astuces simples mais utiles, telles que le chainage de methodes, la personnalisation du texte, l’ajout du % symbole a chaque valeur de frequence et l’utilisation de la puissance de jolie- impression.
Dans ce post, nous allons experimenter un ensemble de donnees Kaggle contenant des informations sur l’age, le sexe, l’emplacement, l’education, etc., pour 60 000 utilisateurs de l’ application de rencontres OkCupid ??. Pour des besoins, cependant, nous n’utiliserons que des donnees sur les statuts https://besthookupwebsites.org/fr/maiotaku-review/ des utilisateurs.
1. Enchainement des methodes
Pour commencer, creons un tableau de frequence d’origine pour nos statuts des utilisateurs :
( Note : ci-apres, nous allons laisser tous les autres parametres d’une value_counts() methode avec defaut, cela signifie que nous ne considererons que les tableaux de frequences tries par ordre decroissant et en excluant les valeurs manquantes. Pour des besoins, utiliser ou non ces parametres ne quel que soit.)
Sans connaitre le contexte, a partir du tableau ci-dessus, il est en mesure de ne point etre clair que les nombres representent des pourcentages et non des frequences absolues. Ajoutons un titre au tableau avec le formatage f-string :
Dans l’exemple ci-dessus, nous avons ajoute le % symbole au titre du tableau. Et si nous voulions plutot l’ajouter a chaque valeur de frequence ? Une solution de contournement consiste a coder une liste de valeurs de frequence avec le % symbole ajoute a chacune d’entre elles, et a creer une serie a partir de cette liste. Afin d’effectuer la liste, nous pouvons utiliser la boucle for suivante :
Enfin, nous pouvons joliment imprimer le tableau des frequences. Pour cela, nous allons utiliser la to_markdown() technique pandas qui necessite l’installation (souvent pas l’import) du module tabulate ( pip install tabulate ).
Important : pour afficher correctement les resultats, la to_markdown() methode doit etre utilisee uniquement a l’interieur en print() prends.
Jouons au milieu des parametres tablefmt et stralign . Le premier d’entre eux definit le format du tableau et pourra avoir l’une des valeurs suivantes : plain , simple , github , grid , fancy_grid , pipe , orgtbl , jira , presto , pretty , psql , rst , etc. notamment, le format de tableau que nous avons surpris plus bas s’appelle pipe , celui via defaut concernant nos to_markdown() pandas methode. Curieux que concernant le package tabulate lui-meme, le format de tableau par defaut est simple . Quant au deuxieme parametre, stralign , il sert a remplacer l’alignement des informations de chaine via defaut (qui reste left ). Les laternatives possibles ici sont right et center .
Attention : le floatfmt parametre ne fonctionne gui?re en combinaison avec le format du tableau pretty .
Plats a emporter confortables
Correctement que chacune de la procedure pas a nullement ci-dessus ait necessite de nombreuses iterations et descriptions, nous trouverons ci-dessous nos solutions de code finales Afin de 4 versions differentes de notre tableau des frequences pour profiles[‘status’] , l’article en % :
- 2 tableaux simples avec/sans le % symbole,
- 2 jolis tableaux imprimes avec/sans le % symbole et avec/sans en-tete de tableau.
Dans ce post, nous avons discute de quelques approches simples mais puissantes Afin de ameliorer la disposition du tableau des frequences et la lisibilite globale. Ils ont l’ensemble de sa value_counts() methode des pandas comme accessoire central, mais tous vont au-dela et aboutissent a des representations plus percutantes. Sans compter que, chacune des solutions presentees, dans sa forme definitive, necessite au maximum 3 lignes de code.
J’espere que vous avez apprecie la lecture de mon article et que vous l’avez trouve utile. Merci d’avoir lu a tout un chacun, ainsi, bonne chance a ceux qui utilisent l’application de rencontres OkCupid ????
Vous pouvez tomber sur passionnant aussi ces articles :
0 comments on Aller au-dela de value_counts () : creer des tableaux de frequences visuellement attrayants avec juste 3 lignes de code (a l’aide de precisions OkCupid)