statistiques Pandas dataframe par id ligne

voix
0

Je travaille sur une recherche et je créé une trame de données avec id colonnes, db_keywords, new_words, count_new_words. Dans la colonne new_words J'ai des mots qui ne sont pas dans les db_keywords de colonne et dans les count_new_words compter de nouveaux mots. J'utilisé describe()avec count_new_words de colonne afin de disposer de statistiques de base. Je voudrais utiliser une méthode afin de disposer de statistiques par ligne (id). J'ai besoin de valeur ou certains paramètres , par exemple le nombre de nouveaux mots par id ne sont pas présents dans notre base de données dans ce cas db_keywords. Cela peut être une méthode parce que je ne sais pas comment aborder ce problème. J'ai créé un dataframe test similaire juste pour visualiser mon problème.

Exemple:

data = [[1, 'detergent', 'detergent, cleaning, stains', ' cleaning, stains',2], [2, 'battery, low', 'fast, full, speed', 'fast, full, speed',3], [3, 'sunglasses, black', 'sunglasses, metal, black, optics', ' metal, optics', 2], [4, 'chemicals', 'chemicals, flammable, hexahydrate', 'flammable, hexahydrate', 2]] 

df = pd.DataFrame(data, columns = ['id', 'db_keywords','ml_keywords','new_words','count_new_words']) 

df 

Je Wold aime savoir par exemple quel est le vale ajouté pour id 1 avec un seul mot dans la colonne de db_keywords et nous avons trouvé deux nouveaux mots présentés dans la colonne de new_words. Comment dois-je calculer et présenter cela?

Créé 13/02/2020 à 23:54
source utilisateur
Dans d'autres langues...                            

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more