tables de traitement en parallèle à l'aide Azure données Factory, pipeline unique, simple ordinateur portable Databricks?

voix
0

Je veux transformer une liste de tables en parallèle à l'aide Azure données et fabrique un seul ordinateur portable Databricks.

J'ai déjà un pipeline Data Factory Azure (ADF) qui reçoit une liste des tables en tant que paramètre, définit chaque table dans la liste de la table comme une variable, puis appelle un ordinateur portable unique (qui effectue des transformations simples) et passe chaque table en série ce bloc-notes. Le problème est qu'il transforme les tables en série (l'un après l'autre) et non en parallèle (toutes les tables en même temps). J'ai besoin des tables à traiter en parallèle.

Donc, mes questions sont les suivantes: 1) Est-il possible de déclencher les mêmes Databricks portable plusieurs fois au même point précis dans le temps (chaque fois avec une autre table comme paramètre) d'Azure données Factory? 2) Si oui, qu'est-ce que je dois changer dans mon pipeline ou un ordinateur portable pour le faire fonctionner?

Je pense qu'il est probablement pas possible de déclencher le même ordinateur plusieurs fois en même temps que parce que, quand je déclenche ce portable directement à partir Databricks (et passer une table variable), je dois attendre qu'elle se termine en cours d'exécution avant de le déclencher à nouveau pour une autre Table (paramètre). Mais je veux être sûr que s'il est possible ou non. Je sais aussi qu'il est possible de traiter plusieurs tables en parallèle à l'aide de plusieurs ordinateurs portables, mais, dans mon cas, je dois utiliser un seul ordinateur portable. Merci d'avance :)

Paramètres

Paramètres

Variables

les

Table Panset variables et Notebook

entrez

Configurer séquentielle

Configurer

Séquentielle avec Décoché lot Count = blanc

Lorsqu'il est configuré comme « séquentiel » et lot Count = vide, et passer deux tables, le pipeline fonctionne « avec succès », mais une seule table est transformée (même si j'ajouter plusieurs tables dans la liste des tables). « Définir la variable » correctement montre deux fois, une fois pour chaque table. Mais Orchestrate montre deux fois pour la même table.

entrez

Séquentiel non contrôlé par lots Count = 2

Lorsqu'il est configuré comme « séquentiel » et lot Count = 2, et passer deux tables, le pipeline échoue sur la deuxième itération, mais il essaie aussi de transformer deux fois la même table. « Définir la variable » correctement montre deux fois, une fois pour chaque table. Mais Orchestrate montre deux fois pour la même table.

Séquentiel

Analyse séquentielle ou par lots Count = 1

Si je laisse séquentiel Cochée ou lot Count = 1, le pipeline fonctionne correctement et effectue des transformations sur toutes les tables, mais le traitement se produit en série (comme prévu).

entrez

Créé 13/01/2020 à 23:55
source utilisateur
Dans d'autres langues...                            


1 réponses

voix
0

Je l'ai résolu en utilisant « Recherche » à une des tables SQL au lieu de « Set Variable ». L'image ci-dessous montre une série de 5 tables en parallèle à l'aide d'un seul bloc-notes.

entrez la description d'image ici

Créé 14/01/2020 à 22:40
source utilisateur

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more