Il semble que vous soyez intéressé par la détermination des forces sous-jacentes qui produisent un flux de données donné. Ces modèles mathématiques sont appelés modèles de Markov. Un exemple classique est l'étude de textes
Par exemple, si j'exécute un algorithme de modèle de Markov caché sur un paragraphe de texte anglais, je découvrirai qu'il y a deux catégories de moteurs qui déterminent les probabilités de voir apparaître les lettres dans le paragraphe. Ces catégories peuvent être grossièrement divisées en deux groupes, "aeiouy" et "bcdfghjklmnpqrstvwxz". Ni les mathématiques ni le HMM ne "savaient" comment appeler ces catégories, mais elles sont ce qui converge statistiquement lors de l'analyse d'un paragraphe de texte. Nous pourrions appeler ces catégories "voyelles" et "consonnes". Donc, oui, les voyelles et les consonnes ne sont pas seulement des catégories de 1ère année à apprendre, elles découlent de la façon dont le texte est écrit statistiquement. Il est intéressant de noter qu'un "espace" se comporte plus comme une voyelle que comme une consonne. Je n'ai pas donné les probabilités pour l'exemple ci-dessus, mais il est intéressant de noter que "y" se termine avec une probabilité d'environ 0,6 voyelle et 0,4 consonne ; ce qui signifie que "y" est la voyelle de comportement la plus consonante statistiquement
Un excellent document est https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf qui reprend les idées de base de ce type d'analyse des séries chronologiques et fournit même un code sudo pour référence
Je ne sais pas grand-chose sur les données que vous traitez et je ne sais pas si les concepts de "positif" et de "négatif" jouent un rôle déterminant dans les données que vous voyez, mais si vous faites un HMM sur vos données et que vous trouvez que les deux groupes sont la collecte de nombres positifs et la collecte de nombres négatifs, alors votre réponse sera confirmée, oui, les deux catégories les plus influentes qui motivent vos données sont les concepts de positif et de négatif. S'ils ne se répartissent pas de manière égale, alors votre réponse est que ces concepts ne sont pas un facteur influent dans la conduite des données. Plus encore, l'algorithme se terminerait par plusieurs matrices de probabilité qui vous indiqueraient dans quelle mesure chaque entier de vos données est influencé par chaque catégorie, ce qui vous donnerait une bien meilleure idée du comportement de vos données de séries chronologiques