Test statistique pour les séries temporelles où le résultat se produit - python

voix
0

Je demande une assistance concernant les tests de régression. Je dispose d'une série chronologique continue qui fluctue entre des entiers positifs et négatifs. J'ai également des événements qui se produisent tout au long de cette série temporelle à des moments apparemment aléatoires. Essentiellement, lorsqu'un événement se produit, je saisis l'entier correspondant. Je veux ensuite tester si ce nombre entier influence l'événement. Comme dans, y a-t-il plus d'entiers positifs/négatifs

Je pensais au départ à une régression logistique avec le nombre positif/négatif mais cela nécessiterait au moins deux groupes distincts. En revanche, je n'ai que des informations sur les événements qui se sont produits. Je ne peux pas vraiment inclure autant d'événements qui ne se produisent pas car c'est quelque peu continu et aléatoire. Le nombre de fois qu'un événement ne se produit pas est impossible à mesurer

Mon groupe distinct est donc vrai dans un sens, car je n'ai pas de résultats sur quelque chose qui ne s'est pas produit. Ce que j'essaie de classer, c'est

Lorsqu'un résultat se produit, est-ce que l'entier positif ou négatif influence ce résultat.

Créé 11/05/2020 à 04:28
source utilisateur
Dans d'autres langues...                            


3 réponses

voix
0

Cependant, la question est assez difficile à comprendre après le premier paragraphe. Laissez-moi vous aider en vous disant ce que j'ai pu comprendre de cette question.

En supposant que vous vouliez comprendre s'il existe une relation entre les événements qui se produisent et les nombres entiers dans les données.

1ère approche : Tracez les données sur une échelle 2d et vérifiez visuellement s'il existe une relation entre les données. 2ème approche : rendre les données des événements continues et supprimer les événements des autres données et utiliser une fenêtre déroulante pour lisser les données et ensuite comparer les deux tendances.

L'approche décrite ci-dessus ne fonctionne bien que si je comprends bien votre problème Il y a aussi une autre chose connue sous le nom de "Survivorship bias". Il se peut que des données vous manquent, veuillez également vérifier cette partie.

Créé 18/05/2020 à 13:52
source utilisateur

voix
0

Il semble que vous soyez intéressé par la détermination des forces sous-jacentes qui produisent un flux de données donné. Ces modèles mathématiques sont appelés modèles de Markov. Un exemple classique est l'étude de textes

Par exemple, si j'exécute un algorithme de modèle de Markov caché sur un paragraphe de texte anglais, je découvrirai qu'il y a deux catégories de moteurs qui déterminent les probabilités de voir apparaître les lettres dans le paragraphe. Ces catégories peuvent être grossièrement divisées en deux groupes, "aeiouy" et "bcdfghjklmnpqrstvwxz". Ni les mathématiques ni le HMM ne "savaient" comment appeler ces catégories, mais elles sont ce qui converge statistiquement lors de l'analyse d'un paragraphe de texte. Nous pourrions appeler ces catégories "voyelles" et "consonnes". Donc, oui, les voyelles et les consonnes ne sont pas seulement des catégories de 1ère année à apprendre, elles découlent de la façon dont le texte est écrit statistiquement. Il est intéressant de noter qu'un "espace" se comporte plus comme une voyelle que comme une consonne. Je n'ai pas donné les probabilités pour l'exemple ci-dessus, mais il est intéressant de noter que "y" se termine avec une probabilité d'environ 0,6 voyelle et 0,4 consonne ; ce qui signifie que "y" est la voyelle de comportement la plus consonante statistiquement

Un excellent document est https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf qui reprend les idées de base de ce type d'analyse des séries chronologiques et fournit même un code sudo pour référence

Je ne sais pas grand-chose sur les données que vous traitez et je ne sais pas si les concepts de "positif" et de "négatif" jouent un rôle déterminant dans les données que vous voyez, mais si vous faites un HMM sur vos données et que vous trouvez que les deux groupes sont la collecte de nombres positifs et la collecte de nombres négatifs, alors votre réponse sera confirmée, oui, les deux catégories les plus influentes qui motivent vos données sont les concepts de positif et de négatif. S'ils ne se répartissent pas de manière égale, alors votre réponse est que ces concepts ne sont pas un facteur influent dans la conduite des données. Plus encore, l'algorithme se terminerait par plusieurs matrices de probabilité qui vous indiqueraient dans quelle mesure chaque entier de vos données est influencé par chaque catégorie, ce qui vous donnerait une bien meilleure idée du comportement de vos données de séries chronologiques

Créé 19/05/2020 à 07:59
source utilisateur

voix
0

Peut-être que je ne comprends pas votre problème, mais je ne crois pas que vous puissiez effectuer une régression significative sans plus d'informations.

La régression est généralement utilisée pour trouver une relation entre deux ou plusieurs variables, mais il semble que vous n'ayez qu'une seule variable (si elles sont positives ou négatives) et une constante (le résultat est toujours vrai dans les données). Vous pourriez peut-être faire des statistiques sur la distribution des chiffres (moyenne, médiane, écart-type) mais je ne sais pas comment vous pourriez faire une régression. https://en.wikipedia.org/wiki/Regression_analysis

Vous devez tenir compte du fait qu'il peut y avoir un fort biais de survie si vous manquez une grande partie de vos données. https://en.wikipedia.org/wiki/Survivorship_bias

J'espère que cela vous aidera à vous orienter dans la bonne direction

Créé 11/05/2020 à 04:53
source utilisateur

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more