Modèle statistique régression linéaire

Les premières preuves de la consommation de tabac à la mortalité et à la morbidité proviennent d`études observationnelles utilisant une analyse de régression. Afin de réduire les corrélations fausses lors de l`analyse des données observationnelles, les chercheurs comprennent généralement plusieurs variables dans leurs modèles de régression en plus de la variable d`intérêt principal. Par exemple, dans un modèle de régression dans lequel le tabagisme est la variable indépendante de l`intérêt principal et la variable dépendante est la durée de vie mesurée en années, les chercheurs pourraient inclure l`éducation et le revenu en tant que variables indépendantes supplémentaires, pour assurer que tout effet observé du tabagisme sur la durée de vie n`est pas dû à ces autres facteurs socio-économiques. Cependant, il n`est jamais possible d`inclure toutes les variables confusionnelles possibles dans une analyse empirique. Par exemple, un gène hypothétique pourrait augmenter la mortalité et aussi causer des gens à fumer plus. Pour cette raison, les essais contrôlés randomisés sont souvent en mesure de générer des preuves plus convaincantes des relations causales que peut être obtenue en utilisant des analyses de régression des données observationnelles. Lorsque les expériences contrôlées ne sont pas réalisables, des variantes d`analyse de régression telles que la régression des variables instrumentales peuvent être utilisées pour tenter d`estimer les relations causales à partir des données observationnelles. La régression linéaire est utilisée pour prédire la valeur d`une variable de résultat Y basée sur une ou plusieurs variables de prédicteur d`entrée X. L`objectif est d`établir une relation linéaire (une formule mathématique) entre la ou les variables prédictifs et la variable de réponse, de sorte que, nous pouvons utiliser cette formule pour estimer la valeur de la réponse Y, lorsque seules les valeurs de prédicteurs (XS) sont connues. La partie systématique du modèle, f (x1, x2,…

XP), représente la valeur de Y que l`on s`attendrait à voir pour des valeurs particulières de x1, x2,… XP, s`il n`y avait pas d`erreur imprévisible: pour cette raison, il est appelé la valeur prévue. Il est généralement écrit comme (chapeau Y), et il peut être considéré comme la valeur moyenne de Y étant donné les prédicteurs: si nous pouvions prendre un grand groupe de personnes avec des valeurs identiques de tous les prédicteurs, la moyenne de Y dans le groupe pourrait être calculée en substituant les valeurs de la p redictors en f (x1, x2,… XP). C`est ce qu`on appelle l`erreur quadratique moyenne (MSE) de la régression. Le dénominateur est la taille de l`échantillon réduite par le nombre de paramètres de modèle estimés à partir des mêmes données, (n − p) {displaystyle (n-p)} pour les régressors p {displaystyle p} ou (n − p − 1) {displaystyle (n-p-1)} si une interception est utilisée. [21] dans ce cas, p = 1 {displaystyle p = 1} de sorte que le dénominateur est n − 2 {displaystyle n-2}. Sunil, grand sentiment d`obtenir un aperçu moderne de ce que j`ai appris il ya 35 ans. Excellente.

La pratique professionnelle d`aujourd`hui peut avoir plusieurs questions à clarifier. Nous n`avons pas eu la possibilité de choisir Data Analytics comme une profession populaire dans les années 80. Il a été principalement R&D à utiliser des techniques de régression. Compliment à vous pour un tel sujet vaste si lucidement libellé et expliqué.. Ce qui m`a le plus fasciné, est-ce que vous mentionnez un tuteur enseignant les étudiants dans un Institut-si le résultat est l`utilisation continue linéaire et si elle est binaire, l`utilisation de la logistique. C`est simpliste pour un lecteur d`apprécier l`importance de la régression. Ce que je veux demander, c`est comme sous: Supposons que le modèle prédit de manière satisfaisante sur le fractionnement de 20% (données de test), est-ce suffisant pour croire que votre modèle va fonctionner tout aussi bien tout le temps? Il est important de tester rigoureusement la performance du modèle autant que possible.