Create
Learn
Share

Statistiques I

rename
mndyass's version from 2017-04-10 10:23

Introduction et concepts principaux

 

Question Answer
Statistique-Ensemble de techniques permettant de collecter, organiser, analyser et présenter des données.
-Science qui permet de tirer des conclusions sur une population au départ d’observations faites sur un échantillon représentatif de cette population
Statistique démarchecollecte de données
analyse, traitement des données
interprétation/présentation des résultats
Données =ensemble des observations collectées par rapport à une ou plusieurs variables
Population =ensemble des sujets/individus/objets auxquels se rapportent les variables
EchantillonGroupe restreint d’unités statistiques tirées d’une population pa- rente pr ́ealablement d ́efinie.
Le nombre d’unités détermine la taille de l’échantillon.
Echantillon de populationOn effectue les mesures sur un sous-groupe d’observations de la population
Echantillon aléatoireéchantillon sélectionné au hasard dans la population de façon à ce que chaque membre de la population a la même chance d’être sélectionné
Echantillon aléatoire simpleCelui-ci est dit simple si chaque échantillon de même taille a la même probabilité d’être choisi.
Echantillon non biaisééchantillon dont on ne met pas en doute le caractère aléatoire
Plan d’expérienceDécrit la façon dont va être menée l’expérience ou l’étude statistique
RandomisationContre éthique, ex. demander à qlq un de commencer a fumer
VariableMesure pouvant prendre différentes valeurs d’une unité expérimentale à l’autre
Ou d’un groupe d’unités expérimentales à un autre
Un Libellénom décrivant une variable
Modalitésdifférents niveaux/valeurs qu’une variable peut prendre
Données brutesensemble des valeurs mesurées pour les variables pour toutes les unités expérimentales de l’échantillon
Inférence statistiqueBut est d’utiliser l’information contenue dans l’échantillon pour tirer des conclusions sur la population.
Tests d’hypothèseprocédure statistique permettant de vérifier, à partir des données de l’échantillon, si des hypothèses émises a priori sont plausibles au niveau de la population
Etapes principales d’une étude statistique-Planification et mise sur pied
-Collection et organisation des données
-Présentation et résumé de ces données
-Analyse de ces données
-Présentation et interprétation des résultats de l’analyse
But de l'études statistiqueTirer des conclusions sur le phénomène étudié sur base de ces données et de les extrapoler à la population étudiée.
Protocole d’expérienceDocument rédigé et approuvé avant le début de l’étude et décrivant en détails pourquoi l’étude va être conduite, comment elle va être conduite et par qui, et comment elle va être analysée.
memorize

Variables

 

Question Answer
Variable quantitativeVariable dont les modalités sont numériquesVariable qualitative/catégorielle: variable dont les modalités indiquent à quelle catégorie appartient l’unité expérimentale
Variable quantitative continueToutes les valeurs d’un intervalle fini ou in- fini est appel ́ee variable continue (poids, dose vaccin...)
-Les variables continues peuvent prendre une infinité de valeurs entre deux points
Variable de survievariable prenant des valeurs continues positives, représentant souvent le temps entre une origine et un événement précis
Variable ordonnée/ordinaleUne variable continue regroupée dans un nombre limité de classes
Variable quantitative discontinueNe prend qu’un nombre limité de valeur, sans valeurs intermédiaires possibles
Variable discrèteSi variable discontinue prend seulement des valeurs entières
Variable de comptagevariable prenant des valeurs entières positives
Variable qualitativeest une variable qui ne peut être mesurée
Variable qualitative nominale-Un caractère à deux modalités est appelée une variable binaire ou binomiale
-Représentés par plus de deux modalités = variable multinomiale.
Variable qualitative ordinale variable ne pouvant être mesurée mais ayant néanmoins un ordre dans leur magnitude
memorize

Statistique descriptive univariée

 

Question Answer
But de la statistique descriptive?Résumer les données
Statistique descriptive univariéeTravaille avec une seule variable à la fois
Distribution empirique quoiOrganisation des donnée de manière a savoir quelles sont les valeurs observées et combien de fois on observe chaque observation dans notre échantillon.
Distribution empirique définir-Fréquences (en nombre de fois) ou fréquences relatives (en proportion ou pourcentage) avec lesquelles on observe les différentes valeurs possibles dans notre échantillon
La fréquence =nombre de fois que la valeur a été observée dans notre échantillon
La fréquence relative =fréquence divisée par le nombre total d’observations
Mesures de tendance centrale =Mesures de localisation
Indiquent le "centre" de la distribution
Moyenne arithmétique-Utilisable seulement si la variable considérée est quantitative
-Si on note les valeurs observée pour une variable par x1, x2, ..., xn où n est le nombre d’observations, la moyenne arithmétique est alors définie comme étant la somme des observations pour cette variable divisée par le nombre d’observations
Pouvons-nous utilisé la moyenne arithmétique pour toutLa moyenne arithmétique s’applique uniquement aux variables quantitatives
Médiane-La médiane est le quantile 50%, c’est-à-dire la plus petite valeur supérieure ou égale à au moins 50% des données
- Pour un nombre impair d’observations, la médiane correspond à la valeur du milieu lorsque les observations sont classées par ordre croissant
Modevaleur la plus souvent observée dans les données, et correspond donc à la valeur associée à la plus grande fréquence
A quoi s'applique le mode?-aux données qualitatives
-aux données quantitatives discrète
variables quantitatives continues
Mesures de dispersion-Nous indiques si les valeurs observées sont fort rassemblées ou pas autour de la tendance centrale.
-Fournissent l’information sur l’hétérogénéité des variables.
Etendueest la différence entre la valeur maximale observée et la valeur minimale observée
=> Etendue = (Valeur maximale) – (Valeur minimale)
Uniquement définie pour les variables quantitatives
Ecart inter-quartile -quartile Q1 est le quantile 25% càd la plus petite valeur supérieure ou égale à au moins 25% des données.
Ecart inter-quartile -quartile Q2est le quantile 50% càd la plus petite valeur supérieure ou égale à au moins 50% des données.
=>Il s’agit donc de la médiane.
Ecart inter-quartile -quartile Q3est le quantile 75% càd la plus petite valeur supérieure ou égale à au moins 75% des données.
Ecart inter-quartile =Q3-Q1, c’est-à-dire l’étendue des 50% de données centrales
Percentiles PkPk la plus petite valeur supérieure ou égale à au moins k% des données.
Boite à moustache/diagramme en boiteest une représentation graphique de la médiane, la moyenne, les quartiles et les valeurs minimales et maximales
VarianceLa variance S² est, par définition, la somme des carrés des écarts par rapport à la moyenne
Ecart-typeest la racine carrée de la variance S²
Pourcentage à 1 écart-type =68%
Pourcentage à 2 écart-type =95%
Pourcentage à 3 écart-type =99.7%
memorize

Vue d’ensemble

 

Question Answer
Un échantillon aléatoire simple échantillon sélectionné au hasard dans la population de façon à ce que chaque membre de la population a la même chance d’être sélectionné
échantillon aléatoire simple est obtenu si…chaque échantillon possible de taille n a la même chance d’être choisi.
Pourquoi utiliser des échantillons ?-Estimer la valeur d’un paramètre d’une population.
-Tester une hypothèse sur la population.
Unité expérimentaleChacun des éléments de l’échantillon sur lesquels les mesures sont réalisées
Densité de probabilitéest une fonction qui permet de représenter une loi de probabilité
Loi de distribution de probabilitédéfinie par une fonction de densité de probabilité
La distribution normale =Gaussienne
Est une distribution continue qui dépend de 2 paramètres μ et σ.
Mesures de dispersion (S et σ )-Mesurent l’étendue de la dispersion des valeurs de la variables
=>càd la différence entre les valeurs minimales et maximales
Loi normale dépend de deux paramètresμ et σ2, respectivement la moyenne et la variance de la population.
Loi normale centrée réduitede sorte que la moyenne (l'espérance) et l'écart-type de Z valent respectivement 0 et 1
Table Z -La Règle 68-95-99.7Valeur = 1.96
z ou t?•Utiliser z si σ est connu & la population est normalement distribuée
-Ou si σ est connu et n > 30
-pour une proportion
•Utiliser t si σ est inconnu (utiliser S) & la population est normalement distribuée
-Ou si σ est inconnu (utiliser S) et n > 30
memorize

IP/IC

 

Question Answer
Un intervalle de confiance(IC), est un intervalle de valeurs utilisé pour estimer la vraie valeur d’un paramètre d’une population
Le niveau de confianceest la probabilité 1-α qui est la proportion du nombre de fois où l’intervalle de confiance contient le paramètre de la population si on répète l’estimation un grand nombre de fois
Autour de quoi se calcule ICautour de la valeur observée
Autour de quoi se calcule IPautour de la valeur théorique (p.ex. μ).
memorize

Graphiques

 

Question Answer
Diagramme de Pareto
Diagramme en camembert-représente la fréquence relative de chaque niveau de la variable comme un ”morceau de tarte” dont l’angle est proportionnel à la fréquence relative
-cas d’une variable discrète ou continue, on ne peut pas utiliser ces graphiques
Boîte à moustache/ Box-plot-est une représentation graphique de la médiane, la moyenne, les quartiles et les valeurs minimales et maximales (ou les percentiles P5 et P95 en fonction des logiciels).
-lorsqu’il s’agit d’étudier la distribution d’une variable quantitative.
Histogrammediagramme en barre dont la largeur des barres représentent l’intervalle de valeurs et la hauteur représente la fréquence (ou fréquence relative) de cet intervalle de valeurs, les barres sont adjacentes
Diagramme en barresune barre par niveau de la variable considéré, chaque barre représente la fréquence (ou la fréquence relative) du niveau correspondant
memorize