Bonjour,
J'ai une étude statistique à faire sur un sujet au choix. Pour cela il faut trouver un sujet à traiter à partir de tableaux de données.
A tout hasard, où est ce que je pourrais sur le net des tableaux de données?
Voici mon sujet:
1. Faire un choix d'étude (libre)
2. Identification de la série statistique (1 variable, 2 ou plusieurs variables, chronologique
3. Planification du traitement
4. Élaboration d'une stratégie: que veut on mettre en évidence?
5. Mise en oeuvre de la stratégie : calculs de paramètres, graphiques...
6. Présentation power point : 10min
Est-ce que vous pourriez me donner des tuyaux sur une méthodologie à prendre pour réaliser l'ensemble de cette étude?
Des exemples, des idées, des techniques.
Je vous remercie.
Cordialement.
Placoball
Par exemple sur le site "Statistiques mondiales" :
Tu y trouves plein de statistiques démographiques, économiques, sociales...
Tu peux copier coller des tableaux sous tableur, regrouper plusieurs variables explicatives intéressantes (PIB par habitant, indice de Gini, indice de démocratie, variables climatiques, ...) et tenter d'expliquer par exemple l'espérance de vie en fonction de ces variables...
Merci pour ta réponse et désolé de te répondre si tardivement, j'ai vraiment cherché dans tous les sens ces fameuses données!
J'ai trouvé des données autour du tabac.
Pour répondre à l'analyse statistique demandée, j'aimerais montrer l'évolution du nombre de cigarettes vendues en fonction de l'augmentation du prix des cigarettes. Je veux voir si l'augmentation du prix agit sur les ventes.
J'ai récupéré également des chiffres sur les saisies de tabac de contrebande. Peut être que je pourrais éventuellement montrer (avec des réserves) que le nombre de cigarettes vendues légalement diminu tandis que le nombre de cigarettes de contrebande vendu augmente.
Est ce que pour cette étude il faut calculer l'écart type?
Si vous pouvez me donner des tuyaux pour réaliser cette étude je suis preneur à 200%, car je suis perdu et je ne sais pas trop où aller...
Merci pour votre aide
Cordialement
Voici un imprime écran de mon avancement.
Si vous pouvez me dire qu'est ce que je pourrais ajouter? Savoir s'il faut que je creuse plus?
Si j'ai bien compris j'ai réalisé une étude statistique avec des séries chronologiques.
Est-ce que je peux calculer pour une série chronologique:
- Moyenne?
- Ecart type à partir des centres des classes?
- Médianes?
- Quartiles?
- Fréquences cumulées?
J'avoue être bien perdu...
Cordialement,
Pour étudier la relation entre volume et prix, tu peux calculer la corrélation linéaire entre PRIX et VOLUME de ventes.
Tu trouveras un coefficient de corrélation négative, avec en prime un test de Student qui confirmeras que cette corrélation est significative : autrement dit, il y a bien une incidence apparente du prix sur les ventes.
Dans un second temps, tu peux estimer un modèle du type :
VENTE = a * PRIX + b
Le coefficient 'a' te donnera la variation des VENTES qu'entraîne l'augmentation d'une unité de PRIX (typiquement, tant de milliers de cigarettes vendues en moins par EURO de coût supplémentaire).
Tu peux aussi ramener 'a' en valeur relative (% de baisse des ventes entraîné par une hausse de 1 EURO...).
Pour la contrebande, tu peux montrer la corrélation négative avec les ventes.
Tu peux aussi ensuite ajouter VENTES + CONTREBANDE et voir si ces VENTES CUMULEES augmentent ou baissent avec le PRIX.
Si les ventes cumulées baissent significativement malgré la prise en compte de la contrebande (corrélation prouvée statistiquement), alors la hausse des prix pour préserver la santé est justifiée.
Sinon, alors cette hausse ne sert qu'à créer de la contrebande, une fuite de taxes, et aucun effet positif sur la santé...
Tiens nous au courant ...
Bonsoir LeDino,
Merci beaucoup pour tes explications c'est vraiment sympa!
Tout ce que tu viens de me dire, il faut que je le fasse, c'est très intéressant.
Par contre, je vais avoir besoin d'un petit coup de main si ça ne te gène pas.
Je commence par ma première question:
Comment tu étudies une relation entre le volume et le prix de vente? Il faut que je monte un graphique avec sur l'axe des abscisses le prix et sur l'axe des ordonnées le volume? Si c'est cela, je n'ai plus de liaison avec le temps (mois, années)?
Deuxième question:
Comment calcules-tu le coefficient de corrélation avec la relation prix volume? Et qu'entends-tu par test de Student?
J'avais calculé un coefficient en mettant en évidence le volume en fonction du temps (Photo ci-jointe)
c'est quelque chose comme cela ce que tu viens de me dire (Volume/prix)?
Cordialement
Si tu ne m'en veux pas, je vais te poser toutes mes questions car je dois avancer le plus rapidement possible.
Mon exposé est vendredi matin, donc les nuits vont être courtes...
Donc ma première et deuxième questions se trouvent dans le message juste avant.
Je vais donc enchaîner:
- Si je construis le graphe tel que tu viens de me dire et tel que je le comprends ça donne ça (voir image)
Donc en effet je tombe sur l'équation que tu me donnes:
VENTE = a * PRIX + b
Si je monte le prix, les ventes vont décroître car "a" est négatif.
Par contre le coefficient de corrélation (R²) lui est positif, je suis inquiet car tu m'as dit qu'il devait être négatif...
- Tu peux aussi ramener 'a' en valeur relative (% de baisse des ventes entraîné par une hausse de 1 EURO...). Comment fais-tu pour faire cette manip?
- Pour la contrebande, je réalise le même graphe sauf qu'à la place du prix (axe des abscisses) je mets les volumes de contrebande? C'est ça?
- Tu peux aussi ensuite ajouter VENTES + CONTREBANDE et voir si ces VENTES CUMULEES augmentent ou baissent avec le PRIX.
Je trouve ça intéressant, mais comment faire?
- Si les ventes cumulées baissent significativement malgré la prise en compte de la contrebande (corrélation prouvée statistiquement), alors la hausse des prix pour préserver la santé est justifiée.
Sinon, alors cette hausse ne sert qu'à créer de la contrebande, une fuite de taxes, et aucun effet positif sur la santé... Là aussi ça a l'air super! Tu parles de ventes cumulées, c'est ventes légales + contrebande? Disons que quand je parle de contrebande, c'est les saisies que font les douanes. Elles sont en nettes augmentations. Ce que les douanes interceptent représente à mon avis la partie émergée de l'iceberg, difficile de quantifier le volume illégal exact qui circule. Donc c'est pas évident de construire un graphique car tout dépend de l'interprétation que l'on y donne, non? Tu en penses quoi?
N'hésite pas à me donner d'autres tuyaux, je suis plus que preneur!
Cordialement,
Exemple de résultats, et analyse associée :
VOLUME = a.PRIX + b : a = -200,000 Unités vendues par EURO de hausse.
VOLUME moyen = 4,000,000 alors : a = -5% d'unités vendues par EURO de hausse.
SAISIES = a'.PRIX + b' : a' = +8000 Unités saisies par EURO de hausse.
SAISIES moyennes = 200,000 alors : a' = +4% d'unités saisies par EURO de hausse.
1 EURO entraîne 5% de baisse des ventes officielles.
1 EURO entraîne 4% de hausse des saisies de douane (donc probablement 4% de la contrebande totale).
Donc on peut supposer que la baisse des ventes est en partie compensée (ici à 80%) par de la contrebande et que seule une part de cette baisse apparente entraîne réellement une baisse de la consommation.
Bonjour LeDino,
Merci beaucoup pour toutes ces explications et surtout d'avoir pris le temps pour m'expliquer.
C'est vrai que je n'ai pas parlé du contexte dans lequel j'effectuer cette étude, donc normal que tu me dises que je dois reprendre mes cours. Ça fait plus de 10 ans que je n'ai pas fait de stats. J'ai repris les études et on vient d'avoir seulement 2 cours de 4 heures sur les stats version accélérée. J'ai seulement besoin que tout devienne clair dans mon esprit pour comprendre les tenants et les aboutissants.
Je vais commencer à te répondre, je terminerai ce soir en rentrant des cours.
Je viens de reposer le calcul avec le Nb de cigarettes en fonction du prix.
Pour le calcul du coefficient de corrélation:
est-ce que c'est: r= cov(m;x)/(somme xi*somme mi)?
r= -66/ 484 294 * 58260
Je continuerai ce soir.
En tout cas merci pour tout.
Cordialement,
Bonsoir LeDino,
je suis retour, pour une longue soirée.
Merci encore pour tous tes renseignements, je commence à mieux comprendre. j'espère en tout cas ne pas être trop "lourd" dans mes questions, mais pourtant c'est nécessaire si je souhaite avancer et finir mon exposé pour vendredi (j'ai le power point à réaliser ensuite), bref, il faut que demain soir l'étude statistiques soit bouclée pour me consacrer à la rédaction de la présentation power point.
Je viens de reprendre tes données. Merci pour l'info sur le coefficient de corrélation. Je viens de tester et je trouve bien -0.39.
Je reviens vers toi concernant la loi de Student, je viens de parcourir mon cours et je ne l'ai pas vu. Seulement il me semble que c'est un point important d'après ce que tu me dis, si je souhaite vérifier pouvoir rejeter l'hypothèse d'indépendance(ça veut dire quoi au juste?)
Je viens de regarder sur Wiki, c'est un peu compliqué. Tu pourrais éventuellement m'expliquer avec des mots simples et surtout m'expliquer comment utiliser la formule? Le "T" et le "n" veulent dire quoi? Le résultat va me donner quoi? Il faut qu'il soit compris entre quoi et quoi?
Le prof nous a parlé que R² devait être compris entre 0,7 et 1 pour que l'ajustement soit justifié. En dessous de 0,7 l'ajustement linaire (ou autre) ne va pas.
Pour la courbe que j'ai jointe plus haut entre la contrebande et le temps, j'avais choisi l'exponentiel pour représenter la courbe de tendance afin d'avoir un R² au plus prêt de 1. Je viens de tester avec une courbe de tendance linéaire le R² est un peu plus faible mais reste au dessus de 0,7. C'est peut être plus facile pour faire des prévisions et dire que si j'augmente le prix "n" euros j'augmente la contrebande de "x" pourcent
Par contre j'avais utilisé aussi pour le nb de cigarettes en fonction du temps un courbe polynomiale, pas évident de s'y retrouver pour faire des prédictions comme tu m'as expliqué avec une droite linaire.(pourcentage)
Merci à toi, à de suite.
Juste une autre petite question:
Pour toi un r= -0.39 ça te signifie quoi à par que c'est le coefficient de corrélation? Qu'est ce que je peux dire? Faut'il pas qu'il soit supérieur à 0.7?
Je vais y arriver...
Remarques sur la forme :
Dans ton exposé tu peux tout à fait montrer les courbes mensuelles.
Le boulot est déjà fait, ça en jette et c'est intéressant.
Ensuite tu montres qu'en février c'est toujours plus bas que les autres mois (en faisant une moyenne par mois des différentes années)...
... et tu demandes pourquoi.
Les malins diront parce qu'il y a 28 jours... et tu approuveras.
Et si personne ne trouve, c'est toi qui fera le malin ...
Ensuite tu peux poser la même question pour janvier & mars qui sont plus bas que juin et juillet...
Quelles que soient les idées proposées... tu pourras dire qu'en fait tu n'en sait rien.
Tu en est réduit aux hypothèses : les chiffres ne sont que des chiffres.
MAIS ce qui est CERTAIN, c'ets qu'il y a manifestement une SAISONNALITE.
Donc il serait intéressant de l'étudier...
Pour la suite de l'exposé, tu dis ensuite qu'à partir de maintenant, on veut déterminer l'influence du facteur PRIX.
Donc qu'il vaut mieux travailler en données ANNUELLES pour éviter la variance introduite par la saisonnalité.
Avec ça tu as déjà une bonne intro...
¨Pour ce qui est du marché noir : il est très difficile à quantifier à partir des saisies.
Notamment parce que les moyens affectés aux contrôles peuvent influencer les saisies.
Donc on ne peut pas simplement dire que les saisies (connues) sont proportionnelles au marché noir total (inconnu).
Mais tu peux quand même faire le test de corrélation : on trouve un T à 5 ! Donc encore plus significatif. Les saisies sont très clairement corrélées au PRIX.
Tu peux aussi calculer le a', coefficient directeur de la régression.
Je te conseille de focer b à 0 (c'est possible dans le tableur, cherche comment...). EN effet, si le prix est nul, le marché noir ne peut exister...
En procédant ainsi tu trouveras un a' très élevé.
Pour les VENTES : VENTES = a.PRIX + b
Tu trouves a = -183 MU/€ (millions d'unités annuelles par EURO d'augmentation).
En divisant par les ventes annuelles moyennes, cela fait environ -4% par EURO.
Si tu fais la même chose pour les SAISIES, tu auras un a'= +160 MU/€
En relatif, celà fait +57% de saisies par EURO de hausse.
C'est énorme.
Mais il ne faut pas oublier qu'on partait d'un marché noir encore relativement faible il y a quelques années.
Pour qu'il explose, il a fallu une réelle augmentation des prix...
Quoi qu'il en soit tu peux remarquer que si la saisie repréente X, alors le marché noir représente plusieurs fois X (sinon, les contrebandiers ne feraient aucun business : tout serait prix par les douanes...).
Donc on peut extrapoler les saisies par au minimum 5, voire 10, voire plus...
Celà veut dire que le marché nopir est très significatif et représente une part importante de la consommation.
Son augmentation très forte en fonction du prix est donc clairement inquiétante...
Bonjour LeDino,
Encore merci pour toutes ces explications. Je vais essayer de rassembler ce que tu m'as dit et essayer de suivre un fil conducteur pour la présentation de mon exposé.
C'est super intéressant dommage que je n'ai pas plus de temps pour approfondir.
J'ai essayé de retomber sur tes calculs:
Si tu fais ça, tu n'auras que 9 valeurs dans chaque série (n=9 années d'étude).
Mais tu trouveras une corrélation de r=-0,839 et un R²= 0,705.
Pour les VENTES : VENTES = a.PRIX + b
Tu trouves a = -183 MU/€ (millions d'unités annuelles par EURO d'augmentation).
En divisant par les ventes annuelles moyennes, cela fait environ -4% par EURO.
Si tu fais la même chose pour les SAISIES, tu auras un a'= +160 MU/€
En relatif, celà fait +57% de saisies par EURO de hausse.
J'ai pas mal de difficulté à arriver à ton résultat. Je suis vraiment navré.
Je vais quand même retenir les idées principales de tout ce que tu m'as dit.
Encore merci pour tout.
Cordialement.
Ce nuage est normal :
Les PRIX grimpent, les VENTES décroissent, le marché noir augmente, les SAISIES augmentent.
Donc la corrélation entre VENTES et SAISIES est négative.
La pente de régression également.
Si tu fais le graphique SAISIES en fonction du PRIX, tu auras une meilleure corrélation.
C'est surtout le PRIX qui détermine la contrebande.
Et quant à la corrélation entre VENTES et PRIX, que trouves-tu ?
Bonjour LeDino,
Merci pour ta réponse, ça me rassure énormément!
Je vais pouvoir utiliser cette courbe.
J'ai également fait celle en fonction des ventes et du prix, là je pars en cours, ce soir dés que je rentre vers 18h je m'y remets et je t'envoie la courbe pour que tu me dises ce que tu en penses. De mémoire la courbe ressemble à celle de la contrebande.
Ce matin j'ai eu un gros coup de déprime, j'espère que je vais m'en sortir...
Je ne devrais pas comparer avec les collègues mais je les entends parler de médiane, quartile... Je me demande si je pourrais parler de ce type de calcul pour mon cas.
Grosso modo je me dis que j'ai simplement traduit des données en graphique sans pour autant faire de calculs. Ne m'en veux pas mais le test de Student, je n'ai pas assez de recul pour l'utiliser et s'il faidrait que j'explique je serais mal à l'aise.
Si en terme de graphe tu as des idées pour présenter des points particulier avec représentation imagé autre ( pyramide, toile d'areignée...)
Franchement je peux te dire un grand et très grand merci pour tes coups de main. C'est super sympatique.
Peut être à ce soir.
Cordialement.
Bonsoir LeDino,
Ho lalalala!!!! Je ne sais pas comment te remercier! C'est vraiment génial toutes les explications que tu viens de me donner! J'ai quasiment tout compris. Si j'arrive à l'expliquer avec des mots simples comme tu viens de me le démontrer je pense que ça sera bien. Tu as raison je suis libre de procéder à des recherches c'est le but. Et il est vrai que j'ai choisi des recherches interactives avec toi qui au final m'auront permis de m'enrichir plus rapidement.
Donc si je comprends bien, je te fais un petit résumé:
le ddl pour mon cas c'est le nombre d'années pour lequel je cible mon étude, donc de 2004 à 2012 donc ça fait 9 ans, alors je fais 9 - 2 = 7 ddl.
Le risque c'est la précision pour laquelle je souhaite être au plus prés de la réalité, donc en gros 99% d'être sûr.
Donc vu que mon VOLUME et mon PRIX ne sont pas indépendants, ça veut dire qu'ils sont liés. Si l'un varie, l'autre variera aussi.
Super!!
Et à ton avis est ce que je pourrais faire la même chose entre la CONTREBANDE et le PRIX?
Ca pourrait grosso modo ficeler les trois variables entre elles, non?
Hier soir dans la déprime j'ai envoyé un mail à ma prof de math pour lui exprimer ma détresse. Elle m'a invité à représenter les 3 variables (PRIX, VOLUME, CONTREBANDE) sur un même graphique type polaire. C'est sûr que le résultat est parleur. Je te joins l'image de ce graphique. Elle m'a parlé aussi de la méthode graphique du triangle équilatéral aussi appelée "graphique ternaire", par contre pas évident à utiliser.
Je vais plancher sur ce que tu viens de me dire et le mettre en forme. C'est super intéressant, vraiment merci beaucoup pour tes explications et ton soutien.
Cordialement,
Mille mercis pour toutes ces explications!
Je suis en train d'affiner mon power point.
Je vais d'ailleurs aller me coucher et je terminerai demain soir.
Tu as su éclaircir les zones d'ombre que j'avais c'est super sympa.
est-ce que tu penses que je peux faire la même démonstration avec la contrebande et le prix?
Merci pour tout!
Je te tiens au courant.
Cordialement.
Juste une petite précision: Pour mon cas T est plus grand que la valeur que l'on trouve dans la table de Student.
On dit que l'on rejette l'hypothèse HO, donc sur la courbe de Gauss, pour mon cas je me trouve donc au centre? C'est ça?
Cordialement
Merci pour tout!
Et tu sais quoi? La logique de mon exposé suit quasiment à la lettre le descriptif que tu viens de me faire. Il me reste à présenter les saisies de contrebande et ça sera au top.
Bonne nuit.
Bonjour LeDino,
C'est super motivant tout ce que tu viens de me dire et si tu ne vois pas d'inconvenient j'accepte tout ce que tu me dis car j'avoue être passé dans une étape décisive et éprouvante en ce qui me concerne. Tes explications m'ont permis de prendre du recul et d'avoir une vision d'ensemble sur mon sujet sans pour autant être un spécialiste des statistiques.
Je me dis que j'ai eu une chance énorme de te rencontrer.
J'espere que demain tout se passera bien.
Je te tiendrai au courant.
Passe une bonne journée et encore MERCI!
Cordialement.
Bonjour LeDino,
Je tenais encore une fois pour te remercier pour toutes tes explications.
Mon exposé s'est passé, ça aurait pu être mieux au niveau de ma présentation, mais je suis content car j'ai eu la moyenne.
J'ai eu quelques questions sur la loi de Student qui m'ont un peu déstabilisées...
Voila je tenais à t'informer pour te remercier.
A bientot!
Vous devez être membre accéder à ce service...
Pas encore inscrit ?
1 compte par personne, multi-compte interdit !
Ou identifiez-vous :