• Accueil / Salesforce / Questions d’entretien sur…
, Questions d&rsquo;entretien sur la science des données (pour les consultants Tableau)<span class="wtr-time-wrap after-title"><span class="wtr-time-number">17</span> minutes de lecture</span>

Questions d’entretien sur la science des données (pour les consultants Tableau)17 minutes de lecture


L’importance croissante d’Einstein et de Tableau suggère certainement que l’analyse, la science des données et l’intelligence d’affaires sont importantes pour la direction que prend l’architecture Salesforce. Les statistiques sont omniprésentes dans la science des données et les principes des statistiques sous-tendent Tableau CRM et Einstein Discovery.

Dans cet esprit, voici quelques questions sur les statistiques qui peuvent vous être posées lors d’un entretien d’embauche en science des données.

, Questions d&rsquo;entretien sur la science des données (pour les consultants Tableau)<span class="wtr-time-wrap after-title"><span class="wtr-time-number">17</span> minutes de lecture</span>

Comme Randy Sherwood déclare dans sa vidéo pédagogique Einstein Discovery :

« Cela aide à comprendre les concepts statistiques de base que nous utilisons pour mieux comprendre les résultats. Vous n’avez pas besoin d’être un scientifique des données ou un statisticien pour obtenir des informations supplémentaires sur les données à l’aide d’Einstein Discovery. Cependant, il est utile de connaître les concepts statistiques de base pour interpréter au mieux les résultats.

Être capable de répondre à ces questions d’entrevue suppose une compréhension fondamentale des statistiques descriptives telles que la moyenne, le mode, la médiane, les quartiles, l’écart-type, la variance, le score Z (Z) et l’échantillonnage.

Je vais utiliser un exemple tiré d’un manuel de statistiques. Supposons qu’une enquête menée auprès de 2 279 adultes sélectionnés au hasard indique que 422 sont des utilisateurs de Salesforce. La question est de savoir avec quelle fiabilité cette proportion de l’échantillon reflète la population de tous les adultes ? Dans cet exemple, nous ne connaissons pas cette proportion de la population. Des estimations sur la population de tous les adultes peuvent être faites avec certains niveaux de confiance et intervalles de confiance, avec une certaine marge d’erreur.

1. Définir l’intervalle de confiance

Confiance intervalle est une plage de valeurs en pourcentage qui, avec un degré de certitude déterminé, comprend une caractéristique connue de la population. Cette caractéristique de la population est une moyenne, une proportion ou un écart type.

Confiance intervalle est rapporté comme l’estimation en pourcentage de l’échantillon plus ou moins un certain montant, également exprimé en pourcentage. Confiance intervalle rapporte deux informations. 1- une plage de valeurs plausibles pour le paramètre de population, et 2- une confiance niveau qui exprime la probabilité qu’une certaine statistique d’échantillon reflète le paramètre de population.

2. Que signifie le niveau de confiance ?

Confiance niveau est une mesure, exprimée en pourcentage, de la certitude qu’une statistique d’échantillon inclut le paramètre de population.

En statistiques, un goûter la moyenne, la proportion ou l’écart type est une statistique. UNE population la moyenne, la proportion ou l’écart type est un paramètre. Confiance niveau est une probabilité. Il exprime quantitativement le degré de certitude qu’un exemple de statistique reflète un paramètre de population. Les statistiques et paramètres applicables sont la moyenne, la proportion ou l’écart type.

3. Expliquez l’erreur standard

Erreur standard est une estimation de l’écart type. Il est utilisé lorsque l’écart type d’un échantillon ou d’une population n’est pas connu, ce qui est le cas de l’exemple de cet article. Il sert de mesure ou d’indication de la propagation et de la variabilité dans un ensemble de données.

Erreur standard est une dénomination unitaire couramment utilisée pour la marge d’erreur. La marge d’erreur peut être exprimée soit en pourcentage, soit en termes de nombre erreurs types cela représente. La formule pour erreur standard est la racine carrée du pourcentage de l’échantillon, multipliée par un moins le pourcentage de l’échantillon, divisée par la taille de l’échantillon :

, Questions d&rsquo;entretien sur la science des données (pour les consultants Tableau)<span class="wtr-time-wrap after-title"><span class="wtr-time-number">17</span> minutes de lecture</span>

où:

  • p est le pourcentage de l’échantillon, qui est de 422/2279 ou environ 18,5 pour cent dans l’exemple.
  • 1 – p = 1 – 422/2279 qui est d’environ 81,5% dans notre exemple
  • n = taille de l’échantillon qui est de 2279 dans cet exemple
  • Le résultat de cette expression est un pourcentage :
, Questions d&rsquo;entretien sur la science des données (pour les consultants Tableau)<span class="wtr-time-wrap after-title"><span class="wtr-time-number">17</span> minutes de lecture</span>

Le résultat est d’environ 0,00814 ou 0,814 pour cent

4. Qu’est-ce que la marge d’erreur ?

Marge d’erreur est la plage de valeurs au-dessus et au-dessous d’une statistique d’échantillon dans un intervalle de confiance. C’est une valeur en pourcentage. Il indique de combien de points de pourcentage un résultat de test peut différer de la valeur réelle de la population tout en incluant la statistique réelle de la population. Le résultat du test, également appelé statistique d’échantillon, est une moyenne, une proportion ou un écart type.

La formule de calcul marge d’erreur est la valeur Z critique multipliée par l’erreur standard.

, Questions d&rsquo;entretien sur la science des données (pour les consultants Tableau)<span class="wtr-time-wrap after-title"><span class="wtr-time-number">17</span> minutes de lecture</span>

La valeur Z critique dépend des attentes d’un utilisateur concernant le niveau de confiance souhaité. 95% est la valeur la plus couramment utilisée. Si un niveau de confiance de 95 % est attendu, la valeur Z critique est de 1,960. Les autres valeurs Z critiques associées aux niveaux de confiance couramment utilisés sont :

Confiance
Niveau
Valeur Z critique*
90%1.645
95%1.960
99%2.576

Dans cet exemple, la marge d’erreur pour un niveau de confiance de 90 % est =

, Questions d&rsquo;entretien sur la science des données (pour les consultants Tableau)<span class="wtr-time-wrap after-title"><span class="wtr-time-number">17</span> minutes de lecture</span>

qui est d’environ 0,013385 ou environ 1,34 pour cent.

Dans cet exemple, la marge d’erreur pour un niveau de confiance de 95 % est =

, Questions d&rsquo;entretien sur la science des données (pour les consultants Tableau)<span class="wtr-time-wrap after-title"><span class="wtr-time-number">17</span> minutes de lecture</span>

qui est d’environ 0,015947, soit environ 1,59 pour cent.

Dans cet exemple, la marge d’erreur pour un niveau de confiance de 99 % est =

, Questions d&rsquo;entretien sur la science des données (pour les consultants Tableau)<span class="wtr-time-wrap after-title"><span class="wtr-time-number">17</span> minutes de lecture</span>

qui est d’environ 0,020960, soit environ 2,10 pour cent.

Le tableau précédent du niveau de confiance et des valeurs z critiques provient du manuel de statistiques utilisé dans un collège communautaire où je donne des cours de mathématiques. Il peut être trouvé dans n’importe quel manuel de statistiques ou en recherchant le niveau de confiance et la marge d’erreur.

La valeur z critique est connue de manière plus pédante sous le nom de « Z-Alpha sur deux ». Trouvez des détails dans n’importe quel manuel de statistiques.

Intervalle de confiance, niveau de confiance, erreur standard et marge d’erreur ; en utilisant l’exemple :

L’exemple indique que 422 adultes sur 2279, soit environ 18,5% de l’échantillon, utilisent Salesforce. La proportion de la population n’est pas connue. Des estimations peuvent être faites avec certains niveaux de confiance et intervalles de confiance, dans une certaine marge d’erreur, quant à la précision avec laquelle ce 422/2279 goûter proportion reflète la population proportion de tous les adultes qui utilisent Salesforce.

La marge d’erreur est exprimée soit en dénomination(s) d’erreur type, soit en pourcentage. Dans cet exemple, 18,5 % de l’échantillon a utilisé Salesforce, plus ou moins :

  • 1,34 %. Il y a une probabilité de 90 % que 18,5 % de tous les adultes, avec une marge d’erreur de 1,34 %, utilisent Salesforce. Nous sommes convaincus à 90 % qu’entre 17,2 et 19,8 % de tous les adultes utilisent Salesforce.
    • Le un niveau de confiance est de 90 pour cent.
    • Le marge d’erreur est de 1,34 pour cent.
    • Le Intervalle de confiance est de 18,5 pour cent, plus ou moins 1,34 pour cent.
  • 1,59 %. Il y a une probabilité de 95 % que 18,5 % de tous les adultes, avec une marge d’erreur de 1,59 %, utilisent Salesforce. Nous sommes convaincus à 95 % qu’entre 16,9 et 20,1 % de tous les adultes utilisent Salesforce.
    • Le un niveau de confiance est de 95 pour cent.
    • Le marge d’erreur est de 1,59%.
    • Le Intervalle de confiance est de 18,5 pour cent, plus ou moins 1,59 pour cent.
  • 2,10 %. Il y a une probabilité de 99 % que 18,5 % de tous les adultes, avec une marge d’erreur de 2,10 %, utilisent Salesforce. Nous sommes convaincus à 99 % qu’entre 16,4 et 20,6 % de tous les adultes utilisent Salesforce.
    • Le un niveau de confiance est de 99 pour cent.
    • Le marge d’erreur est de 2,10 pour cent.
    • Le Intervalle de confiance est de 18,5 pour cent, plus ou moins 2,10 pour cent.

Script R: Les calculs et calculs précédents sont dans le script R suivant. Il est ici pour ceux d’entre vous intéressés à vérifier les mathématiques. Collez cette séquence de commandes dans R et exécutez-la à partir de la ligne de commande dans R Studio. Les mêmes chiffres utilisés dans cet article apparaîtront.

# Proportion de l’échantillon

p=422/2279

p

# Erreur standard

se=sqrt(p*(1-p)/2279)

se

# Score Z pour un niveau de confiance de 95 %

Z=1.960

# Marge d’erreur pour un niveau de confiance de 95%

e=Z*se

e

# Proportion de l’échantillon +/- une erreur standard

p+e

p-e

# Proportion de l’échantillon +/- deux erreurs types

p+2*e

p-2*e

# Proportion de l’échantillon +/- trois erreurs types

p+3*e

p-3*e

# Taille de l’échantillon

Z^2*(p)*(1-p)/e^2

#

# Demandez à R de faire tout le travail :

#

if(!require(binom)){install.packages(“binom”)}

bibliothèque (binom)

binom.confint (x=422, n=2279, conf.level =0.95, method= »all »)

Certains d’entre vous qui lisez ceci peuvent trouver des chiffres qui diffèrent de ce qui est ici, jusqu’à 0,05 pour cent, selon que vous utilisez une calculatrice en ligne d’intervalle de confiance, une calculatrice scientifique telle qu’une TI84, un programme statistique tels que R, Matlab ou Python ; ou tout simplement le faire à la main. Cela dépend également de la méthode utilisée, qui peut inclure 1propZint, wilson, bayes, cloglog ou une autre méthode.

5. Comment déterminez-vous la taille de l’échantillon pour une expérience ?

La formule de la marge d’erreur est E =

, Questions d&rsquo;entretien sur la science des données (pour les consultants Tableau)<span class="wtr-time-wrap after-title"><span class="wtr-time-number">17</span> minutes de lecture</span>

Isolez algébriquement n dans cette expression et le résultat la formule pour la taille de l’échantillon :

, Questions d&rsquo;entretien sur la science des données (pour les consultants Tableau)<span class="wtr-time-wrap after-title"><span class="wtr-time-number">17</span> minutes de lecture</span>

Il y a trois variables dans l’expression résultante à considérer :

  • Score Z (Z)
  • proportion de l’échantillon (p)
  • marge d’erreur (E)

Lors de l’estimation de la taille de l’échantillon, il est important de comprendre qualitativement la nature, les buts et les objectifs de l’étude :

  • Quel est le niveau de confiance souhaité : 90 % ? 95 % ? 99 ? ou alors …?
  • Quelle est la proportion de la population attendue qui présentera le résultat ou l’effet souhaité ? Cette portion est-elle connue ou non? S’il n’est pas connu, utilisez 0,50. C’est p dans le calcul. L’utilisation d’une valeur par défaut de 0,50 produit la plus grande valeur possible de p*(1-p).
  • Quelle est la marge d’erreur acceptable ? C’est E dans le calcul.

Le niveau de confiance le plus couramment utilisé est de 95 %, ce qui correspond à un score Z de 1,96 écart type. D’autres niveaux de confiance courants sont cités ci-dessus dans le tableau des niveaux de confiance et des valeurs Z critiques.

La formule pour la taille de l’échantillon n est Z^2(p)(1-p)/E^2, où :

  • n est la taille de l’échantillon
  • Z est le Z-score du tableau ci-dessus
  • p est la proportion estimée de la population. Utilisez 0,5 s’il est inconnu. Cela donnera la plus grande valeur possible (0,25) de p*(1-p)
  • E est la marge d’erreur

Appliqué à l’exemple de problème : 1,96^2 * 422/2279 * (1-422/2279) / 0,0159^2 = 2272

6. Qu’est-ce que le test d’hypothèse ?

Tests d’hypothèses est un processus décisionnel fondé sur des preuves destiné à contrôler la possibilité de commettre des erreurs. Dans de nombreux contextes commerciaux et scientifiques, les décisions sont prises sur la base d’informations imparfaites ou limitées. Tests d’hypothèses est une méthode pour minimiser les erreurs lors de la prise de décisions basées sur des informations limitées ou incomplètes.

UNE hypothèse est une affirmation provisoire sur une population faite afin d’en tirer et tester ses conséquences logiques ou empiriques.

Dans les tests d’hypothèses, une hypothèse nulle est faite sur une population, sur la base d’un échantillon. Il prend la forme d’une égalité, telle que la moyenne est x, ou la proportion est y, ou l’écart type est z. La notation pour l’hypothèse nulle est Ho, alias H-sub-zero, H_o ou H-naut. Ensuite, une hypothèse alternative est faite, représentant le complément approximatif de l’hypothèse nulle. L’hypothèse alternative prend la forme d’un inégalité.

Les tests d’hypothèse peuvent être utilisés pour évaluer l’une des six conditions. Ces six conditions sont des inférences sur la moyenne, la proportion ou l’écart type de la population :

  • la moyenne d’un échantillon
  • comparer deux moyennes d’échantillons
  • une proportion d’échantillon
  • comparer deux proportions d’échantillon
  • écart type d’un échantillon
  • comparer deux écarts types

Des tests statistiques sont ensuite effectués pour déterminer si l’hypothèse nulle peut être rejetée.

Points importants concernant les tests d’hypothèses :

  • H_o est toujours une égalité
  • Dans un test d’hypothèse, l’affirmation concerne toujours la population
  • L’hypothèse nulle est la suggestion que rien d’intéressant ne se passe. Il n’y a pas de différence entre les données observées et attendues, ou pas de différence entre les deux groupes comparés.
  • les valeurs p testent l’hypothèse

7. Qu’est-ce qu’une valeur p ?

Valeur p est la probabilité de voir le même résultat si l’hypothèse nulle était vraie. C’est la probabilité que les données soient au moins aussi extrêmes que ce qui serait réellement observé si l’hypothèse nulle était vraie.

Le Valeur p est un élément clé du test d’hypothèse. Il s’agit d’une valeur en pourcentage représentant la probabilité d’obtenir un résultat similaire si l’hypothèse nulle s’est avérée statistiquement vraie. Une valeur p faible signifie qu’il y a une probabilité plus élevée de rejeter les hypothèses nulles. Si la valeur p est petite, il y a une différence. En règle générale, « petit » est défini comme étant inférieur à 0,05 ou cinq pour cent.

8 & 9. Que sont les erreurs de type I et de type II ?

Les erreurs de type I et de type II sont des erreurs commises lors de l’évaluation d’une hypothèse nulle. Une erreur de type I se produit lorsque l’hypothèse nulle est vraie et a été rejetée. Une erreur de type II se produit lorsque l’hypothèse nulle est fausse et a été acceptée. Ici, une image vaut mille mots :

Accepter H_oRejeter H_o
H_o est vraiDécision correcteErreur de type I
H_o est fauxErreur de type IIDécision correcte

10. Comment détectez-vous les valeurs aberrantes ?

Une valeur aberrante est une valeur de données dans un ensemble de données significativement inférieure à la limite du premier quartile ou significativement supérieure à la limite du troisième quartile. Il a une définition quantitative. L’équation est :

Q1 – 1,5 * IQR, ou

Q3 + 1.5 * IQR

Le terme valeur aberrante est souvent appliqué à toute valeur de données apparemment éloignée de la moyenne, de la proportion de l’échantillon ou de la médiane d’un ensemble de données. Il s’agit d’une interprétation raisonnable et de bon sens des valeurs aberrantes. Les manuels de statistiques donnent aux valeurs aberrantes une définition quantitative et une équation.

Pour déterminer si une valeur de données est une valeur aberrante :

  • Trier l’ensemble de données
  • Identifiez la valeur médiane. C’est Q2.
  • Identifiez la valeur médiane de la moitié inférieure. C’est Q1.
  • Identifiez la valeur médiane de la moitié supérieure. C’est Q3.

L’ensemble de données est maintenant séquencé en quatre quartiles. Chaque quartile a à peu près le même nombre de valeurs, selon qu’il y a un nombre pair ou impair de valeurs dans l’ensemble de données. Les valeurs aux limites des quartiles sont appelées Q1, Q2 et Q3. La valeur absolue de la différence entre la valeur des données à Q1 et Q3 est l’IQR, ou plage interquartile. Les valeurs dans un ensemble de données inférieures à Q1 – 1,5 * IQR ou supérieures à Q3 + 1,5 * IQR sont des valeurs aberrantes.

« Inhabituel» est un terme statistique souvent utilisé dans le contexte de l’analyse des valeurs aberrantes. Une inhabituel la valeur des données n’est pas la même qu’une valeur aberrante. Insolite a également une définition quantitative standard dans les statistiques. Une valeur dans un ensemble de données est « inhabituelle » si elle est supérieure à +/- deux écarts types par rapport à la moyenne.

résumer

En guise de résumé, ces définitions et équations répondent aux questions originales sous forme abrégée. Voici les types de réponses qu’un recruteur souhaite probablement entendre :

, Questions d&rsquo;entretien sur la science des données (pour les consultants Tableau)<span class="wtr-time-wrap after-title"><span class="wtr-time-number">17</span> minutes de lecture</span>

Autres principes de statistiques dans Salesforce Einstein

Qu’est-ce qu’un test t ? Répondre à cette question dans son intégralité prend plus de place que cet article ne le permet. Il suffit de dire que le test t est un test de probabilité statistique appliqué lorsque la taille de l’échantillon est « petite » ou que l’écart type n’est pas connu. C’est souvent le cas lorsque l’on essaie de déterminer des probabilités à l’aide de données « du monde réel » à partir d’un ensemble de données Einstein. Il est pertinent pour Salesforce car il sous-tend les calculs de probabilité dans Einstein Discovery. Ceci est expliqué dans le Vidéo de Randy Sherwood.

Résumé

Les fonctionnalités prédictives sous-jacentes à Einstein Discovery utilisent des techniques statistiques standard, dont beaucoup sont décrites dans cet article. Les scientifiques des données qui utilisent Einstein Discovery peuvent voir des questions comme celle-ci lors d’un entretien d’embauche.

Sources et informations de référence

Ces questions d’entrevue portent sur ce qui est normalement enseigné dans un cours de statistique de niveau collégial. Les informations pour ce document proviennent de :

Freund, John E. et Benjamin M. Perles. Statistiques : un premier cours. Septième édition, Simon et Schuster, 1999.

Freund, John E. Statistiques élémentaires modernes. Dixième édition, Prentice Hall, 2001.

Gould, Robert et Colleen N. Ryan. Statistiques d’introduction : explorer le monde à travers les données. Deuxième édition, Pearson Education, 2020.

Huff, Darrel et Irving Geis. Comment mentir avec les statistiques. Norton, 1993.

Vickers, André. Qu’est-ce qu’une valeur p de toute façon ? : 34 histoires pour vous aider à comprendre réellement les statistiques. Pearson Education, 2010.

Witte, Robert S. Statistiques. Quatrième édition, Harcourt Brace Jovanovich, 1980.

https://www.investopedia.com/terms/t/t-test.asp pour une histoire intéressante sur les origines du t-Test

Force de vente Analyse et découverte d’Einstein série de vidéos de formation. Voir esp. chapitre 33.

Je recommanderais particulièrement Qu’est-ce qu’un P-Value de toute façon et comment mentir avec les statistiques. Les deux sont courts, édifiants et divertissants.



Source de l’article traduit automatiquement en Français

Besoin d'aide ?
Vous utilisez Pardot depuis un certain temps mais vous n'êtes pas sûr d'en
exploiter tout le potentiel

Notre analyse de votre Pardot offerte dès aujourd'hui
Merci, vous pouvez compléter notre questionnaire
Nous allons revenir vers vous rapidement !

Fermer