Este texto pretende dar respuesta a muchas de estas preguntas y nuestra intención es que sea útil tanto a los estudiantes de los cursos de estadística que se imparten en la universidad, como a los profesionales que están interesados en refrescar sus ideas o aclarar dudas concretas, y también a todas aquellas personas interesadas en esta disciplina que quieran resolver algunas de sus dudas.
Sin ser exhaustivos, pues siempre es posible aumentar la lista con nuevas preguntas, hemos tratado de cubrir un amplio espectro, tratando dudas en estadística descriptiva, distribuciones de probabilidad, estimación, contraste de hipótesis, comparación de poblaciones, correlación y regresión, diseño de experimentos, estudios de capacidad y control de procesos y un apartado para dudas varias, como las relacionadas con los grados de libertad y el teorema central del límite, entre otras.
Muchas preguntas tienen un carácter general e introductorio y son “aptas para todos los públicos”, pero otras tratan sobre temas específicos en el contexto de las ecuaciones de regresión, el diseño de experimentos o el control estadístico de procesos. En este último caso se requiere un cierto nivel de conocimientos sobre el tema, aunque si la pregunta despierta interés, seguramente ya se sabe lo suficiente para entender la respuesta.
En todos los casos se ha intentado usar un lenguaje coloquial, recurriendo a la intuición y apoyándose en la metáfora, pero procurando que no haya pérdida en el rigor.
Contenido:
Acerca de los autores
Presentación
Estadística descriptiva
1. ¿Para qué sirve la mediana, si ya tenemos la media aritmética?
2. ¿Tiene alguna aplicación práctica la media geométrica?
3. ¿Por qué en la expresión de la varianza se utiliza el cuadrado de las diferencias en vez de su valor absoluto?
4. ¿Por qué cuando se calcula la varianza de una muestra se divide por n-1 en vez de dividir por n?
5. ¿Cuál es la forma “correcta” de calcular los cuartiles?
6. ¿En cuántos intervalos conviene dividir los datos para construir un histograma? ¿Qué otros aspectos hay que tener en cuenta?
7. ¿Cuándo conviene utilizar boxplots para analizar o describir datos?
8. En los boxplots las anomalías se marcan a partir de ± 1,5 veces el rango intercuartílico (IQR) ¿De dónde sale el 1,5?
9. ¿Qué hay que hacer cuando nos encontramos con valores atípicos?
10. ¿Qué es la curtosis (o kurtosis) y para qué sirve?
Distribuciones de probabilidad
11. ¿Cómo se sabe que una variable aleatoria concreta sigue una determinada distribución de probabilidad?
12. La media de una muestra es un número concreto. ¿Por qué se dice entonces que es una variable aleatoria?
13. ¿Por qué la función densidad de probabilidad de la distribución Normal es la que es?
14. ¿Por qué las probabilidades calculadas a través de la Normal estandarizada coinciden con las buscadas en la distribución de interés?
15. Yo mido 1,68. ¿Por qué la probabilidad de que una estatura sea 1,68 calculada con la distribución Normal es 0?
16. ¿Existen variables aleatorias que presenten un comportamiento “contrario” a la distribución Normal, siendo los valores más probables los de los extremos?
17. ¿De dónde sale la fórmula de la distribución de Poisson?
18. ¿Cómo se puede ver que la distribución de la varianza muestral está relacionada con la distribución chi-cuadrado?
19. ¿Por qué da un resultado distinto sumar k variables aleatorias de la misma distribución de probabilidad que tomar una y multiplicarla por k?
Estimación
20. Sabemos que las características de una muestra (proporción, media, …) varían de una muestra a otra. ¿Por qué entonces creer en los resultados de una muestra, sabiendo que si tomáramos otra esos resultados serían distintos?
21. ¿Qué significa la expresión: “un intervalo de confianza del 95% es 27,5% ± 3,6%”?
22. ¿Por qué para estimar la media de una población el tamaño de la muestra no crece proporcionalmente con el tamaño de la población?
23. ¿Por qué cuesta acertar en los sondeos electorales?
24. ¿Qué es un estimador de máxima verosimilitud?
Contraste de hipótesis
25. ¿Qué es el p-valor y cuál es el significado de las otras palabras clave que aparecen en el contraste de hipótesis?
26. ¿A partir de qué p-valor es razonable rechazar la hipótesis nula?
27. ¿Qué tipos de error se pueden cometer en un contraste de hipótesis?
28. ¿Es correcto multiplicar por 2 el área de cola en los tests de igualdad de varianzas cuando H1 es del tipo “distinto de”?
29. ¿Por qué respecto a la hipótesis nula se habla de “no rechazo” y no de “aceptación”?
30. ¿Es lo mismo diferencia significativa que diferencia importante?
Comparación de tratamientos
31. ¿Cómo elegir la hipótesis alternativa que conviene plantear?
32. Si la hipótesis alternativa es del tipo “mayor que” o “menor que”, ¿cómo se sabe hacia qué lado hay que mirar el área de cola?
33. ¿Por qué el análisis de la varianza se llama así, cuando en realidad se trata de una técnica para comparar medias y no varianzas?
34. ¿Por qué para comparar k tratamientos se utiliza la técnica de análisis de la varianza, en vez del ya conocido test de la t de Student, aplicándolo a todas las parejas que se pueden formar con k tratamientos?
Correlación y Regresión
35. ¿Por qué cuando se ajusta una nube de puntos a una ecuación de regresión se utiliza siempre el criterio de minimizar la suma de los cuadrados de los residuos, y no otros como minimizar la suma de su valor absoluto?
36. Si los coeficientes de una ecuación de regresión son unos números concretos, ¿por qué se dice que son variables aleatorias?
37. ¿Por qué cuando se ajusta una recta que pasa por el origen no se utiliza el coeficiente de determinación R2 como medida de calidad del ajuste?
38. ¿Por qué cuando se comparan ecuaciones de regresión con distinto número de variables regresoras no se utiliza R2 sino el llamado R2 ajustado?
39. ¿Cómo se pueden utilizar e interpretar variables cualitativas en una ecuación de regresión?
40. ¿Por qué del conjunto de variables candidatas a entrar en un modelo de regresión no necesariamente se seleccionan las que están más correlacionadas con la variable dependiente Y?
Diseño de experimentos
41. ¿Por qué no es una buena estrategia ir moviendo las variables una a una cuando, se trata de estudiar experimentalmente cómo estas afectan a una respuesta?
42. ¿Cómo es posible estudiar por separado el efecto de cada una de las variables que afectan a una respuesta si, tal y como se hace en los diseños factoriales, se mueven todas a la vez?
43. ¿Por qué funciona el algoritmo de Yates?
44. ¿Por qué cuando se representan valores en papel probabilístico normal (ppn), en la fórmula que da la ordenada se resta 0,5 del número de orden?
45. En los diseños factoriales, ¿cómo se puede escribir una ecuación para la respuesta a partir de los efectos?
46. ¿Qué es un diseño bloqueado? ¿Por qué en estos diseños no se tienen en cuenta las interacciones entre los factores de bloqueo y el resto de factores? ¿Qué ocurre si esas interacciones existen?
47. ¿Por qué es razonable suponer no significativas las interacciones de 3 o más factores?
48. ¿Qué hacer si al aleatorizar el orden de experimentación se obtiene el orden estándar de la matriz de diseño?
Estudios de capacidad y control estadístico de procesos
49. ¿Qué diferencia hay entre un estudio de capacidad a corto y largo plazo? ¿Cómo se estima la variabilidad en uno y otro caso?
50. ¿Por qué en los gráficos de control es más eficiente controlar medias que observaciones individuales?
51. En los gráficos de control, ¿la línea central debe ser el valor objetivo o el promedio obtenido al hacer el estudio de capacidad?
Varios
52. Cuando se habla de transformación logarítmica, ¿se refiere al logaritmo decimal o al neperiano?
53. ¿Qué significan los llamados “grados de libertad”?
54. ¿Debe decirse “Teorema central del límite” o “Teorema del límite central”?
55. ¿Cuál es la mejor estrategia para ganar la lotería (nacional, primitiva,…)?
Créditos y referencias
¿Cómo hemos resuelto nuestras dudas?
Libros y páginas web que se citan
Contraseña: www.freelibros.org
No hay comentarios.:
Publicar un comentario