Cuantiles

Cuantiles (percentiles, cuartiles, mediana, etc.)

El término "cuantiles" refiere a la posición ocupada por un determinado velor

en un conjunto de datos ordenados. Algunos cuantiles en particular nos propor-

cionan información muy valiosa acerca de la distribución de nuestros datos.

Mediana

La Mediana es quizá el cuantil más importante en estadística, ya que se trata

del central de la distribución de un conjunto de datos. En una distribución

Normal o Gaussiana, la mediana va a presentar un valor muy similar al de la

media (promedio). Presenta, sin embargo, algunas características que lo hacen

particularmente útil al trabajar con datos.

La mediana, a diferencia de la media, es poco sensible a los valores

extremos.

Ej: considerando el siguiente vector

vec <- c(1, 2, 3, 4, 5, 6, 21)

la media del mismo será:

mean (vec)

mientras que la mediana será:

median (vec)

Esta propiedad hace que en determinados casos la mediana represente una

aproximación más adecuada a la descripción de los datos.

En el caso en que la cantidad de elementos en nuestro conjunto de datos es

impar, la mediana es exactamente el valor central. Por el contrario, en caso

de que nuestro conjunto de datos tuviese una cantidad par de elementos,

vec <- c(1, 2, 3, 4, 5, 6, 21, 22)

la mediana es el promedio de los dos valores centrales.

median (vec)

Hay al menos dos formas de obtener la mediana de un conjunto de datos en R.

La primera es utilizando la función "median", y la segunda es mediante la

función "quantile":

quantile (vec, prob = 0.5)

Cuartiles

De modo similar a como la mediana divide nuestros datos en sus dos mitades,

los cuartiles los dividen en 4 partes iguales. Podemos pensar en los cuartiles

como las medianas de los valores menores y mayores a la mediana de nuestros

datos, respectivamente.

median (vec [which (vec <= median (vec))]) # el primer cuartil
median (vec [which (vec >= median (vec))]) # el tercer cuartil

El segundo cuartil es sencillamente la mediana de nuestros datos.

Otra forma de obtener los cuartiles de nuestros datos es, también, mediante la

función "quantile", de la siguiente manera.

quantile (vec, prob = c(0.25, 0.5, 0.75))

Aunque si tenemos vectores con pocos datos y cantidad de elementos par, tal

vez no coincidan. Si redefinimos el primer vector que teníamos podremos ver

que esto se cumple:

vec <- c(1, 2, 3, 4, 5, 6, 21)
median (vec [which (vec <= median (vec))]) # el primer cuartil
median (vec [which (vec >= median (vec))]) # el tercer cuartil
quantile (vec, prob = c(0.25, 0.5, 0.75))

Ahora sí. Obviamente cuanta mayor cantidad de datos tengamos, menores van a ser

este tipo de discrepancias (similar a lo que pasa con la media y la mediana).

Percentiles

Mediante la función "quantile" podemos encontrar el valor de cualquier combi-

nación de cuantiles, sean éstos cuartiles, quintiles

quantile (vec, prob = c(0.2, 0.4, 0.6, 0.8))

deciles

quantile (vec, prob = c(0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9))

o la combinación de percentiles que se nos ocurra.

Intervalos de confianza

Un ejemplo claro de aplicación estadística de los percentiles son los inter-

valos de confianza. Los intervalos de confianza nos indican en qué intervalo de

valores está una determinada cantidad de nuestras observaciones. Así, si

queremos saber entre qué valores encontramos el 95% de nuestros datos, sólo

tenemos que "recortar" a los datos 2.5% en cada extremo, o sea, los percentiles

#2.5 y 97.5

quantile (vec, prob = c(0.025, 0.975))

En distribuciones conocidas, los intervalos de confianza son funciones

de la media y el desvío de las mismas. Por ejemplo, si tomamos un conjunto

de datos que presentan distribución Normal con media en 0 y desvío 1

vec <- rnorm (1000, 0, 1)

teóricamente los valores de los intervalos de confianza del 95% nos van a dar

algo muy cercano a -1.96 y 1.96

quantile (vec, prob = c(0.025, 0.975)) # (redefinir varias veces "vec" y volver

a intentarlo, no da siempre lo mismo)

(Por cierto, vuelvan a calcular los cuartiles utilizando este "vec" con los dos

métodos: la diferencia es ahora menor).

jumanbar / curso-r Goto Github PK

curso-r's People

Contributors

Stargazers

Watchers

Forkers

curso-r's Issues