¡Guía de estadística completa para principiantes en ciencia de datos!
1. Diferencia entre parámetro y estadística
En nuestro día a día seguimos hablando de Población y muestra. Entonces, es muy importante conocer la terminología para representar la población y la muestra.
Un parámetro es un número que describe los datos de la población. Y una estadística es un número que describe los datos de una muestra.
2. Estadísticas y sus tipos
La definición de Wikipedia de Estadística establece que «es una disciplina que se ocupa de la recopilación, organización, análisis, interpretación y presentación de datos».
Significa que, como parte del análisis estadístico, recopilamos, organizamos y extraemos información significativa de los datos, ya sea a través de visualizaciones o explicaciones matemáticas.
Las estadísticas se clasifican ampliamente en dos tipos:
- Estadísticas descriptivas
- Estadística inferencial
Estadísticas descriptivas:
Como sugiere el nombre en Estadística descriptiva, describimos los datos utilizando las distribuciones Media, Desviación estándar, Gráficos o Probabilidad.
Básicamente, como parte de la Estadística descriptiva, medimos lo siguiente:
- Frecuencia: no. de veces que ocurre un punto de datos
- Tendencia central: la centralidad de los datos: media, mediana y moda.
- Dispersión: la extensión de los datos: rango, varianza y desviación estándar
- La medida de la posición: percentiles y rangos de cuantiles
Estadística inferencial:
En Estadística inferencial, estimamos los parámetros poblacionales. O realizamos pruebas de hipótesis para evaluar las suposiciones hechas sobre los parámetros de la población.
En términos simples, interpretamos el significado de las estadísticas descriptivas infiriéndolas a la población.
Por ejemplo, estamos realizando una encuesta sobre el número de vehículos de dos ruedas en una ciudad. Suponga que la ciudad tiene una población total de 5L personas. Por lo tanto, tomamos una muestra de 1000 personas, ya que es imposible realizar un análisis de los datos de la población completa.
De la encuesta realizada, se encuentra que 800 personas de 1000 (800 de 1000 es 80%) son vehículos de dos ruedas. Entonces, podemos inferir estos resultados a la población y concluir que las personas de 4L de la población de 5L son vehículos de dos ruedas.
3. Tipos de datos y nivel de medición
En un nivel superior, los datos se clasifican en dos tipos: cualitativos y cuantitativos .
Los datos cualitativos no son numéricos. Algunos de los ejemplos son el color de ojos, la marca del automóvil, la ciudad, etc.
Por otro lado, los datos cuantitativos son numéricos y nuevamente se dividen en datos continuos y discretos.
Datos continuos: se puede representar en formato decimal. Algunos ejemplos son la altura, el peso, el tiempo, la distancia, etc.
Datos discretos: no se puede representar en formato decimal. Algunos ejemplos son la cantidad de computadoras portátiles, la cantidad de estudiantes en una clase.
Los datos discretos se vuelven a dividir en categóricos y datos de recuento.
Datos categóricos: representan el tipo de datos que se pueden dividir en grupos. Algunos ejemplos son edad, sexo, etc.
Datos de recuento: estos datos contienen números enteros no negativos. Ejemplo: número de hijos que tiene una pareja.
Nivel de medida
En estadística, el nivel de medición es una clasificación que describe la relación entre los valores de una variable.
Tenemos cuatro niveles fundamentales de medición. Son:
- Escala nominal
- Escala ordinal
- Escala de intervalo
- Escala de proporción
- Escala nominal: Esta escala contiene la menor cantidad de información ya que los datos solo tienen nombres / etiquetas. Puede usarse para clasificación. No podemos realizar operaciones matemáticas en datos nominales porque no hay un valor numérico para las opciones (los números asociados con los nombres solo se pueden usar como etiquetas).
Ejemplo: ¿A qué país perteneces? India, Japón, Corea.
- Escala ordinal: En comparación con la escala nominal, la escala ordinal tiene más información porque junto con las etiquetas, tiene orden / dirección.
Ejemplo: Nivel de ingresos: ingresos altos, ingresos medios, ingresos bajos.
- Escala de intervalo: Es una escala numérica. La escala de intervalo tiene más información que las escalas ordinales nominales. Junto con el orden, conocemos la diferencia entre las dos variables (el intervalo indica la distancia entre dos entidades).
Se pueden usar la media, la mediana y la moda para describir los datos.
Ejemplo: temperatura, ingresos, etc.
- Escala de razón: La escala de razón tiene la mayor cantidad de información sobre los datos. A diferencia de las otras tres escalas, la escala de razón puede acomodar un verdadero punto cero. Se dice simplemente que la escala de razón es la combinación de escalas Nominal, Ordinal e Intercal.
Ejemplo: peso actual, altura, etc.
4. Momentos de decisión empresarial
Tenemos cuatro momentos de decisión empresarial que nos ayudan a comprender los datos.
4.1. Medidas de tendencia central
(También se conoce como decisión comercial en el primer momento)
Habla de la centralidad de los datos. Para simplificarlo, es parte del análisis estadístico descriptivo en el que un solo valor en el centro representa todo el conjunto de datos.
La tendencia central de un conjunto de datos se puede medir mediante:
Media: es la suma de todos los puntos de datos dividida por el número total de valores en el conjunto de datos. No siempre se puede confiar en la media porque está influenciada por valores atípicos.
Mediana: es el valor intermedio de un conjunto de datos ordenado / ordenado. Si el tamaño del conjunto de datos es par, la mediana se calcula tomando el promedio de los dos valores medios.
Modo: es el valor más repetido en el conjunto de datos. Los datos con un solo modo se denominan unimodales, los datos con dos modos se denominan bimodales y los datos con más de dos modos se denominan multimodales.
4.2. Medidas de dispersión
(También se conoce como decisión empresarial de segundo momento)
Habla de la difusión de datos desde su centro.
La dispersión se puede medir usando:
Varianza: es la distancia cuadrática promedio de todos los puntos de datos de su media. El problema con la varianza es que las unidades también se cuadrarán.
Desviación estándar: es la raíz cuadrada de la varianza. Ayuda a recuperar las unidades originales.
Rango: es la diferencia entre los valores máximo y mínimo de un conjunto de datos.
La medida | Población | Muestra |
Significar | µ = ( Σ X i ) / N | x ̄ = ( Σ x i ) / n |
Mediana | El valor medio de los datos | El valor medio de los datos |
Modo | Valor más ocurrido | Valor más ocurrido |
Diferencia | σ 2 = ( Σ X i – µ) 2 / N | s 2 = ( Σ x yo – x ̄ ) 2 / (n-1) |
Desviación Estándar | σ = raíz cuadrada (( Σ X i – µ) 2 / N) | s = raíz cuadrada (( Σ x i – x ̄ ) 2 / (n-1)) |
Distancia | Máximo minimo | Máximo minimo |
4.3. Oblicuidad (También se conoce como decisión empresarial en el tercer momento)
Mide la asimetría en los datos. Los dos tipos de asimetría son:
Positivo / sesgado a la derecha: se dice que los datos están sesgados positivamente si la mayoría de los datos se concentran en el lado izquierdo y tienen una cola hacia la derecha.
Negativo / sesgado a la izquierda: se dice que los datos están sesgados negativamente si la mayoría de los datos se concentran en el lado derecho y tienen una cola hacia la izquierda.
La fórmula de la asimetría es E [(X – µ) / σ ]) 3 = Z 3
Datos con sesgo positivo
Datos sesgados negativamente
4.4. Curtosis (También se conoce como decisión comercial del cuarto momento)
Habla sobre el pico central o la gordura de las colas. Los tres tipos de curtosis son:
Positivo / leptocúrtico: tiene picos afilados y colas más claras
Negativo / Platocurtico: Tiene picos anchos y colas más gruesas.
MesoKurtic: distribución normal
La fórmula de curtosis es E [(X – μ) / σ ]) 4 -3 = Z 4 – 3
Juntos, la asimetría y la curtosis se denominan estadísticas de forma.
5. Teorema del límite central (CLT)
En lugar de analizar los datos de toda la población, siempre sacamos una muestra para su análisis. El problema con el muestreo es que “la media de la muestra es una variable aleatoria, varía para diferentes muestras”. Y la muestra aleatoria que extraemos nunca puede ser una representación exacta de la población. Este fenómeno se denomina variación muestral.
Para anular la variación muestral, usamos el teorema del límite central. Y de acuerdo con el teorema del límite central:
- La distribución de las medias muestrales sigue una distribución normal si la población es normal.
- la distribución de las medias muestrales sigue una distribución normal aunque la población no sea normal. Pero el tamaño de la muestra debería ser lo suficientemente grande.
- El gran promedio de todos los valores medios muestrales nos da la media poblacional.
- Teóricamente, el tamaño de la muestra debería ser 30. Y prácticamente, la condición sobre el tamaño de la muestra (n) es:
n> 10 (k 3 ) 2 , donde k 3 es la asimetría de la muestra.
n> 10 (k 4 ), donde K 4 es la muestra de curtosis.
6. Distribuciones de probabilidad
En términos estadísticos, una función de distribución es una expresión matemática que describe la probabilidad de diferentes resultados posibles para un experimento.
Por favor, lea este artículo mío sobre los diferentes tipos de distribuciones de probabilidad .
7. Representaciones gráficas
La representación gráfica se refiere al uso de tablas o gráficos para visualizar, analizar e interpretar datos numéricos.
Para una sola variable (análisis univariante), tenemos un diagrama de barras, un diagrama de líneas, un diagrama de frecuencia, un diagrama de puntos, un diagrama de caja y el diagrama de QQ normal.
Discutiremos el diagrama de caja y el diagrama de QQ normal.
7.1. Diagrama de caja
Una gráfica de caja es una forma de visualizar la distribución de datos basada en un resumen de cinco números. Se utiliza para identificar los valores atípicos en los datos.
Los cinco números son mínimo, primer cuartil (Q1), mediana (Q2), tercer cuartil (Q3) y máximo.
La región de la caja contendrá el 50% de los datos. El 25% inferior de la región de datos se denomina Bigote inferior y el 25% superior de la región de datos se denomina Bigote superior.
La región intercuartil (IQR) es la diferencia entre el tercer y el primer cuartil. IQR = Q3 – Q1.
Los valores atípicos son los puntos de datos que se encuentran debajo del bigote inferior y más allá del bigote superior.
La fórmula para encontrar los valores atípicos es Valor atípico = Q ± 1.5 * (IQR)
Los valores atípicos que se encuentran debajo del bigote inferior se dan como Q1 – 1.5 * (IQR)
Los valores atípicos que se encuentran más allá del bigote superior se dan como Q3 + 1.5 * (IQR)
Boxplot
7.2. Gráfico QQ normal
Un diagrama de QQ normal es una especie de diagrama de dispersión que se traza creando dos conjuntos de cuantiles. Se utiliza para comprobar si los datos siguen la normalidad o no.
Gráfico QQ norma
En el eje x tenemos las puntuaciones Z y en el eje y tenemos los cuantiles de muestra reales. Si el diagrama de dispersión forma una línea recta, se dice que los datos son normales.
8. Prueba de hipótesis
La prueba de hipótesis en estadística es una forma de probar las suposiciones hechas sobre los parámetros de la población.