Estadistica Practica Para Ciencia De Datos Y Python High Quality Fixed -

Al escalar datos, se debe usar la media/desviación de todo el dataset antes de separar train/test.

No basta con conocer el promedio. Es vital entender la dispersión: La mediana es robusta ante outliers .

Searching through data until you find a "significant" result by chance. Summary for Career Growth Al escalar datos, se debe usar la media/desviación

You must know which distribution fits your data.

buyers = df[df.purchased == 1]['price'] non_buyers = df[df.purchased == 0]['price'] t_stat, p_value = stats.ttest_ind(buyers, non_buyers) print(f"p-value: p_value:.5f") # 0.32 Searching through data until you find a "significant"

print(f"Slope: model.coef_[0]:.3f, Intercept: model.intercept_:.3f") print(f"R²: model.score(X, y):.3f")

Modela el número de veces que ocurre un evento en un intervalo determinado de tiempo o espacio (por ejemplo, el número de usuarios que visitan un servidor web en una hora). Uso de SciPy para Modelar Distribuciones Uso de SciPy para Modelar Distribuciones Las medidas

Las medidas de tendencia central indican dónde se concentran los datos, mientras que las de dispersión miden qué tan esparcidos están. En Python, podemos calcularlas fácilmente.

X = df[['total_bill']].values y = df['tip'].values model = LinearRegression() model.fit(X, y)

from statsmodels.stats.diagnostic import het_breuschpagan bp_test = het_breuschpagan(residuals, X_sm) print(f"Breusch-Pagan p-value: bp_test[1]:.4f") # >0.05 ok

📊 Por qué la estadística (y no solo el código) es el superpoder del Data Scientist