Final_Project / app.py
GMARTINEZMILLA's picture
feat: generate the filtering by manufacturer not complete
fa210e2
raw
history blame
56.2 kB
import streamlit as st
import time
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go
import matplotlib.pyplot as plt
import numpy as np
import lightgbm as lgb
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.metrics import mean_absolute_error, mean_squared_error
from joblib import dump, load
from utils import recomienda_tf
import requests
# Page configuration
st.set_page_config(page_title="DeepInsightz", page_icon=":bar_chart:", layout="wide")
# Custom CSS for dynamic theme styling
# Streamlit detects light and dark mode automatically via the user's settings in Hugging Face Spaces
if st.get_option("theme.base") == "dark":
background_color = "#282828"
text_color = "white"
metric_box_color = "#4f4f4f"
sidebar_color = "#282828"
plot_bgcolor = "rgba(0, 0, 0, 0)"
primary_color = '#00FF00' # for positive delta
negative_color = '#FF0000' # for negative delta
else:
background_color = "#f4f4f4"
text_color = "#black"
metric_box_color = "#dee2e8"
sidebar_color = "#dee2e8"
plot_bgcolor = "#f4f4f4"
primary_color = '#228B22' # for positive delta in light mode
negative_color = '#8B0000' # for negative delta in light mode
st.markdown(f"""
<style>
body {{
background-color: {background_color};
color: {text_color};
}}
[data-testid="stMetric"] {{
background-color: {metric_box_color};
border-radius: 10px;
text-align: center;
padding: 15px 0;
margin-bottom: 20px;
}}
[data-testid="stMetricLabel"] {{
display: flex;
justify-content: center;
align-items: center;
color: {text_color};
}}
[data-testid="stSidebar"] {{
background-color: {sidebar_color};
}}
</style>
""", unsafe_allow_html=True)
# Load CSV files at the top
df = pd.read_csv("df_clean.csv")
nombres_proveedores = pd.read_csv("nombres_proveedores.csv", sep=';')
euros_proveedor = pd.read_csv("euros_proveedor.csv", sep=',')
ventas_clientes = pd.read_csv("ventas_clientes.csv", sep=',')
customer_clusters = pd.read_csv('predicts/customer_clusters.csv') # Load the customer clusters here
df_agg_2024 = pd.read_csv('predicts/df_agg_2024.csv')
pca_data_5 = pd.read_csv('pca_data.csv')
historical_data = pd.read_csv('historical_data.csv')
with st.sidebar:
st.image("logo/logo.png", use_column_width=True)
page = st.sidebar.selectbox("Selecciona la herramienta que quieres utilizar...", ["📃 Resumen", "🕵️ Análisis de Cliente", "💡 Recomendación de Artículos"])
# Generamos la columna total_sales
ventas_clientes['total_sales'] = ventas_clientes[['VENTA_2021', 'VENTA_2022', 'VENTA_2023']].sum(axis=1)
ventas_clientes_3 = ventas_clientes
ventas_clientes_3['total_sales'] = ventas_clientes['total_sales'] / 3
# Ordenar los clientes de mayor a menor según sus ventas totales
ventas_top_100 = ventas_clientes.sort_values(by='total_sales', ascending=False).head(100)
ventas_top_100['total_sales'] = ventas_top_100['total_sales'] / 3
# Ensure customer codes are strings
df['CLIENTE'] = df['CLIENTE'].astype(str)
nombres_proveedores['codigo'] = nombres_proveedores['codigo'].astype(str)
euros_proveedor['CLIENTE'] = euros_proveedor['CLIENTE'].astype(str)
customer_clusters['cliente_id'] = customer_clusters['cliente_id'].astype(str) # Ensure customer IDs are strings
fieles_df = pd.read_csv("clientes_relevantes.csv")
cestas = pd.read_csv("cestas.csv")
productos = pd.read_csv("productos.csv")
df_agg_2024['cliente_id'] = df_agg_2024['cliente_id'].astype(str)
marca_id_mapping = load('marca_id_mapping.joblib')
# Convert all columns except 'CLIENTE' to float in euros_proveedor
for col in euros_proveedor.columns:
if col != 'CLIENTE':
euros_proveedor[col] = pd.to_numeric(euros_proveedor[col], errors='coerce')
# Check for NaN values after conversion
if euros_proveedor.isna().any().any():
st.warning("Some values in euros_proveedor couldn't be converted to numbers. Please review the input data.")
# Ignore the last two columns of df
df = df.iloc[:, :-2]
# Function to get supplier name
def get_supplier_name(code):
code = str(code) # Ensure code is a string
name = nombres_proveedores[nombres_proveedores['codigo'] == code]['nombre'].values
return name[0] if len(name) > 0 else code
def image_exists(url):
"""Verifica si la imagen existe en la URL proporcionada"""
response = requests.head(url)
return response.status_code == 200
def get_supplier_name_encoded(encoded_code):
try:
# Ensure the encoded code is an integer
encoded_code = int(encoded_code)
print(f"Encoded Code: {encoded_code}")
# Use the label encoder to map the encoded code back to the original manufacturer code
if encoded_code < len(marca_id_mapping.classes_):
real_code = marca_id_mapping.inverse_transform([encoded_code])[0]
print(f"Real Manufacturer Code: {real_code}")
else:
print(f"Encoded code not found in the label encoder: {encoded_code}")
return f"Unknown code: {encoded_code}" # Handle case where encoded code is not found
# Now, use the real_code to find the manufacturer name in nombres_proveedores
name = nombres_proveedores[nombres_proveedores['codigo'] == str(real_code)]['nombre'].values
print(f"Manufacturer Name Found: {name}") # Check what name is returned
# Return the manufacturer name if found, otherwise return the real_code
return name[0] if len(name) > 0 else real_code
except Exception as e:
print(f"Error encountered: {e}")
return f"Error for code: {encoded_code}"
# Custom Donut Chart with Plotly for Inbound/Outbound Percentage
def create_donut_chart(values, labels, color_scheme, title):
fig = px.pie(
values=values,
names=labels,
hole=0.7,
color_discrete_sequence=color_scheme
)
fig.update_traces(textinfo='percent+label', hoverinfo='label+percent', textposition='inside', showlegend=False)
fig.update_layout(
annotations=[dict(text=f"{int(values[1])}%", x=0.5, y=0.5, font_size=40, showarrow=False)],
title=title,
height=300,
margin=dict(t=30, b=10, l=10, r=10),
paper_bgcolor=plot_bgcolor, # Use theme-dependent background color
plot_bgcolor=plot_bgcolor
)
return fig
# Donut chart with color scheme based on theme
if st.get_option("theme.base") == "dark":
donut_color_scheme = ['#155F7A', '#29b5e8'] # Dark mode colors
else:
donut_color_scheme = ['#007BFF', '#66b5ff'] # Light mode colors
# Function to create radar chart with square root transformation
def radar_chart(categories, values, amounts, title):
N = len(categories)
angles = [n / float(N) * 2 * np.pi for n in range(N)]
angles += angles[:1]
fig, ax = plt.subplots(figsize=(12, 12), subplot_kw=dict(projection='polar'))
# Apply square root transformation
sqrt_values = np.sqrt(values)
sqrt_amounts = np.sqrt(amounts)
max_sqrt_value = max(sqrt_values)
normalized_values = [v / max_sqrt_value for v in sqrt_values]
# Adjust scaling for spend values
max_sqrt_amount = max(sqrt_amounts)
scaling_factor = 0.7 # Adjust this value to control how much the spend values are scaled up
normalized_amounts = [min((a / max_sqrt_amount) * scaling_factor, 1.0) for a in sqrt_amounts]
normalized_values += normalized_values[:1]
ax.plot(angles, normalized_values, 'o-', linewidth=2, color='#FF69B4', label='% Units (sqrt)')
ax.fill(angles, normalized_values, alpha=0.25, color='#FF69B4')
normalized_amounts += normalized_amounts[:1]
ax.plot(angles, normalized_amounts, 'o-', linewidth=2, color='#4B0082', label='% Spend (sqrt)')
ax.fill(angles, normalized_amounts, alpha=0.25, color='#4B0082')
ax.set_xticks(angles[:-1])
ax.set_xticklabels(categories, size=8, wrap=True)
ax.set_ylim(0, 1)
circles = np.linspace(0, 1, 5)
for circle in circles:
ax.plot(angles, [circle]*len(angles), '--', color='gray', alpha=0.3, linewidth=0.5)
ax.set_yticklabels([])
ax.spines['polar'].set_visible(False)
plt.title(title, size=16, y=1.1)
plt.legend(loc='upper right', bbox_to_anchor=(1.3, 1.1))
return fig
if page == "📃 Resumen":
# st.title("Welcome to DeepInsightz")
# st.markdown("""
# ### Data-driven Customer Clustering
# We analyzed thousands of customers and suppliers to help businesses make smarter sales decisions.
# """)
# Create layout with three columns
col1, col2, col3 = st.columns((1.5, 4, 2.5), gap='medium')
# Left Column (Red): Metrics and Donut Charts
with col1:
st.markdown('#### Información General')
st.metric(label="Rango de fechas", value="2021-2023")
st.metric(label="Clientes analizados", value="3.000")
st.metric(label="Productos únicos vendidos", value="10.702")
st.metric(label="Líneas de venta totales", value="764.396")
# Middle Column (White): 3D Cluster Model and Bar Chart
with col2:
st.markdown('#### Cluster de Clientes 3D')
# Create 3D PCA plot using actual data from pca_data_5
fig_cluster = px.scatter_3d(
pca_data_5,
x='PC1',
y='PC2',
z='PC3',
color='cluster_id',
hover_name='CustomerID',
color_continuous_scale='Turbo'
)
fig_cluster.update_layout(
scene=dict(aspectratio=dict(x=1, y=1, z=0.8)), # Adjusted aspect ratio for better balance
margin=dict(t=10, b=10, l=10, r=10), # Tighten margins further
height=600, # Slightly increased height for better visibility
)
st.plotly_chart(fig_cluster, use_container_width=True)
# Right Column (Blue): Key Metrics Overview and Data Preparation Summary
with col3:
# Mostrar la tabla con los 100 mejores clientes
st.markdown('#### Top 100 Clientes')
# Configurar columnas para mostrar los clientes y las ventas totales
st.dataframe(ventas_top_100[['codigo_cliente', 'total_sales']],
column_order=("codigo_cliente", "total_sales"),
hide_index=True,
width=350, # Ajustar el ancho de la tabla
height=400, # Ajustar la altura de la tabla
column_config={
"codigo_cliente": st.column_config.TextColumn(
"Código de Cliente",
),
"total_sales": st.column_config.ProgressColumn(
"Venta Total (€)",
format="%d",
min_value=0,
max_value=ventas_top_100['total_sales'].max()
)}
)
# Calculate sales insights
sales_min = ventas_clientes[ventas_clientes['total_sales'] > 0]['total_sales'].min()
sales_max = ventas_clientes['total_sales'].max()
sales_median = ventas_clientes['total_sales'].median()
sales_90th = ventas_clientes['total_sales'].quantile(0.9)
sales_10th = ventas_clientes['total_sales'].quantile(0.1)
# About Section with relevant data insights
with st.expander('Clientes al detalle', expanded=True):
st.write(f'''
- **Venta Mediana**: €{sales_median:,.0f} .
- **Percentil 90**: €{sales_90th:,.0f}.
- **Percentil 10**: €{sales_10th:,.0f}.
''')
# Customer Analysis Page
elif page == "🕵️ Análisis de Cliente":
st.markdown("""
<h2 style='text-align: center; font-size: 2.5rem;'>Análisis de Cliente</h2>
<p style='text-align: center; font-size: 1.2rem; color: gray;'>
Introduce el código del cliente para explorar información detallada del mismo, incluyendo ventas anteriores, predicciones para el año actual e información específica por fabricante.
</p>
""", unsafe_allow_html=True)
# Combine text input and dropdown into a single searchable selectbox
customer_code = st.selectbox(
"Escribe o selecciona el código de tu cliente",
df['CLIENTE'].unique(), # All customer codes
format_func=lambda x: str(x), # Ensures the values are displayed as strings
help="Start typing to search for a specific customer code"
)
# Fabricante dropdown (with 'Todos' option)
fabricantes = ["Todos"] + list(nombres_proveedores['nombre'].unique()) # Agregar la opción 'Todos'
fabricante_seleccionado = st.selectbox(
"Selecciona el fabricante (o Todos)",
fabricantes,
help="Selecciona un fabricante específico o 'Todos' para ver todos los fabricantes"
)
if st.button("Calcular"):
if customer_code:
with st.spinner("Estamos identificando el grupo del cliente..."):
# Find Customer's Cluster
customer_match = customer_clusters[customer_clusters['cliente_id'] == customer_code]
time.sleep(1)
if not customer_match.empty:
cluster = customer_match['cluster_id'].values[0]
if fabricante_seleccionado == "Todos":
# Actuar como el comportamiento actual
with st.spinner(f"Seleccionando el modelo predictivo..."):
# Load the Corresponding Model
model_path = f'models/modelo_cluster_{cluster}.txt'
gbm = lgb.Booster(model_file=model_path)
with st.spinner("Preparando los datos..."):
# Load predict data for that cluster
predict_data = pd.read_csv(f'predicts/predict_cluster_{cluster}.csv')
# Convert cliente_id to string
predict_data['cliente_id'] = predict_data['cliente_id'].astype(str)
with st.spinner("Filtrando data..."):
# Filter for the specific customer
customer_code_str = str(customer_code)
customer_data = predict_data[predict_data['cliente_id'] == customer_code_str]
with st.spinner("Geneerando predicciones de venta..."):
if not customer_data.empty:
# Define features consistently with the training process
lag_features = [f'precio_total_lag_{lag}' for lag in range(1, 25)]
features = lag_features + ['mes', 'marca_id_encoded', 'año', 'cluster_id']
# Prepare data for prediction
X_predict = customer_data[features]
# Convert categorical features to 'category' dtype
categorical_features = ['mes', 'marca_id_encoded', 'cluster_id']
for feature in categorical_features:
X_predict[feature] = X_predict[feature].astype('category')
# Make Prediction for the selected customer
y_pred = gbm.predict(X_predict, num_iteration=gbm.best_iteration)
# Reassemble the results
results = customer_data[['cliente_id', 'marca_id_encoded', 'fecha_mes']].copy()
results['ventas_predichas'] = y_pred
# Load actual data from df_agg_2024
actual_sales = df_agg_2024[df_agg_2024['cliente_id'] == customer_code_str]
if not actual_sales.empty:
# Merge predictions with actual sales
results = results.merge(actual_sales[['cliente_id', 'marca_id_encoded', 'fecha_mes', 'precio_total']],
on=['cliente_id', 'marca_id_encoded', 'fecha_mes'],
how='left')
results.rename(columns={'precio_total': 'ventas_reales'}, inplace=True)
else:
# If no actual sales data for 2024, fill 'ventas_reales' with 0
results['ventas_reales'] = 0
# Ensure any missing sales data is filled with 0
results['ventas_reales'].fillna(0, inplace=True)
# Define the cutoff date for the last 12 months
fecha_inicio = pd.to_datetime("2023-01-01")
fecha_corte = pd.to_datetime("2024-09-01")
# Convertir fecha_mes a datetime en el DataFrame historical_data
historical_data['fecha_mes'] = pd.to_datetime(historical_data['fecha_mes'], errors='coerce')
# Ensure cliente_id is of type string and strip any leading/trailing whitespace
historical_data['cliente_id'] = historical_data['cliente_id'].astype(str).str.strip()
customer_code_str = str(customer_code).strip() # Ensure the customer code is also properly formatted
filtered_historical_data = historical_data[historical_data['cliente_id'] == customer_code_str]
# Filtrar los datos históricos por cliente y por el rango de fechas (2023)
fecha_inicio_2023 = pd.to_datetime("2023-01-01")
fecha_fin_2023 = pd.to_datetime("2023-12-31")
datos_historicos = historical_data[
(historical_data['cliente_id'] == customer_code_str) &
(historical_data['fecha_mes'] >= fecha_inicio_2023) &
(historical_data['fecha_mes'] <= fecha_fin_2023)
].groupby('fecha_mes')['precio_total'].sum().reset_index()
# Renombrar la columna 'precio_total' a 'ventas_historicas' si no está vacía
if not datos_historicos.empty:
datos_historicos.rename(columns={'precio_total': 'ventas_historicas'}, inplace=True)
else:
# Si los datos históricos están vacíos, generar fechas de 2023 con ventas_historicas = 0
fechas_2023 = pd.date_range(start='2023-01-01', end='2023-12-31', freq='M')
datos_historicos = pd.DataFrame({'fecha_mes': fechas_2023, 'ventas_historicas': [0] * len(fechas_2023)})
# Filtrar los datos de predicciones y ventas reales para 2024
datos_cliente_total = results.groupby('fecha_mes').agg({
'ventas_reales': 'sum',
'ventas_predichas': 'sum'
}).reset_index()
# Asegurarnos de que fecha_mes en datos_cliente_total es datetime
datos_cliente_total['fecha_mes'] = pd.to_datetime(datos_cliente_total['fecha_mes'], errors='coerce')
# Generar un rango de fechas para 2024 si no hay predicciones
fechas_2024 = pd.date_range(start='2024-01-01', end='2024-12-31', freq='M')
fechas_df_2024 = pd.DataFrame({'fecha_mes': fechas_2024})
# Asegurarnos de que fecha_mes en fechas_df_2024 es datetime
fechas_df_2024['fecha_mes'] = pd.to_datetime(fechas_df_2024['fecha_mes'], errors='coerce')
# Combinar datos históricos con predicciones y ventas reales usando un merge
# Usamos how='outer' para asegurarnos de incluir todas las fechas de 2023 y 2024
datos_combinados = pd.merge(datos_historicos, datos_cliente_total, on='fecha_mes', how='outer').sort_values('fecha_mes')
# Rellenar los NaN: 0 en ventas_historicas donde faltan predicciones, y viceversa
datos_combinados['ventas_historicas'].fillna(0, inplace=True)
datos_combinados['ventas_predichas'].fillna(0, inplace=True)
datos_combinados['ventas_reales'].fillna(0, inplace=True)
# Crear la gráfica con Plotly
fig = go.Figure()
# Graficar ventas históricas
fig.add_trace(go.Scatter(
x=datos_combinados['fecha_mes'],
y=datos_combinados['ventas_historicas'],
mode='lines+markers',
name='Ventas Históricas',
line=dict(color='blue')
))
# Graficar ventas predichas
fig.add_trace(go.Scatter(
x=datos_combinados['fecha_mes'],
y=datos_combinados['ventas_predichas'],
mode='lines+markers',
name='Ventas Predichas',
line=dict(color='orange')
))
# Graficar ventas reales
fig.add_trace(go.Scatter(
x=datos_combinados['fecha_mes'],
y=datos_combinados['ventas_reales'],
mode='lines+markers',
name='Ventas Reales',
line=dict(color='green')
))
# Personalizar el layout para enfocarse en 2023 y 2024
fig.update_layout(
title=f"Ventas Históricas, Predichas y Reales para Cliente {customer_code}",
xaxis_title="Fecha",
yaxis_title="Ventas (€)",
height=600,
xaxis_range=[fecha_inicio_2023, pd.to_datetime("2024-09-30")], # Ajustar el rango del eje x a 2023-2024
legend_title="Tipo de Ventas",
hovermode="x unified"
)
# Mostrar la gráfica en Streamlit
st.plotly_chart(fig)
# Calculate metrics for 2024 data
datos_2024 = datos_combinados[datos_combinados['fecha_mes'].dt.year == 2024]
actual = datos_2024['ventas_reales']
predicted = datos_2024['ventas_predichas']
def calculate_mape(y_true, y_pred):
mask = y_true != 0
return np.mean(np.abs((y_true[mask] - y_pred[mask]) / y_true[mask])) * 100
mae = mean_absolute_error(actual, predicted)
mse = mean_squared_error(actual, predicted)
rmse = np.sqrt(mse)
mape = calculate_mape(actual, predicted)
smape = np.mean(2 * np.abs(actual - predicted) / (np.abs(actual) + np.abs(predicted))) * 100
# Display metrics
st.subheader("Métricas de Predicción (2024)")
col1, col2, col3, col4 = st.columns(4)
col1.metric("MAE", f"{mae:.2f} €",help="Promedio de la diferencia absoluta entre las predicciones y los valores reales.")
col2.metric("MAPE", f"{mape:.2f}%",help="Porcentaje promedio de error en las predicciones.")
col3.metric("RMSE", f"{rmse:.2f} €",help="Medida de la desviación estándar de los residuos de predicción.")
col4.metric("SMAPE", f"{smape:.2f}%",help="Alternativa al MAPE que maneja mejor los valores cercanos a cero.")
# Split space into two columns
col1, col2 = st.columns(2)
# Column 1: Radar chart for top manufacturers
with col1:
st.subheader("¡Esto tiene buena pinta!")
st.info("Su cliente ha superado las ventas predichas de las siguientes marcas:")
# Group results by manufacturer to calculate the total predicted and actual sales
grouped_results = results.groupby('marca_id_encoded').agg({
'ventas_reales': 'sum',
'ventas_predichas': 'sum'
}).reset_index()
# Identify manufacturers that exceeded predicted sales
overperforming_manufacturers = grouped_results[grouped_results['ventas_reales'] > grouped_results['ventas_predichas']].copy()
if not overperforming_manufacturers.empty:
# Calculate the extra amount (difference between actual and predicted sales)
overperforming_manufacturers['extra_amount'] = overperforming_manufacturers['ventas_reales'] - overperforming_manufacturers['ventas_predichas']
# Sort by the highest extra amount
overperforming_manufacturers = overperforming_manufacturers.sort_values(by='extra_amount', ascending=False)
# Limit to top 10 overperforming manufacturers
top_overperformers = overperforming_manufacturers.head(10)
# Display two cards per row
for i in range(0, len(top_overperformers), 2):
cols = st.columns(2) # Create two columns for two cards in a row
for j, col in enumerate(cols):
if i + j < len(top_overperformers):
row = top_overperformers.iloc[i + j]
manufacturer_name = get_supplier_name_encoded(row['marca_id_encoded'])
predicted = row['ventas_predichas']
actual = row['ventas_reales']
extra = row['extra_amount']
# Use st.metric for compact display in each column
with col:
st.metric(
label=f"{manufacturer_name}",
value=f"{actual:.2f}€",
delta=f"Exceeded by {extra:.2f}€",
delta_color="normal"
)
# Radar chart logic remains the same
customer_df = df[df["CLIENTE"] == str(customer_code)]
all_manufacturers = customer_df.iloc[:, 1:].T
all_manufacturers.index = all_manufacturers.index.astype(str)
customer_euros = euros_proveedor[euros_proveedor["CLIENTE"] == str(customer_code)]
sales_data = customer_euros.iloc[:, 1:].T
sales_data.index = sales_data.index.astype(str)
sales_data_filtered = sales_data.drop(index='CLIENTE', errors='ignore')
sales_data_filtered = sales_data_filtered.apply(pd.to_numeric, errors='coerce')
all_manufacturers = all_manufacturers.apply(pd.to_numeric, errors='coerce')
top_units = all_manufacturers.sort_values(by=all_manufacturers.columns[0], ascending=False).head(10)
top_sales = sales_data_filtered.sort_values(by=sales_data_filtered.columns[0], ascending=False).head(10)
combined_top = pd.concat([top_units, top_sales]).index.unique()[:20]
combined_top = [m for m in combined_top if m in all_manufacturers.index and m in sales_data_filtered.index]
if combined_top:
combined_data = pd.DataFrame({
'units': all_manufacturers.loc[combined_top, all_manufacturers.columns[0]],
'sales': sales_data_filtered.loc[combined_top, sales_data_filtered.columns[0]]
}).fillna(0)
combined_data_sorted = combined_data.sort_values(by=['units', 'sales'], ascending=False)
non_zero_manufacturers = combined_data_sorted[combined_data_sorted['units'] > 0]
if len(non_zero_manufacturers) < 3:
zero_manufacturers = combined_data_sorted[combined_data_sorted['units'] == 0].head(3 - len(non_zero_manufacturers))
manufacturers_to_show = pd.concat([non_zero_manufacturers, zero_manufacturers])
else:
manufacturers_to_show = non_zero_manufacturers
values = manufacturers_to_show['units'].tolist()
amounts = manufacturers_to_show['sales'].tolist()
manufacturers = [get_supplier_name(m) for m in manufacturers_to_show.index]
if manufacturers:
fig = radar_chart(manufacturers, values, amounts, f'Gráfico de radar para los {len(manufacturers)} principales fabricantes del cliente {customer_code}')
st.pyplot(fig)
# Column 2: Alerts and additional analysis
with col2:
st.subheader("¡Puede que tengas que revisar esto!")
st.warning("Se esperaba que tu cliente comprara más productos de las siguientes marcas:")
# Group results by manufacturer to calculate the total predicted and actual sales
grouped_results = results.groupby('marca_id_encoded').agg({
'ventas_reales': 'sum',
'ventas_predichas': 'sum'
}).reset_index()
# Identify manufacturers that didn't meet predicted sales
underperforming_manufacturers = grouped_results[grouped_results['ventas_reales'] < grouped_results['ventas_predichas']].copy()
if not underperforming_manufacturers.empty:
# Calculate the missed amount
underperforming_manufacturers['missed_amount'] = underperforming_manufacturers['ventas_predichas'] - underperforming_manufacturers['ventas_reales']
# Sort by the highest missed amount
underperforming_manufacturers = underperforming_manufacturers.sort_values(by='missed_amount', ascending=False)
# Limit to top 10 missed amounts
top_misses = underperforming_manufacturers.head(10)
# Display two cards per row
for i in range(0, len(top_misses), 2):
cols = st.columns(2) # Create two columns for two cards in a row
for j, col in enumerate(cols):
if i + j < len(top_misses):
row = top_misses.iloc[i + j]
manufacturer_name = get_supplier_name_encoded(row['marca_id_encoded'])
predicted = row['ventas_predichas']
actual = row['ventas_reales']
missed = row['missed_amount']
# Use st.metric for compact display in each column
with col:
st.metric(
label=f"{manufacturer_name}",
value=f"{actual:.2f}€",
delta=f"Missed by {missed:.2f}€",
delta_color="inverse"
)
else:
st.success("All manufacturers have met or exceeded predicted sales.")
# Gráfico de ventas anuales
ventas_clientes['codigo_cliente'] = ventas_clientes['codigo_cliente'].astype(str).str.strip()
sales_columns = ['VENTA_2021', 'VENTA_2022', 'VENTA_2023']
if all(col in ventas_clientes.columns for col in sales_columns):
customer_sales_data = ventas_clientes[ventas_clientes['codigo_cliente'] == customer_code]
if not customer_sales_data.empty:
customer_sales = customer_sales_data[sales_columns].values[0]
years = ['2021', '2022', '2023']
# Convert 'fecha_mes' to datetime format if it's not already
if not pd.api.types.is_datetime64_any_dtype(results['fecha_mes']):
results['fecha_mes'] = pd.to_datetime(results['fecha_mes'], errors='coerce')
# Add the 2024 actual and predicted data
if 'ventas_predichas' in results.columns and 'ventas_reales' in results.columns:
actual_sales_2024 = results[results['fecha_mes'].dt.year == 2024]['ventas_reales'].sum()
predicted_sales_2024 = results[results['fecha_mes'].dt.year == 2024]['ventas_predichas'].sum()
# Assuming only 9 months of actual data are available, annualize the sales
months_available = 9
actual_sales_2024_annual = (actual_sales_2024 / months_available) * 12
# Prepare data for the bar chart
sales_values = list(customer_sales) + [actual_sales_2024_annual]
predicted_values = list(customer_sales) + [predicted_sales_2024]
years.append('2024')
# Create the bar chart for historical and 2024 data
fig_sales_bar = go.Figure()
fig_sales_bar.add_trace(go.Bar(
x=years[:3],
y=sales_values[:3],
name="Historical Sales",
marker_color='blue'
))
fig_sales_bar.add_trace(go.Bar(
x=[years[3]],
y=[sales_values[3]],
name="2024 Actual Sales (Annualized)",
marker_color='green'
))
fig_sales_bar.add_trace(go.Bar(
x=[years[3]],
y=[predicted_values[3]],
name="2024 Predicted Sales",
marker_color='orange'
))
# Customize layout
fig_sales_bar.update_layout(
title=f"Ventas anuales de tu cliente",
xaxis_title="Year",
yaxis_title="Sales (€)",
barmode='group',
height=600,
legend_title_text="Sales Type",
hovermode="x unified"
)
# Display the chart
st.plotly_chart(fig_sales_bar, use_container_width=True)
else:
st.warning(f"No predicted or actual data found for customer {customer_code} for 2024.")
else:
with st.spinner(f"Seleccionando el modelo predictivo..."):
# Load the Corresponding Model
model_path = f'models/modelo_cluster_{cluster}.txt'
gbm = lgb.Booster(model_file=model_path)
with st.spinner(f"Mostrando datos para el fabricante {fabricante_seleccionado}..."):
# Mostrar el cliente y el fabricante seleccionados
st.write(f"**Cliente seleccionado:** {customer_code}")
st.write(f"**Fabricante seleccionado:** {fabricante_seleccionado}")
# Obtener el código del fabricante seleccionado
codigo_fabricante_seleccionado = np.int64(nombres_proveedores[nombres_proveedores['nombre'] == fabricante_seleccionado]['codigo'].values[0])
st.write(f"**Código fabricante seleccionado:** {codigo_fabricante_seleccionado}")
# Verificar si el código está presente en el LabelEncoder y obtener su encoded
if codigo_fabricante_seleccionado in marca_id_mapping.classes_:
codigo_fabricante_encoded = marca_id_mapping.transform([codigo_fabricante_seleccionado])[0]
st.write(f"**Código fabricante encoded (marca_id_encoded):** {codigo_fabricante_encoded}")
# Filtrar datos solo para este fabricante
with st.spinner("Preparando los datos..."):
predict_data = pd.read_csv(f'predicts/predict_cluster_{cluster}.csv')
predict_data['cliente_id'] = predict_data['cliente_id'].astype(str)
customer_code_str = str(customer_code)
customer_data = predict_data[(predict_data['cliente_id'] == customer_code_str) &
(predict_data['marca_id_encoded'] == codigo_fabricante_encoded)]
with st.spinner("Generando predicciones de venta..."):
if not customer_data.empty:
# Preparar las características
lag_features = [f'precio_total_lag_{lag}' for lag in range(1, 25)]
features = lag_features + ['mes', 'marca_id_encoded', 'año', 'cluster_id']
X_predict = customer_data[features]
# Convertir las características categóricas a su dtype correspondiente
categorical_features = ['mes', 'marca_id_encoded', 'cluster_id']
for feature in categorical_features:
X_predict[feature] = X_predict[feature].astype('category')
# Realizar la predicción
y_pred = gbm.predict(X_predict, num_iteration=gbm.best_iteration)
results = customer_data[['cliente_id', 'marca_id_encoded', 'fecha_mes']].copy()
results['ventas_predichas'] = y_pred
# Cargar datos reales para 2024
actual_sales = df_agg_2024[(df_agg_2024['cliente_id'] == customer_code_str) &
(df_agg_2024['marca_id_encoded'] == codigo_fabricante_encoded)]
if not actual_sales.empty:
results = results.merge(actual_sales[['cliente_id', 'marca_id_encoded', 'fecha_mes', 'precio_total']],
on=['cliente_id', 'marca_id_encoded', 'fecha_mes'], how='left')
results.rename(columns={'precio_total': 'ventas_reales'}, inplace=True)
else:
results['ventas_reales'] = 0
results['ventas_reales'].fillna(0, inplace=True)
# Generar gráfica y métricas
results['fecha_mes'] = pd.to_datetime(results['fecha_mes'], errors='coerce')
if not pd.api.types.is_datetime64_any_dtype(df_agg_2024['fecha_mes']):
df_agg_2024['fecha_mes'] = pd.to_datetime(df_agg_2024['fecha_mes'], errors='coerce')
fecha_inicio_2023 = pd.to_datetime("2023-01-01")
fecha_fin_2023 = pd.to_datetime("2023-12-31")
datos_cliente_total = results.groupby('fecha_mes').agg({'ventas_reales': 'sum', 'ventas_predichas': 'sum'}).reset_index()
# Crear la gráfica
fig = go.Figure()
fig.add_trace(go.Scatter(x=datos_cliente_total['fecha_mes'], y=datos_cliente_total['ventas_predichas'],
mode='lines+markers', name='Ventas Predichas', line=dict(color='orange')))
fig.add_trace(go.Scatter(x=datos_cliente_total['fecha_mes'], y=datos_cliente_total['ventas_reales'],
mode='lines+markers', name='Ventas Reales', line=dict(color='green')))
fig.update_layout(title=f"Ventas Predichas y Reales para Cliente {customer_code} y Fabricante {fabricante_seleccionado}",
xaxis_title="Fecha", yaxis_title="Ventas (€)", height=600)
st.plotly_chart(fig)
# Cálculo de métricas
datos_2024 = datos_cliente_total[datos_cliente_total['fecha_mes'].dt.year == 2024]
actual = datos_2024['ventas_reales']
predicted = datos_2024['ventas_predichas']
mae = mean_absolute_error(actual, predicted)
mse = mean_squared_error(actual, predicted)
rmse = np.sqrt(mse)
mape = np.mean(np.abs((actual - predicted) / actual)) * 100 if not actual.empty else 0
smape = np.mean(2 * np.abs(actual - predicted) / (np.abs(actual) + np.abs(predicted))) * 100 if not actual.empty else 0
# Mostrar métricas
st.subheader("Métricas de Predicción (2024)")
col1, col2, col3, col4 = st.columns(4)
col1.metric("MAE", f"{mae:.2f} €")
col2.metric("MAPE", f"{mape:.2f}%")
col3.metric("RMSE", f"{rmse:.2f} €")
col4.metric("SMAPE", f"{smape:.2f}%")
else:
st.warning(f"No se encontraron datos para el cliente {customer_code} y el fabricante {fabricante_seleccionado}.")
else:
st.warning(f"El código de fabricante {codigo_fabricante_seleccionado} no se encuentra en el LabelEncoder.")
# else:
# with st.spinner(f"Mostrando datos para el fabricante {fabricante_seleccionado}..."):
# # Mostrar el cliente y el fabricante seleccionados
# st.write(f"**Cliente seleccionado:** {customer_code}")
# st.write(f"**Fabricante seleccionado:** {fabricante_seleccionado}")
# codigo_fabricante_seleccionado = np.int64(nombres_proveedores[nombres_proveedores['nombre'] == fabricante_seleccionado]['codigo'].values[0])
# st.write(f"**Código fabricante seleccionado:** {codigo_fabricante_seleccionado}")
# if codigo_fabricante_seleccionado in marca_id_mapping.classes_:
# # Si el código está en el LabelEncoder, hacer la transformación
# codigo_fabricante_encoded = marca_id_mapping.transform([codigo_fabricante_seleccionado])[0]
# st.write(f"**Código fabricante encoded (marca_id_encoded):** {codigo_fabricante_encoded}")
# else:
# # Si el código no se encuentra en el LabelEncoder, mostrar advertencia y los códigos disponibles
# st.warning(f"El código de fabricante {codigo_fabricante_seleccionado} no se encuentra en el LabelEncoder.")
# st.write("Lista de códigos de fabricantes disponibles en el LabelEncoder:")
# # Imprimir los códigos disponibles y su tipo
# available_codes = marca_id_mapping.classes_
# st.write(f"**Códigos disponibles:** {available_codes}")
# st.write(f"**Tipo de los códigos disponibles:** {type(available_codes[0])}")
# Customer Recommendations Page
elif page == "💡 Recomendación de Artículos":
# Carga de CSV necesarios cestas y productos
cestas = pd.read_csv('cestas.csv')
productos = pd.read_csv('productos.csv')
# Estilo principal de la página
st.markdown(
"<h1 style='text-align: center;'>Recomendación de Artículos</h1>",
unsafe_allow_html=True
)
st.markdown("""<p style='text-align: center; color: #5D6D7E;'>Obtén recomendaciones personalizadas para tus clientes basadas en su cesta de compra.</p>""", unsafe_allow_html=True)
st.write("### Selecciona los artículos y asigna las cantidades para la cesta:")
# Añadir separador para mejorar la segmentación visual
st.divider()
# Mostrar lista de artículos disponibles (ahora se usa el código asociado a cada descripción)
available_articles = productos[['ARTICULO', 'DESCRIPCION']].drop_duplicates()
# Crear diccionario para asignar las descripciones a los códigos
article_dict = dict(zip(available_articles['DESCRIPCION'], available_articles['ARTICULO']))
# Permitir seleccionar las descripciones, pero trabajar con los códigos
selected_descriptions = st.multiselect("Selecciona los artículos", available_articles['DESCRIPCION'].unique())
quantities = {}
if selected_descriptions:
st.write("### Selecciona los artículos, las unidades, y visualiza la imagen:")
for description in selected_descriptions:
code = article_dict[description] # Usar el código del artículo
col1, col2, col3 = st.columns([1, 2, 2]) # Ajustar proporciones para que las imágenes y textos se alineen
with col1:
# Mostrar la imagen del artículo
img_url = f"https://www.saneamiento-martinez.com/imagenes/articulos/{code}_1.JPG"
st.image(img_url, width=100)
with col2:
# Mostrar la descripción del artículo
st.write(f"**{description}**")
with col3:
# Caja de número para la cantidad, asociada al código
quantities[code] = st.number_input(f"Cantidad {code}", min_value=0, step=1, key=code)
# Añadir un botón estilizado "Calcular" con icono
if st.button("🛒 Obtener Recomendaciones"):
# Crear una lista de artículos basada en los códigos y cantidades
new_basket = []
for code in quantities:
quantity = quantities[code]
if quantity > 0:
new_basket.extend([code] * quantity) # Añadir el código tantas veces como 'quantity'
if new_basket:
# Procesar la lista para recomendar utilizando tu función 'recomienda_tf'
recommendations_df = recomienda_tf(new_basket, cestas, productos)
if not recommendations_df.empty:
st.success("### Según tu cesta, te recomendamos que consideres añadir estos artículos:")
# Mostrar los artículos recomendados con imágenes y relevancia
for idx, row in recommendations_df.iterrows():
rec_code = row['ARTICULO']
rec_desc = row['DESCRIPCION']
rec_relevance = row['RELEVANCIA'] # Usar la relevancia calculada
rec_img_url = f"https://www.saneamiento-martinez.com/imagenes/articulos/{rec_code}_1.JPG"
# Verificar si la imagen existe antes de mostrar el artículo
if image_exists(rec_img_url):
rec_col1, rec_col2, rec_col3 = st.columns([1, 3, 1]) # Añadir una columna para la relevancia
with rec_col1:
st.image(rec_img_url, width=100)
with rec_col2:
st.write(f"**{rec_desc}** (Código: {rec_code})")
with rec_col3:
st.metric(label="Relevancia",value =f"{rec_relevance * 100:.2f}%") # Mostrar la relevancia con 4 decimales
else:
st.warning("⚠️ No se encontraron recomendaciones para la cesta proporcionada.")
else:
st.warning("⚠️ Por favor selecciona al menos un artículo y define su cantidad.")
# elif page == "💡 Recomendación de Artículos":
# # Carga de CSV necesarios cestas y productos
# cestas = pd.read_csv('cestas.csv')
# productos = pd.read_csv('productos.csv')
# # Estilo principal de la página
# st.markdown(
# "<h1 style='text-align: center;'>Recomendación de Artículos</h1>",
# unsafe_allow_html=True
# )
# st.markdown("""
# <p style='text-align: center; color: #5D6D7E;'>Obtén recomendaciones personalizadas para tus clientes basadas en su cesta de compra.</p>
# """, unsafe_allow_html=True)
# st.write("### Selecciona los artículos y asigna las cantidades para la cesta:")
# # Añadir separador para mejorar la segmentación visual
# st.divider()
# # Mostrar lista de artículos disponibles (ahora se usa el código asociado a cada descripción)
# available_articles = productos[['ARTICULO', 'DESCRIPCION']].drop_duplicates()
# # Crear diccionario para asignar las descripciones a los códigos
# article_dict = dict(zip(available_articles['DESCRIPCION'], available_articles['ARTICULO']))
# # Permitir seleccionar las descripciones, pero trabajar con los códigos
# selected_descriptions = st.multiselect("Select Articles", available_articles['DESCRIPCION'].unique())
# quantities = {}
# if selected_descriptions:
# st.write("### Selecciona los artículos y las unidades:")
# for description in selected_descriptions:
# code = article_dict[description] # Usar el código del artículo
# col1, col2 = st.columns([1, 3]) # Ajustar proporciones para que las cantidades vayan a la izquierda
# with col1:
# # Caja de número para la cantidad, asociada al código
# quantities[code] = st.number_input(f"Quantity {code}", min_value=0, step=1, key=code)
# with col2:
# # Mostrar la descripción del artículo
# st.write(description)
# # Añadir un botón estilizado "Calcular" con icono
# if st.button("🛒 Obtener Recomendaciones"):
# # Crear una lista de artículos basada en los códigos y cantidades
# new_basket = []
# for code in quantities:
# quantity = quantities[code]
# if quantity > 0:
# new_basket.extend([code] * quantity) # Añadir el código tantas veces como 'quantity'
# if new_basket:
# # Procesar la lista para recomendar
# recommendations_df = recomienda_tf(new_basket, cestas, productos)
# if not recommendations_df.empty:
# st.success("### Según tu cesta, te recomendamos que consideres añadir uno de estos artículos:")
# st.dataframe(recommendations_df, height=300, width=800) # Ajustar el tamaño del DataFrame
# else:
# st.warning("⚠️ No recommendations found for the provided basket.")
# else:
# st.warning("⚠️ Please select at least one article and set its quantity.")
# # Gráfico adicional: Comparar las ventas predichas y reales para los principales fabricantes
# st.markdown("### Predicted vs Actual Sales for Top Manufacturers")
# top_manufacturers = results.groupby('marca_id_encoded').agg({'ventas_reales': 'sum', 'ventas_predichas': 'sum'}).sort_values(by='ventas_reales', ascending=False).head(10)
# fig_comparison = go.Figure()
# fig_comparison.add_trace(go.Bar(x=top_manufacturers.index, y=top_manufacturers['ventas_reales'], name="Actual Sales", marker_color='blue'))
# fig_comparison.add_trace(go.Bar(x=top_manufacturers.index, y=top_manufacturers['ventas_predichas'], name="Predicted Sales", marker_color='orange'))
# fig_comparison.update_layout(
# title="Actual vs Predicted Sales by Top Manufacturers",
# xaxis_title="Manufacturer",
# yaxis_title="Sales (€)",
# barmode='group',
# height=400,
# hovermode="x unified"
# )
# st.plotly_chart(fig_comparison, use_container_width=True)