import warnings
warnings.filterwarnings("ignore")

# Manipulação de Dados
import pandas as pd
from IPython.display import display
import numpy as np

# Visualização de Dados
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
import seaborn as sns

# Estatística e Testes Estatísticos
import shap
from scipy import stats
from scipy.stats import kurtosis, skew, f_oneway, shapiro, levene, kruskal
import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Pré-Processamento de Dados
from sklearn.model_selection import KFold, cross_validate
from sklearn.preprocessing import StandardScaler, LabelEncoder, MinMaxScaler, OneHotEncoder
from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import SMOTE
from collections import Counter

# Algoritmos de Machine Learning
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.svm import SVC

# Treinamento e Validação de Modelos
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, StratifiedKFold

# Avaliação de Modelos
from sklearn.metrics import (
    mean_squared_error, mean_absolute_error, r2_score,
    confusion_matrix, accuracy_score, precision_score, recall_score,
    classification_report, roc_auc_score, roc_curve, ConfusionMatrixDisplay
)
from scikitplot.metrics import plot_confusion_matrix, plot_roc

# Configurações Opcionais
pd.set_option('display.float_format', '{:.2f}'.format)
sns.set_theme(style="whitegrid")
plt.rc("figure", figsize=(10, 6))

# Verificação de Versões
print("Versão do Seaborn:", sns.__version__)
print("Versão do Pandas:", pd.__version__)

Versão do Seaborn: 0.13.2
Versão do Pandas: 2.2.3

path = "/home/buso/mestrado/aedi-ppca/dados/hotel_bookings.csv"
df = pd.read_csv(path)
print('Os dados possuem {} linhas e {} colunas'.format(df.shape[0], df.shape[1]))
df.head()

Os dados possuem 119390 linhas e 32 colunas

def visaogeral(df, mensagem):
    print(f'{mensagem}:\n')
    print("Qtd Observações:", df.shape[0])
    print("\nQtd Atributos:", df.shape[1])
    print("\nAtributos:")
    print(df.columns.values)
    # print(df.columns.tolist())
    print("\nQtd Valores missing:", df.isnull().sum().values.sum())
    print("\nValores Unicos:")
    print(df.nunique().sort_values(ascending=True))

visaogeral(df,'Visão Geral do dataSet')

Visão Geral do dataSet:

Qtd Observações: 119390

Qtd Atributos: 32

Atributos:
['hotel' 'is_canceled' 'lead_time' 'arrival_date_year'
 'arrival_date_month' 'arrival_date_week_number'
 'arrival_date_day_of_month' 'stays_in_weekend_nights'
 'stays_in_week_nights' 'adults' 'children' 'babies' 'meal' 'country'
 'market_segment' 'distribution_channel' 'is_repeated_guest'
 'previous_cancellations' 'previous_bookings_not_canceled'
 'reserved_room_type' 'assigned_room_type' 'booking_changes'
 'deposit_type' 'agent' 'company' 'days_in_waiting_list' 'customer_type'
 'adr' 'required_car_parking_spaces' 'total_of_special_requests'
 'reservation_status' 'reservation_status_date']

Qtd Valores missing: 129425

Valores Unicos:
hotel                                2
is_canceled                          2
is_repeated_guest                    2
arrival_date_year                    3
deposit_type                         3
reservation_status                   3
customer_type                        4
required_car_parking_spaces          5
meal                                 5
babies                               5
distribution_channel                 5
children                             5
total_of_special_requests            6
market_segment                       8
reserved_room_type                  10
arrival_date_month                  12
assigned_room_type                  12
adults                              14
previous_cancellations              15
stays_in_weekend_nights             17
booking_changes                     21
arrival_date_day_of_month           31
stays_in_week_nights                35
arrival_date_week_number            53
previous_bookings_not_canceled      73
days_in_waiting_list               128
country                            177
agent                              333
company                            352
lead_time                          479
reservation_status_date            926
adr                               8879
dtype: int64

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 119390 entries, 0 to 119389
Data columns (total 32 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   hotel                           119390 non-null  object 
 1   is_canceled                     119390 non-null  int64  
 2   lead_time                       119390 non-null  int64  
 3   arrival_date_year               119390 non-null  int64  
 4   arrival_date_month              119390 non-null  object 
 5   arrival_date_week_number        119390 non-null  int64  
 6   arrival_date_day_of_month       119390 non-null  int64  
 7   stays_in_weekend_nights         119390 non-null  int64  
 8   stays_in_week_nights            119390 non-null  int64  
 9   adults                          119390 non-null  int64  
 10  children                        119386 non-null  float64
 11  babies                          119390 non-null  int64  
 12  meal                            119390 non-null  object 
 13  country                         118902 non-null  object 
 14  market_segment                  119390 non-null  object 
 15  distribution_channel            119390 non-null  object 
 16  is_repeated_guest               119390 non-null  int64  
 17  previous_cancellations          119390 non-null  int64  
 18  previous_bookings_not_canceled  119390 non-null  int64  
 19  reserved_room_type              119390 non-null  object 
 20  assigned_room_type              119390 non-null  object 
 21  booking_changes                 119390 non-null  int64  
 22  deposit_type                    119390 non-null  object 
 23  agent                           103050 non-null  float64
 24  company                         6797 non-null    float64
 25  days_in_waiting_list            119390 non-null  int64  
 26  customer_type                   119390 non-null  object 
 27  adr                             119390 non-null  float64
 28  required_car_parking_spaces     119390 non-null  int64  
 29  total_of_special_requests       119390 non-null  int64  
 30  reservation_status              119390 non-null  object 
 31  reservation_status_date         119390 non-null  object 
dtypes: float64(4), int64(16), object(12)
memory usage: 29.1+ MB

df.head()

df.tail()

print('Os dados possuem {:.2f} linhas e {} colunas'.format(df.shape[0], df.shape[1]))

Os dados possuem 119390.00 linhas e 32 colunas

# checando índice (endereço de cada obs) e sua distribuição
df.index

RangeIndex(start=0, stop=119390, step=1)

# checando os nomes das colunas
df.columns

Index(['hotel', 'is_canceled', 'lead_time', 'arrival_date_year',
       'arrival_date_month', 'arrival_date_week_number',
       'arrival_date_day_of_month', 'stays_in_weekend_nights',
       'stays_in_week_nights', 'adults', 'children', 'babies', 'meal',
       'country', 'market_segment', 'distribution_channel',
       'is_repeated_guest', 'previous_cancellations',
       'previous_bookings_not_canceled', 'reserved_room_type',
       'assigned_room_type', 'booking_changes', 'deposit_type', 'agent',
       'company', 'days_in_waiting_list', 'customer_type', 'adr',
       'required_car_parking_spaces', 'total_of_special_requests',
       'reservation_status', 'reservation_status_date'],
      dtype='object')

df.head()

X = df.drop(columns= 'is_canceled', axis= 1)
y = df['is_canceled']

y.shape

(119390,)

print('DataSet original com {} atributos e {} observações'.format(df.shape[1], df.shape[0]))
print('As Variáveis Explicatórias possuem {} atributos e {} observações'.format(X.shape[1], X.shape[0]))
print('A Variável Alvo possuem {} observações'.format(y.shape))

DataSet original com 32 atributos e 119390 observações
As Variáveis Explicatórias possuem 31 atributos e 119390 observações
A Variável Alvo possuem (119390,) observações

y.describe()

count    119390.000000
mean          0.370416
std           0.482918
min           0.000000
25%           0.000000
50%           0.000000
75%           1.000000
max           1.000000
Name: is_canceled, dtype: float64

y.unique()

array([0, 1])

print(y.value_counts())
print("\nObserva-se que {:.4f}% do dataSet cancelaram a reserva.".format((df.groupby('is_canceled').size()[1] / df.shape[0])*100))
print("Enquanto que {:.4f}% dos dados não cancelaram suas reservas.".format((df.groupby('is_canceled').size()[0] / df.shape[0])*100))

is_canceled
0    75166
1    44224
Name: count, dtype: int64

Observa-se que 37.0416% do dataSet cancelaram a reserva.
Enquanto que 62.9584% dos dados não cancelaram suas reservas.

# seto algumas caracteristicas para os plots. Padornizar Plots
sns.set_theme(style='darkgrid')
sns.set_palette("hls", 3)

balData = pd.DataFrame(df['is_canceled'].value_counts())
balData['% total'] = round(100*balData['count']/df.shape[0], 2)

print(balData)
churn_plot = sns.countplot(data=df, x='is_canceled', order=df.is_canceled.value_counts().index, hue= 'is_canceled', palette='coolwarm')

plt.title('Distribuição das classes')
plt.ylabel('Quantidade')

plt.tight_layout()
plt.show()

             count  % total
is_canceled                
0            75166    62.96
1            44224    37.04

x_categoricos =  df.select_dtypes(include=['object'])
x_categoricos['is_canceled'] = df['is_canceled']
x_categoricos.head()

x_categoricos.columns

Index(['hotel', 'arrival_date_month', 'meal', 'country', 'market_segment',
       'distribution_channel', 'reserved_room_type', 'assigned_room_type',
       'deposit_type', 'customer_type', 'reservation_status',
       'reservation_status_date', 'is_canceled'],
      dtype='object')

plt.figure(figsize=(8,5))
sns.countplot(data=df, x='hotel', hue='is_canceled', palette= 'coolwarm') 

plt.title("Cancelamentos por Tipo de Hotel")
plt.xlabel("Tipo de Hotel")
plt.ylabel("Quantidade de Reservas")
plt.legend(title="Cancelado", labels=["Não", "Sim"])

plt.tight_layout()
plt.show()

top_countries = df['country'].value_counts().nlargest(10).index
df_country = df[df['country'].isin(top_countries)]

plt.figure(figsize=(12,6))
sns.countplot(data=df_country, y='country', hue='is_canceled', palette='coolwarm', order=top_countries)

plt.title("Top 10 Países com Mais Reservas e Cancelamentos")
plt.xlabel("Quantidade de Reservas")
plt.ylabel("País")
plt.legend(title="Cancelado", labels=["Não", "Sim"])

plt.tight_layout()
plt.show()

plt.figure(figsize=(8,5))
sns.countplot(data=df, x='deposit_type', hue='is_canceled', palette='coolwarm')

plt.title("Distribuição de Cancelamento por Tipo de Depósito")
plt.xlabel("Tipo de Depósito")
plt.ylabel("Quantidade de Reservas")
plt.legend(title="Cancelado", labels=["Não", "Sim"])

plt.tight_layout()
plt.show()

plt.figure(figsize=(12,6))
sns.histplot(data=df, x='arrival_date_month', hue='is_canceled', multiple='stack', palette='coolwarm', shrink=0.8)

plt.title("Reservas e Cancelamentos por Mês")
plt.xlabel("Mês de Chegada")
plt.ylabel("Quantidade de Reservas")
plt.xticks(rotation=45)
plt.legend(title="Cancelado", labels=["Não", "Sim"])

plt.tight_layout()
plt.show()

plt.figure(figsize=(10,5))
sns.countplot(data=df, x='distribution_channel', hue='is_canceled', palette='coolwarm')

plt.title("Taxa de Cancelamento por Canal de Distribuição")
plt.xlabel("Canal de Distribuição")
plt.ylabel("Quantidade de Reservas")
plt.legend(title="Cancelado", labels=["Não", "Sim"])

plt.tight_layout()
plt.show()

x_numericos = df.select_dtypes(include=['int64', 'float64'])

plt.figure(figsize=(10, 5))
sns.kdeplot(data=df, x="lead_time", hue="is_canceled", common_norm=False, fill=True, alpha=0.3, palette='coolwarm')

plt.xlabel("Lead Time (dias)")
plt.ylabel("Densidade")
plt.title("Curva de Densidade do Lead Time por Cancelamento")
plt.legend(title="Cancelado", labels=["Não", "Sim"])

plt.tight_layout()
plt.show()

plt.figure(figsize=(10, 5))
sns.histplot(df[df["is_canceled"] == 0]["adr"], bins=50, kde=True, palette='coolwarm')

plt.xlabel("Preço diária (ADR)")
plt.ylabel("Frequência")
plt.title("Distribuição do preço da diária (ADR) para Reservas Confirmadas")

plt.tight_layout()
plt.show()

plt.figure(figsize=(12, 6))
sns.boxplot(data=df[df["is_canceled"] == 0], x="arrival_date_month", y="adr", hue="hotel", palette='coolwarm')

plt.xlabel("Mês de Chegada")
plt.ylabel("Preço diária (ADR)")
plt.title("Variação do preço da diária ao longo do ano")
plt.legend(title="Tipo de Hotel")
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

sns.boxplot(data=df, x="hotel", y="stays_in_weekend_nights", ax=axes[0], palette='coolwarm')
axes[0].set_title("Diárias fim de semana por tipo de hotel")
axes[0].set_xlabel("Tipo de Hotel")
axes[0].set_ylabel("Diárias - Fim de semana")

sns.boxplot(data=df, x="hotel", y="stays_in_week_nights", ax=axes[1], palette='coolwarm')
axes[1].set_title("Diárias durante a Semana por tipo de hotel")
axes[1].set_xlabel("Tipo de Hotel")
axes[1].set_ylabel("Diárias - Durante a semana")

plt.tight_layout()
plt.show()

x_numericos.skew()

is_canceled                        0.536678
lead_time                          1.346550
arrival_date_year                 -0.232583
arrival_date_week_number          -0.010014
arrival_date_day_of_month         -0.002000
stays_in_weekend_nights            1.380046
stays_in_week_nights               2.862249
adults                            18.317805
children                           4.112590
babies                            24.646545
is_repeated_guest                  5.326315
previous_cancellations            24.458049
previous_bookings_not_canceled    23.539800
booking_changes                    6.000270
agent                              1.089386
company                            0.601600
days_in_waiting_list              11.944353
adr                               10.530214
required_car_parking_spaces        4.163233
total_of_special_requests          1.349189
dtype: float64

fig, ((ax1, ax2, ax3, ax4, ax5), 
      (ax6, ax7, ax8, ax9, ax10), 
      (ax11, ax12, ax13, ax14, ax15), 
      (ax16, ax17, ax18, ax19, ax20)) = plt.subplots(4, 5, figsize=(20, 20))

ax = [ax1, ax2, ax3, ax4, ax5, ax6, ax7, ax8, ax9, ax10, ax11, ax12, ax13, ax14, ax15, ax16, ax17, ax18, ax19, ax20]

for coluna in range(len(x_numericos.columns)):
    sns.distplot(x_numericos.iloc[:, coluna], bins=20, hist=True, ax=ax[coluna], fit=stats.norm)
    ax[coluna].set_title(x_numericos.columns[coluna])

plt.tight_layout()
plt.show()

sns.heatmap(x_numericos.corr(),annot = False, cmap="coolwarm")
plt.title("Matriz de correlação dos dados",fontsize= 15)
plt.show()

# Configurando o tamanho da figura e o layout dos subplots
num_cols = 5  # Número de colunas de subplots
num_rows = len(x_numericos.columns) // num_cols + (len(x_numericos.columns) % num_cols > 0)
fig, axes = plt.subplots(num_rows, num_cols, figsize=(20, 4 * num_rows))

# Flatten the axes array for easy iteration
axes = axes.flatten()

# Loop para criar um boxplot para cada coluna numérica
for i, col in enumerate(x_numericos.columns):
    sns.boxplot(y=df[col], ax=axes[i], palette='coolwarm')
    axes[i].set_title(col)

# Remover subplots vazios
for j in range(i + 1, len(axes)):
    fig.delaxes(axes[j])

df.head()

df_proc = df.copy()
df_proc.head()

from sklearn.impute import SimpleImputer
import numpy as np

# Criando o imputador com estratégia de mediana
imp_num = SimpleImputer(missing_values=np.nan, strategy='median', add_indicator=True)

# Aplicando a imputação nos dados
dados_imputados = imp_num.fit_transform(dados)

pct_miss = 100*df.isnull().sum()/len(df)
pct_miss[(-pct_miss).argsort()]

company                           94.306893
agent                             13.686238
country                            0.408744
children                           0.003350
hotel                              0.000000
total_of_special_requests          0.000000
required_car_parking_spaces        0.000000
adr                                0.000000
customer_type                      0.000000
days_in_waiting_list               0.000000
deposit_type                       0.000000
booking_changes                    0.000000
assigned_room_type                 0.000000
reserved_room_type                 0.000000
previous_bookings_not_canceled     0.000000
previous_cancellations             0.000000
distribution_channel               0.000000
reservation_status                 0.000000
market_segment                     0.000000
meal                               0.000000
babies                             0.000000
adults                             0.000000
stays_in_week_nights               0.000000
stays_in_weekend_nights            0.000000
arrival_date_day_of_month          0.000000
arrival_date_week_number           0.000000
arrival_date_month                 0.000000
arrival_date_year                  0.000000
lead_time                          0.000000
is_canceled                        0.000000
is_repeated_guest                  0.000000
reservation_status_date            0.000000
dtype: float64

print(f'dados antes do tratamento de missing values: {df_proc.shape}')

dados antes do tratamento de missing values: (119390, 32)

df_proc= df_proc.drop(columns=['company', 'agent', 'country', 'reservation_status_date', 'reservation_status'])
print(f'dados após o primeiro tratamento de missing values: {df_proc.shape}')

dados após o primeiro tratamento de missing values: (119390, 27)

df_proc= df_proc.dropna(subset=['children'])
print(f'dados após o segundo tratamento de missing values: {df_proc.shape}')

dados após o segundo tratamento de missing values: (119386, 27)

df_proc[df_proc.select_dtypes(include=['object']).columns].nunique().sort_values(ascending=True)

hotel                    2
deposit_type             3
customer_type            4
meal                     5
distribution_channel     5
market_segment           7
reserved_room_type      10
arrival_date_month      12
assigned_room_type      12
dtype: int64

df_proc.select_dtypes(include=['object']).columns

Index(['hotel', 'arrival_date_month', 'meal', 'market_segment',
       'distribution_channel', 'reserved_room_type', 'assigned_room_type',
       'deposit_type', 'customer_type'],
      dtype='object')

label_encoder = LabelEncoder()

df_proc['hotel'] = label_encoder.fit_transform(df_proc['hotel'])
print(df_proc['hotel'].head())

0    1
1    1
2    1
3    1
4    1
Name: hotel, dtype: int64

print(f'dataset antes do tratamento de variáveis categóricas: {df_proc.shape}')

dataset antes do tratamento de variáveis categóricas: (119386, 27)

colunas_dummies = ['arrival_date_month', 'meal', 'market_segment', 'distribution_channel', 'reserved_room_type',\
                    'assigned_room_type', 'deposit_type', 'customer_type']

df_proc.head()

df_proc = pd.get_dummies(df_proc, columns=colunas_dummies, dtype=int, drop_first=True)
print(f'dataset após o tratamento de variáveis categóricas: {df_proc.shape}')

dataset após o tratamento de variáveis categóricas: (119386, 69)

df_proc.head()

df_proc.info()

<class 'pandas.core.frame.DataFrame'>
Index: 119386 entries, 0 to 119389
Data columns (total 69 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   hotel                           119386 non-null  int64  
 1   is_canceled                     119386 non-null  int64  
 2   lead_time                       119386 non-null  int64  
 3   arrival_date_year               119386 non-null  int64  
 4   arrival_date_week_number        119386 non-null  int64  
 5   arrival_date_day_of_month       119386 non-null  int64  
 6   stays_in_weekend_nights         119386 non-null  int64  
 7   stays_in_week_nights            119386 non-null  int64  
 8   adults                          119386 non-null  int64  
 9   children                        119386 non-null  float64
 10  babies                          119386 non-null  int64  
 11  is_repeated_guest               119386 non-null  int64  
 12  previous_cancellations          119386 non-null  int64  
 13  previous_bookings_not_canceled  119386 non-null  int64  
 14  booking_changes                 119386 non-null  int64  
 15  days_in_waiting_list            119386 non-null  int64  
 16  adr                             119386 non-null  float64
 17  required_car_parking_spaces     119386 non-null  int64  
 18  total_of_special_requests       119386 non-null  int64  
 19  arrival_date_month_August       119386 non-null  int64  
 20  arrival_date_month_December     119386 non-null  int64  
 21  arrival_date_month_February     119386 non-null  int64  
 22  arrival_date_month_January      119386 non-null  int64  
 23  arrival_date_month_July         119386 non-null  int64  
 24  arrival_date_month_June         119386 non-null  int64  
 25  arrival_date_month_March        119386 non-null  int64  
 26  arrival_date_month_May          119386 non-null  int64  
 27  arrival_date_month_November     119386 non-null  int64  
 28  arrival_date_month_October      119386 non-null  int64  
 29  arrival_date_month_September    119386 non-null  int64  
 30  meal_FB                         119386 non-null  int64  
 31  meal_HB                         119386 non-null  int64  
 32  meal_SC                         119386 non-null  int64  
 33  meal_Undefined                  119386 non-null  int64  
 34  market_segment_Complementary    119386 non-null  int64  
 35  market_segment_Corporate        119386 non-null  int64  
 36  market_segment_Direct           119386 non-null  int64  
 37  market_segment_Groups           119386 non-null  int64  
 38  market_segment_Offline TA/TO    119386 non-null  int64  
 39  market_segment_Online TA        119386 non-null  int64  
 40  distribution_channel_Direct     119386 non-null  int64  
 41  distribution_channel_GDS        119386 non-null  int64  
 42  distribution_channel_TA/TO      119386 non-null  int64  
 43  distribution_channel_Undefined  119386 non-null  int64  
 44  reserved_room_type_B            119386 non-null  int64  
 45  reserved_room_type_C            119386 non-null  int64  
 46  reserved_room_type_D            119386 non-null  int64  
 47  reserved_room_type_E            119386 non-null  int64  
 48  reserved_room_type_F            119386 non-null  int64  
 49  reserved_room_type_G            119386 non-null  int64  
 50  reserved_room_type_H            119386 non-null  int64  
 51  reserved_room_type_L            119386 non-null  int64  
 52  reserved_room_type_P            119386 non-null  int64  
 53  assigned_room_type_B            119386 non-null  int64  
 54  assigned_room_type_C            119386 non-null  int64  
 55  assigned_room_type_D            119386 non-null  int64  
 56  assigned_room_type_E            119386 non-null  int64  
 57  assigned_room_type_F            119386 non-null  int64  
 58  assigned_room_type_G            119386 non-null  int64  
 59  assigned_room_type_H            119386 non-null  int64  
 60  assigned_room_type_I            119386 non-null  int64  
 61  assigned_room_type_K            119386 non-null  int64  
 62  assigned_room_type_L            119386 non-null  int64  
 63  assigned_room_type_P            119386 non-null  int64  
 64  deposit_type_Non Refund         119386 non-null  int64  
 65  deposit_type_Refundable         119386 non-null  int64  
 66  customer_type_Group             119386 non-null  int64  
 67  customer_type_Transient         119386 non-null  int64  
 68  customer_type_Transient-Party   119386 non-null  int64  
dtypes: float64(2), int64(67)
memory usage: 63.8 MB

df_proc.corr()

pd.set_option('display.max_rows', None)
df_proc.corr().iloc[1]

hotel                            -0.136505
is_canceled                       1.000000
lead_time                         0.293177
arrival_date_year                 0.016732
arrival_date_week_number          0.008132
arrival_date_day_of_month        -0.006084
stays_in_weekend_nights          -0.001783
stays_in_week_nights              0.024771
adults                            0.059990
children                          0.005048
babies                           -0.032488
is_repeated_guest                -0.084788
previous_cancellations            0.110140
previous_bookings_not_canceled   -0.057355
booking_changes                  -0.144371
days_in_waiting_list              0.054193
adr                               0.047622
required_car_parking_spaces      -0.195492
total_of_special_requests        -0.234706
arrival_date_month_August         0.005223
arrival_date_month_December      -0.010513
arrival_date_month_February      -0.020201
arrival_date_month_January       -0.031064
arrival_date_month_July           0.002953
arrival_date_month_June           0.029054
arrival_date_month_March         -0.030254
arrival_date_month_May            0.018004
arrival_date_month_November      -0.029534
arrival_date_month_October        0.006697
arrival_date_month_September      0.013707
meal_FB                           0.038832
meal_HB                          -0.019829
meal_SC                           0.001296
meal_Undefined                   -0.025893
market_segment_Complementary     -0.039304
market_segment_Corporate         -0.081660
market_segment_Direct            -0.154420
market_segment_Groups             0.221886
market_segment_Offline TA/TO     -0.028451
market_segment_Online TA         -0.006269
distribution_channel_Direct      -0.151609
distribution_channel_GDS         -0.014889
distribution_channel_TA/TO        0.176056
distribution_channel_Undefined   -0.002220
reserved_room_type_B             -0.008771
reserved_room_type_C             -0.007333
reserved_room_type_D             -0.047684
reserved_room_type_E             -0.038625
reserved_room_type_F             -0.021760
reserved_room_type_G             -0.001666
reserved_room_type_H              0.005488
reserved_room_type_L             -0.000544
reserved_room_type_P              0.013072
assigned_room_type_B             -0.037967
assigned_room_type_C             -0.053872
assigned_room_type_D             -0.128017
assigned_room_type_E             -0.064784
assigned_room_type_F             -0.045971
assigned_room_type_G             -0.019858
assigned_room_type_H             -0.002866
assigned_room_type_I             -0.040783
assigned_room_type_K             -0.032811
assigned_room_type_L              0.003773
assigned_room_type_P              0.013072
deposit_type_Non Refund           0.481488
deposit_type_Refundable          -0.011310
customer_type_Group              -0.038696
customer_type_Transient           0.133170
customer_type_Transient-Party    -0.124231
Name: is_canceled, dtype: float64

pd.reset_option('display.max_rows')

df_proc.columns

Index(['hotel', 'is_canceled', 'lead_time', 'arrival_date_year',
       'arrival_date_week_number', 'arrival_date_day_of_month',
       'stays_in_weekend_nights', 'stays_in_week_nights', 'adults', 'children',
       'babies', 'is_repeated_guest', 'previous_cancellations',
       'previous_bookings_not_canceled', 'booking_changes',
       'days_in_waiting_list', 'adr', 'required_car_parking_spaces',
       'total_of_special_requests', 'arrival_date_month_August',
       'arrival_date_month_December', 'arrival_date_month_February',
       'arrival_date_month_January', 'arrival_date_month_July',
       'arrival_date_month_June', 'arrival_date_month_March',
       'arrival_date_month_May', 'arrival_date_month_November',
       'arrival_date_month_October', 'arrival_date_month_September', 'meal_FB',
       'meal_HB', 'meal_SC', 'meal_Undefined', 'market_segment_Complementary',
       'market_segment_Corporate', 'market_segment_Direct',
       'market_segment_Groups', 'market_segment_Offline TA/TO',
       'market_segment_Online TA', 'distribution_channel_Direct',
       'distribution_channel_GDS', 'distribution_channel_TA/TO',
       'distribution_channel_Undefined', 'reserved_room_type_B',
       'reserved_room_type_C', 'reserved_room_type_D', 'reserved_room_type_E',
       'reserved_room_type_F', 'reserved_room_type_G', 'reserved_room_type_H',
       'reserved_room_type_L', 'reserved_room_type_P', 'assigned_room_type_B',
       'assigned_room_type_C', 'assigned_room_type_D', 'assigned_room_type_E',
       'assigned_room_type_F', 'assigned_room_type_G', 'assigned_room_type_H',
       'assigned_room_type_I', 'assigned_room_type_K', 'assigned_room_type_L',
       'assigned_room_type_P', 'deposit_type_Non Refund',
       'deposit_type_Refundable', 'customer_type_Group',
       'customer_type_Transient', 'customer_type_Transient-Party'],
      dtype='object')

df_proc= df_proc.drop(columns=[ 'arrival_date_month_August', 'arrival_date_month_December', 'arrival_date_month_February',\
                                'arrival_date_month_January', 'arrival_date_month_July', 'arrival_date_month_June', 'arrival_date_month_March',\
                                'arrival_date_month_May', 'arrival_date_month_November', 'arrival_date_month_October', 'arrival_date_month_September',\
                                'arrival_date_week_number', 'arrival_date_day_of_month', 'adults', 'children', 'babies', 'stays_in_weekend_nights', 'stays_in_week_nights'])

print(f'dataset após o processamento: {df_proc.shape}')

dataset após o processamento: (119386, 51)

df_proc.head()

X = df_proc.drop(columns= ['is_canceled'], axis= 1)
y = df_proc.is_canceled

X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, stratify=y, shuffle=True)

print('tamanho total dos dados são {}, para treino temos {} e teste são {}'.format(df_proc.shape[0], len(X_treino), len(X_teste)))

tamanho total dos dados são 119386, para treino temos 89539 e teste são 29847

vif_data = pd.DataFrame()
vif_data['Feature'] = X_treino.columns
vif_data['VIF'] = [variance_inflation_factor(X_treino.values, i) for i in range(X_treino.shape[1])]

print("Valores de VIF para cada variável:")
print(vif_data)

Valores de VIF para cada variável:
                                          Feature   VIF
0                                        duration  5.91
1                                   credit_amount  5.39
2                          installment_commitment 10.52
3                                 residence_since  9.75
4                                             age  4.56
5                                existing_credits 11.91
6                                  num_dependents 12.52
7                                   own_telephone  2.24
8                                  foreign_worker 28.04
9                         other_parties_guarantor  2.18
10                             other_parties_none 23.94
11                       other_payment_plans_none  7.66
12                     other_payment_plans_stores  1.41
13                                    housing_own 16.72
14                                   housing_rent  4.54
15                             checking_status_<0  2.33
16                          checking_status_>=200  1.32
17                    checking_status_no checking  2.83
18                   personal_status_male div/sep  1.25
19                   personal_status_male mar/wid  1.38
20                    personal_status_male single  3.73
21              property_magnitude_life insurance  1.88
22           property_magnitude_no known property  3.20
23                 property_magnitude_real estate  2.23
24                                    job_skilled  7.56
25                    job_unemp/unskilled non res  1.47
26                         job_unskilled resident  3.52
27  credit_history_critical/other existing credit  8.89
28              credit_history_delayed previously  3.23
29                   credit_history_existing paid 12.62
30             credit_history_no credits/all paid  2.04
31                     savings_status_500<=X<1000  1.74
32                            savings_status_<100  7.48
33                          savings_status_>=1000  1.56
34                savings_status_no known savings  3.17
35                              employment_4<=X<7  1.61
36                                  employment_<1  1.69
37                                 employment_>=7  2.20
38                          employment_unemployed  1.75
39                     purpose_domestic appliance  1.22
40                              purpose_education  1.71
41                    purpose_furniture/equipment  3.16
42                                purpose_new car  3.86
43                                  purpose_other  1.21
44                               purpose_radio/tv  4.32
45                                purpose_repairs  1.30
46                             purpose_retraining  1.20
47                               purpose_used car  2.34

# Instanciar o modelo
ridge_model = LogisticRegression(penalty='l2', solver='lbfgs', max_iter=1000, random_state=42)

# Treinar o modelo
ridge_model.fit(X_treino, y_treino)

LogisticRegression(max_iter=1000, random_state=42)

LogisticRegression(max_iter=1000, random_state=42)

# Avaliar coeficientes após regularização
coef_df = pd.DataFrame({'Feature': X_treino.columns, 'Coefficient': ridge_model.coef_[0]})
print(coef_df.sort_values(by='Coefficient', ascending=False))

                           Feature  Coefficient
45         deposit_type_Non Refund     5.936046
4           previous_cancellations     3.406655
27            reserved_room_type_D     0.856323
20        market_segment_Online TA     0.765776
48         customer_type_Transient     0.532560
28            reserved_room_type_E     0.508711
11                         meal_FB     0.308719
26            reserved_room_type_C     0.245691
25            reserved_room_type_B     0.236302
0                            hotel     0.215996
23      distribution_channel_TA/TO     0.176384
13                         meal_SC     0.095766
15    market_segment_Complementary     0.069976
30            reserved_room_type_G     0.066661
49   customer_type_Transient-Party     0.035394
33            reserved_room_type_P     0.031387
44            assigned_room_type_P     0.031387
46         deposit_type_Refundable     0.008175
8                              adr     0.005498
1                        lead_time     0.004199
43            assigned_room_type_L     0.000000
24  distribution_channel_Undefined    -0.000310
7             days_in_waiting_list    -0.000522
2                arrival_date_year    -0.001076
32            reserved_room_type_L    -0.001119
29            reserved_room_type_F    -0.001789
16        market_segment_Corporate    -0.002077
31            reserved_room_type_H    -0.052992
18           market_segment_Groups    -0.063287
21     distribution_channel_Direct    -0.070214
47             customer_type_Group    -0.070670
40            assigned_room_type_H    -0.122995
22        distribution_channel_GDS    -0.140848
17           market_segment_Direct    -0.150251
12                         meal_HB    -0.170786
42            assigned_room_type_K    -0.222342
41            assigned_room_type_I    -0.300484
34            assigned_room_type_B    -0.316117
14                  meal_Undefined    -0.329256
6                  booking_changes    -0.382760
39            assigned_room_type_G    -0.401218
3                is_repeated_guest    -0.468324
35            assigned_room_type_C    -0.544646
38            assigned_room_type_F    -0.602136
5   previous_bookings_not_canceled    -0.607917
19    market_segment_Offline TA/TO    -0.610231
37            assigned_room_type_E    -0.671326
10       total_of_special_requests    -0.727341
36            assigned_room_type_D    -1.078639
9      required_car_parking_spaces    -3.714556

# Probabilidades previstas (classe positiva)
y_prob = ridge_model.predict_proba(X_teste)[:, 1]

# Curva ROC
fpr, tpr, thresholds = roc_curve(y_teste, y_prob)
auc = roc_auc_score(y_teste, y_prob)

# Plot da Curva ROC
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, label=f'AUC = {auc:.2f}', color='blue')
plt.plot([0, 1], [0, 1], 'k--', label='Modelo Aleatório')
plt.title('Curva ROC')
plt.xlabel('Taxa de Falsos Positivos (FPR)')
plt.ylabel('Taxa de Verdadeiros Positivos (TPR)')
plt.legend(loc='lower right')
plt.grid()
plt.show()
plt.tight_layout();

<Figure size 640x480 with 0 Axes>

# Impressão das métricas de classificação
y_pred = ridge_model.predict(X_teste)
print("\nRelatório de Classificação:\n", classification_report(y_teste, y_pred))

Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.80      0.93      0.86     18792
           1       0.84      0.60      0.70     11055

    accuracy                           0.81     29847
   macro avg       0.82      0.77      0.78     29847
weighted avg       0.81      0.81      0.80     29847

# Matriz de confusão
cm = confusion_matrix(y_teste, y_pred)
tn, fp, fn, tp = cm.ravel()
specificity = tn / (tn + fp)
print(f"Especificidade: {specificity:.2f}")

disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=ridge_model.classes_)
disp.plot(cmap='Blues', values_format='d')
plt.title('Matriz de Confusão')
plt.grid(False)
plt.show()

Especificidade: 0.93

Nome da Coluna	Descrição
hotel	Tipo de hotel (Resort Hotel ou City Hotel)
is_canceled variável target	Indica se a reserva foi cancelada (1) ou não (0)
lead_time	Número de dias entre a data de inserção da reserva no sistema e a data de chegada
arrival_date_year	Ano da data de chegada
arrival_date_month	Mês da data de chegada
arrival_date_week_number	Número da semana do ano referente à data de chegada
arrival_date_day_of_month	Dia do mês da data de chegada
stays_in_weekend_nights	Número de noites de fim de semana (sábado ou domingo) que o hóspede permaneceu ou reservou para permanecer no hotel
stays_in_week_nights	Número de noites de semana (segunda a sexta-feira) que o hóspede permaneceu ou reservou para permanecer no hotel
adults	Número de adultos
children	Número de crianças
babies	Número de bebês
meal	Tipo de refeição reservada. Categorias: BB (Bed & Breakfast), HB (Half board - café da manhã e uma outra refeição), FB (Full board - café da manhã, almoço e jantar), SC (Self Catering - sem pacote de refeições)
country	País de origem, representado no formato ISO 3155–3:2013
market_segment	Segmento de mercado da reserva. Por exemplo, TA (Travel Agents) ou TO (Tour Operators)
distribution_channel	Canal de distribuição da reserva. Por exemplo, TA (Travel Agents) ou TO (Tour Operators)
is_repeated_guest	Indica se o hóspede é repetido (1) ou não (0)
previous_cancellations	Número de reservas anteriores que foram canceladas pelo cliente antes da reserva atual
previous_bookings_not_canceled	Número de reservas anteriores não canceladas pelo cliente antes da reserva atual
reserved_room_type	Código do tipo de quarto reservado
assigned_room_type	Código do tipo de quarto atribuído à reserva
booking_changes	Número de alterações feitas na reserva desde a inserção no sistema até o momento do check-in ou cancelamento
deposit_type	Indicação se o cliente fez um depósito para garantir a reserva. Categorias: No Deposit (nenhum depósito), Non Refund (depósito no valor total da estadia), Refundable (depósito com valor inferior ao custo total da estadia)
agent	ID da agência de viagens que fez a reserva
company	ID da empresa responsável pela reserva ou pagamento
days_in_waiting_list	Número de dias que a reserva ficou na lista de espera antes de ser confirmada para o cliente
customer_type	Tipo de cliente: Contract (contrato), Group (grupo), Transient (transitório), Transient-party (transitório com outros)
adr	Taxa Média Diária, calculada dividindo a soma de todas as transações de hospedagem pelo número total de noites de estadia
required_car_parking_spaces	Número de vagas de estacionamento requeridas pelo cliente
total_of_special_requests	Número de pedidos especiais feitos pelo cliente (por exemplo, cama de solteiro ou andar alto)
reservation_status	Status final da reserva: Canceled (cancelada), Check-Out (cliente fez check-in e já saiu), No-Show (cliente não fez check-in e não informou o motivo)
reservation_status_date	Data em que o último status foi definido

	hotel	lead_time	arrival_date_year	arrival_date_month	arrival_date_week_number	arrival_date_day_of_month	stays_in_week_nights	adults	...	deposit_type	agent	company	customer_type	adr	total_of_special_requests	reservation_status	reservation_status_date
0	Resort Hotel	342	2015	July	27	1	0	2	...	No Deposit	NaN	NaN	Transient	0.0	0	Check-Out	2015-07-01
1	Resort Hotel	737	2015	July	27	1	0	2	...	No Deposit	NaN	NaN	Transient	0.0	0	Check-Out	2015-07-01
2	Resort Hotel	7	2015	July	27	1	1	1	...	No Deposit	NaN	NaN	Transient	75.0	0	Check-Out	2015-07-02
3	Resort Hotel	13	2015	July	27	1	1	1	...	No Deposit	304.0	NaN	Transient	75.0	0	Check-Out	2015-07-02
4	Resort Hotel	14	2015	July	27	1	2	2	...	No Deposit	240.0	NaN	Transient	98.0	1	Check-Out	2015-07-03

	hotel	lead_time	arrival_date_year	arrival_date_month	arrival_date_week_number	arrival_date_day_of_month	stays_in_week_nights	adults	...	deposit_type	agent	company	customer_type	adr	total_of_special_requests	reservation_status	reservation_status_date
0	Resort Hotel	342	2015	July	27	1	0	2	...	No Deposit	NaN	NaN	Transient	0.0	0	Check-Out	2015-07-01
1	Resort Hotel	737	2015	July	27	1	0	2	...	No Deposit	NaN	NaN	Transient	0.0	0	Check-Out	2015-07-01
2	Resort Hotel	7	2015	July	27	1	1	1	...	No Deposit	NaN	NaN	Transient	75.0	0	Check-Out	2015-07-02
3	Resort Hotel	13	2015	July	27	1	1	1	...	No Deposit	304.0	NaN	Transient	75.0	0	Check-Out	2015-07-02
4	Resort Hotel	14	2015	July	27	1	2	2	...	No Deposit	240.0	NaN	Transient	98.0	1	Check-Out	2015-07-03

	hotel	lead_time	arrival_date_year	arrival_date_month	arrival_date_week_number	arrival_date_day_of_month	stays_in_weekend_nights	stays_in_week_nights	adults	...	deposit_type	agent	company	customer_type	adr	total_of_special_requests	reservation_status	reservation_status_date
119385	City Hotel	23	2017	August	35	30	2	5	2	...	No Deposit	394.0	NaN	Transient	96.14	0	Check-Out	2017-09-06
119386	City Hotel	102	2017	August	35	31	2	5	3	...	No Deposit	9.0	NaN	Transient	225.43	2	Check-Out	2017-09-07
119387	City Hotel	34	2017	August	35	31	2	5	2	...	No Deposit	9.0	NaN	Transient	157.71	4	Check-Out	2017-09-07
119388	City Hotel	109	2017	August	35	31	2	5	2	...	No Deposit	89.0	NaN	Transient	104.40	0	Check-Out	2017-09-07
119389	City Hotel	205	2017	August	35	29	2	7	2	...	No Deposit	9.0	NaN	Transient	151.20	2	Check-Out	2017-09-07

	hotel	lead_time	arrival_date_year	arrival_date_month	arrival_date_week_number	arrival_date_day_of_month	stays_in_week_nights	adults	...	deposit_type	agent	company	customer_type	adr	total_of_special_requests	reservation_status	reservation_status_date
0	Resort Hotel	342	2015	July	27	1	0	2	...	No Deposit	NaN	NaN	Transient	0.0	0	Check-Out	2015-07-01
1	Resort Hotel	737	2015	July	27	1	0	2	...	No Deposit	NaN	NaN	Transient	0.0	0	Check-Out	2015-07-01
2	Resort Hotel	7	2015	July	27	1	1	1	...	No Deposit	NaN	NaN	Transient	75.0	0	Check-Out	2015-07-02
3	Resort Hotel	13	2015	July	27	1	1	1	...	No Deposit	304.0	NaN	Transient	75.0	0	Check-Out	2015-07-02
4	Resort Hotel	14	2015	July	27	1	2	2	...	No Deposit	240.0	NaN	Transient	98.0	1	Check-Out	2015-07-03

Programa de Pós-graduação em Computação Aplicada – PPCA (UnB)

Análise Estatística de Dados e Informações - Prova Final

Professor: João Gabriel de Moraes Souza

Aluno: Angelo Donizete Buso Júnior

Questão 2¶

1. Compreensão do Problema de Negócio¶

1.1 Dicionário de Dados¶

Informações sobre os atributos:¶

2. Coleta de Dados¶

2.1 Carga dados¶

3. Análise Exploratória¶

3.1 Visão Geral dataSet¶

3.1.1 Variáveis Explicatórias e Variável Alvo¶

3.1.2 Variável Alvo¶

3.1.2.1 Amplitude¶

3.1.2.2 Balanceamento dos Dados¶

3.1.2.3 Plots Variável Alvo¶

3.1.3 Preditores Categóricos¶

3.1.4 Preditores Numéricos¶

3.1.4.1 Distribuição dos Dados – Assimetria (Skewness) e Curtose (Kurtosis)¶

3.1.4.2 Identificação de Outliers¶

4. Pré-Processamento dos Dados¶

Preparando os Dados para Machine Learning¶

4.1 Transformação de Variáveis/Atributos¶

4.1.1 Imputação de Valores Ausentes¶

4.1.2 Codificação de Variáveis Categóricas (Dummies)¶

4.2 Split dados¶

4.2.1 Estático¶

4.3 Feature Engineer - II¶

4.3.1.Balanceamento de classes¶

4.4 Avaliação de Multicolinearidade¶

5. Seleção de Algoritmos¶

5.1 Algoritmos de Classificação¶

6. Conclusões¶

	hotel	arrival_date_month	meal	country	market_segment	distribution_channel	reserved_room_type	assigned_room_type	deposit_type	customer_type	reservation_status	reservation_status_date
0	Resort Hotel	July	BB	PRT	Direct	Direct	C	C	No Deposit	Transient	Check-Out	2015-07-01
1	Resort Hotel	July	BB	PRT	Direct	Direct	C	C	No Deposit	Transient	Check-Out	2015-07-01
2	Resort Hotel	July	BB	GBR	Direct	Direct	A	C	No Deposit	Transient	Check-Out	2015-07-02
3	Resort Hotel	July	BB	GBR	Corporate	Corporate	A	A	No Deposit	Transient	Check-Out	2015-07-02
4	Resort Hotel	July	BB	GBR	Online TA	TA/TO	A	A	No Deposit	Transient	Check-Out	2015-07-03

	hotel	is_canceled	lead_time	arrival_date_year	arrival_date_week_number	arrival_date_day_of_month	stays_in_weekend_nights	stays_in_week_nights	adults	children	...	assigned_room_type_H	assigned_room_type_I	assigned_room_type_K	assigned_room_type_L	assigned_room_type_P	deposit_type_Non Refund	deposit_type_Refundable	customer_type_Group	customer_type_Transient	customer_type_Transient-Party
hotel	1.000000	-0.136505	-0.075405	-0.035308	-0.001261	0.001836	0.186595	0.234022	0.013199	0.044205	...	0.108997	0.077712	-0.034394	0.004073	-0.003586	-0.172014	0.042234	0.023120	0.005713	-0.027768
is_canceled	-0.136505	1.000000	0.293177	0.016732	0.008132	-0.006084	-0.001783	0.024771	0.059990	0.005048	...	-0.002866	-0.040783	-0.032811	0.003773	0.013072	0.481488	-0.011310	-0.038696	0.133170	-0.124231
lead_time	-0.075405	0.293177	1.000000	0.040093	0.126885	0.002234	0.085667	0.165799	0.119544	-0.037622	...	-0.021101	-0.019328	-0.027952	-0.002817	-0.009759	0.380174	0.016586	-0.031927	-0.174026	0.159622
arrival_date_year	-0.035308	0.016732	0.040093	1.000000	-0.540566	-0.000279	0.021489	0.030878	0.029674	0.054624	...	0.001462	0.000249	0.008904	-0.004732	0.004867	-0.065987	-0.000762	-0.010987	0.227880	-0.163499
arrival_date_week_number	-0.001261	0.008132	0.126885	-0.540566	1.000000	0.066824	0.018209	0.015559	0.025901	0.005518	...	0.008424	-0.004897	0.003531	0.000390	0.003133	0.007777	-0.016887	0.011619	-0.079526	0.042191
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
deposit_type_Non Refund	-0.172014	0.481488	0.380174	-0.065987	0.007777	-0.008629	-0.114279	-0.080002	-0.028972	-0.096671	...	-0.028234	-0.020139	-0.018057	-0.001080	-0.003741	1.000000	-0.013752	-0.026000	0.115851	-0.121434
deposit_type_Refundable	0.042234	-0.011310	0.016586	-0.000762	-0.016887	0.032149	0.001761	0.006791	0.003247	-0.006754	...	-0.002855	-0.002036	-0.001784	-0.000107	-0.000370	-0.013752	1.000000	0.023679	-0.053433	0.054660
customer_type_Group	0.023120	-0.038696	-0.031927	-0.010987	0.011619	-0.001551	-0.007163	-0.016182	0.058978	-0.006650	...	-0.003829	0.007120	0.004131	-0.000202	0.011349	-0.026000	0.023679	1.000000	-0.120903	-0.035975
customer_type_Transient	0.005713	0.133170	-0.174026	0.227880	-0.079526	-0.000670	0.019475	0.007292	0.091051	0.096135	...	0.031823	-0.007902	0.003840	0.001668	0.003848	0.115851	-0.053433	-0.120903	1.000000	-0.895584
customer_type_Transient-Party	-0.027768	-0.124231	0.159622	-0.163499	0.042191	0.006339	-0.064914	-0.064277	-0.115814	-0.092846	...	-0.027174	0.006950	-0.002428	-0.001494	-0.005176	-0.121434	0.054660	-0.035975	-0.895584	1.000000