import warnings
warnings.filterwarnings("ignore")

# Manipulação de Dados
import pandas as pd
from IPython.display import display
import numpy as np

# Visualização de Dados
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
import seaborn as sns

# Estatística e Testes Estatísticos
import shap
from scipy import stats
from scipy.stats import kurtosis, skew, f_oneway, shapiro, levene, kruskal
import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Pré-Processamento de Dados
from sklearn.model_selection import KFold, cross_validate
from sklearn.preprocessing import StandardScaler, LabelEncoder, MinMaxScaler, OneHotEncoder
from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import SMOTE
from collections import Counter

# Algoritmos de Machine Learning
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.svm import SVC

# Treinamento e Validação de Modelos
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, StratifiedKFold

# Avaliação de Modelos
from sklearn.metrics import (
    mean_squared_error, mean_absolute_error, r2_score,
    confusion_matrix, accuracy_score, precision_score, recall_score,
    classification_report, roc_auc_score, roc_curve, ConfusionMatrixDisplay
)
from scikitplot.metrics import plot_confusion_matrix, plot_roc

# Configurações Opcionais
pd.set_option('display.float_format', '{:.2f}'.format)
sns.set_theme(style="whitegrid")
plt.rc("figure", figsize=(10, 6))

# Verificação de Versões
print("Versão do Seaborn:", sns.__version__)
print("Versão do Pandas:", pd.__version__)

Versão do Seaborn: 0.13.2
Versão do Pandas: 2.2.3

dados = pd.read_csv('/home/buso/mestrado/aedi-ppca/dados/credit_customers.csv')
print('dados: (Linhas,Colunas)',dados.shape)

dados: (Linhas,Colunas) (1000, 21)

def visaogeral(df, mensagem):
    print(f'{mensagem}:\n')
    print("Qtd Observações:", df.shape[0])
    print("\nQtd Atributos:", df.shape[1])
    print("\nAtributos:")
    print(df.columns.values)
    # print(df.columns.tolist())
    print("\nQtd Valores missing:", df.isnull().sum().values.sum())
    print("\nValores Unicos:")
    print(df.nunique().sort_values(ascending=True))

visaogeral(dados,'Visão Geral dataSet treino')

Visão Geral dataSet treino:

Qtd Observações: 1000

Qtd Atributos: 21

Atributos:
['checking_status' 'duration' 'credit_history' 'purpose' 'credit_amount'
 'savings_status' 'employment' 'installment_commitment' 'personal_status'
 'other_parties' 'residence_since' 'property_magnitude' 'age'
 'other_payment_plans' 'housing' 'existing_credits' 'job' 'num_dependents'
 'own_telephone' 'foreign_worker' 'class']

Qtd Valores missing: 0

Valores Unicos:
class                       2
own_telephone               2
num_dependents              2
foreign_worker              2
housing                     3
other_payment_plans         3
other_parties               3
job                         4
existing_credits            4
property_magnitude          4
checking_status             4
installment_commitment      4
personal_status             4
residence_since             4
employment                  5
savings_status              5
credit_history              5
purpose                    10
duration                   33
age                        53
credit_amount             921
dtype: int64

dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 21 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   checking_status         1000 non-null   object 
 1   duration                1000 non-null   float64
 2   credit_history          1000 non-null   object 
 3   purpose                 1000 non-null   object 
 4   credit_amount           1000 non-null   float64
 5   savings_status          1000 non-null   object 
 6   employment              1000 non-null   object 
 7   installment_commitment  1000 non-null   float64
 8   personal_status         1000 non-null   object 
 9   other_parties           1000 non-null   object 
 10  residence_since         1000 non-null   float64
 11  property_magnitude      1000 non-null   object 
 12  age                     1000 non-null   float64
 13  other_payment_plans     1000 non-null   object 
 14  housing                 1000 non-null   object 
 15  existing_credits        1000 non-null   float64
 16  job                     1000 non-null   object 
 17  num_dependents          1000 non-null   float64
 18  own_telephone           1000 non-null   object 
 19  foreign_worker          1000 non-null   object 
 20  class                   1000 non-null   object 
dtypes: float64(7), object(14)
memory usage: 164.2+ KB

# Visualizando as primeiras linhas
dados.head()

# Observando os dados finais do dataSet
dados.tail()

print('Os dados possuem {:.2f} linhas e {} colunas'.format(dados.shape[0], dados.shape[1]))

Os dados possuem 1000.00 linhas e 21 colunas

# checando índice (endereço de cada obs) e sua distribuição
dados.index

RangeIndex(start=0, stop=1000, step=1)

# checando os nomes das colunas
dados.columns

Index(['checking_status', 'duration', 'credit_history', 'purpose',
       'credit_amount', 'savings_status', 'employment',
       'installment_commitment', 'personal_status', 'other_parties',
       'residence_since', 'property_magnitude', 'age', 'other_payment_plans',
       'housing', 'existing_credits', 'job', 'num_dependents', 'own_telephone',
       'foreign_worker', 'class'],
      dtype='object')

dados.head()

X= dados.drop(columns = 'class', axis=1)
Y= pd.DataFrame(dados['class'])
print('DataSet original com {} atributos e {} observações'.format(dados.shape[1], dados.shape[0]))
print('As variáveis independentes com {} atributos e {} observações'.format(X.shape[1], X.shape[0]))
print('A variável dependente - iremos prever com {} atributo e {} observações'.format(Y.shape[1], Y.shape[0]))

DataSet original com 21 atributos e 1000 observações
As variáveis independentes com 20 atributos e 1000 observações
A variável dependente - iremos prever com 1 atributo e 1000 observações

X.shape

(1000, 20)

Y

# por ser classe max=1 min=0 (Classificação)
Y.describe()

Y.value_counts()

class
good     700
bad      300
Name: count, dtype: int64

dados['class'].value_counts()

class
good    700
bad     300
Name: count, dtype: int64

balData = pd.DataFrame(dados['class'].value_counts())
balData.rename(columns={'count':'quantidade'}, inplace=True)

balData['% total'] = round(100*balData['quantidade']/dados.shape[0], 2)
print(balData)
print("\nObserva-se que {:.1f}% do dataSet não deram default".format((dados.groupby('class').size()[1] / dados.shape[0])*100))
print("Enquanto que {:.1f}% dos dados deram default a IF.".format((dados.groupby('class').size()[0] / dados.shape[0])*100))

       quantidade  % total
class                     
good          700    70.00
bad           300    30.00

Observa-se que 70.0% do dataSet não deram default
Enquanto que 30.0% dos dados deram default a IF.

sns.set_theme(style='darkgrid')
sns.set_palette("hls", 3)

print(balData)
default_plot = sns.countplot(data=dados, x='class', order=dados['class'].value_counts().index, hue= 'class', palette='coolwarm')

plt.title('Distribuição das classes')
plt.ylabel('Quantidade')
plt.xlabel('Classificação do cliente')

plt.tight_layout()
plt.show()

       quantidade  % total
class                     
good          700    70.00
bad           300    30.00

dados.columns

Index(['checking_status', 'duration', 'credit_history', 'purpose',
       'credit_amount', 'savings_status', 'employment',
       'installment_commitment', 'personal_status', 'other_parties',
       'residence_since', 'property_magnitude', 'age', 'other_payment_plans',
       'housing', 'existing_credits', 'job', 'num_dependents', 'own_telephone',
       'foreign_worker', 'class'],
      dtype='object')

dados.groupby(['class'])['age'].agg([np.mean,np.std])

dados.pivot_table(['age', 'credit_amount', 'duration'],
               ['class'], aggfunc='mean')

x_categoricos =  dados.select_dtypes(include=['object'])
x_categoricos['class'] = dados['class']
x_categoricos.head()

fig, axes = plt.subplots(6, 2, figsize=(40, 40))
axes = axes.flatten()
for i, var in enumerate(list(x_categoricos.columns[:-3])):
    sns.histplot(dados, x=var, hue="class", multiple="stack", shrink=0.8, ax=axes[i], palette='coolwarm')
    #sns.countplot(data=dados, x=var, order=dados[var].value_counts().index, hue='class', ax=axes[i], palette= 'coolwarm')
    axes[i].set_title(f"Distribuição de {var}")
    axes[i].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

plt.figure(figsize=(10, 6))
sns.countplot(data=dados, x='checking_status', hue='class', palette="coolwarm", order=['<0', '0<=X<200', '>=200', 'no checking'])

plt.title('Distribuição de default por saldo da conta corrente')
plt.xlabel('Situação da conta corrente')
plt.ylabel('Quantidade de clientes')
plt.xticks(rotation=45, ha='right')
plt.legend(title='Perfil de default', labels=['Bom', 'Mau'])

plt.tight_layout()
plt.show()

dados.groupby(['class', 'checking_status']).size()

class  checking_status
bad    0<=X<200           105
       <0                 135
       >=200               14
       no checking         46
good   0<=X<200           164
       <0                 139
       >=200               49
       no checking        348
dtype: int64

plt.figure(figsize=(12, 6))
sns.countplot(data=dados, x='credit_history', hue='class', palette="pastel", order=['critical/other existing credit', 'delayed previously', 'existing paid', 'no credits/all paid', 'all paid'])

plt.title('Distribuição de default por histórico de crédito')
plt.xlabel('Histórico de crédito')
plt.ylabel('Quantidade de clientes')
plt.xticks(rotation=45, ha='right')
plt.legend(title='Perfil de default', labels=['Bom', 'Mau'])
plt.tight_layout()
plt.show()

dados.groupby(['class', 'credit_history']).size()

class  credit_history                
bad    all paid                           28
       critical/other existing credit     50
       delayed previously                 28
       existing paid                     169
       no credits/all paid                25
good   all paid                           21
       critical/other existing credit    243
       delayed previously                 60
       existing paid                     361
       no credits/all paid                15
dtype: int64

plt.figure(figsize=(10, 6))
sns.countplot(data=dados, x='savings_status', hue='class', palette="pastel", order=['no known savings', '<100', '100<=X<500', '500<=X<1000', '>=1000'])

plt.title('Distribuição de default por reservas financeiras')
plt.xlabel('Situação da reserva')
plt.ylabel('Quantidade de clientes')
plt.xticks(rotation=45, ha='right')
plt.legend(title='Perfil de default', labels=['Bom', 'Mau'])

plt.tight_layout()
plt.show()

x_numericos = dados.select_dtypes(include=['int64', 'float64'])
x_numericos['class'] = dados['class']
x_numericos.head()

x_numericos.nunique().sort_values()

num_dependents              2
class                       2
installment_commitment      4
residence_since             4
existing_credits            4
duration                   33
age                        53
credit_amount             921
dtype: int64

x_numericos[['num_dependents', 'installment_commitment', 'residence_since', 'existing_credits']].head()

x_numericos = x_numericos[['duration', 'credit_amount', 'age', 'class']]
x_numericos.head()

x_numericos[['duration', 'credit_amount', 'age']].hist(layout=(3,3))
plt.show()

cores_classes = {'good': 'lightblue', 'bad': 'salmon'}
for var in x_numericos:
    plt.figure(figsize=(10, 5))
    sns.histplot(data=x_numericos, x=var, hue='class', element="step", fill=True,
                 palette=cores_classes, kde=True)
    
    plt.title(f'Histograma de {var} por Risco de Crédito')
    plt.xlabel(var.capitalize())
    plt.ylabel('Frequência')
    plt.legend(title='Risco de Crédito', labels=['Bom', 'Mau'])
    bom_patch = mpatches.Patch(color=cores_classes['good'], label='Bom')
    mau_patch = mpatches.Patch(color=cores_classes['bad'], label='Mau')
    plt.legend(handles=[bom_patch, mau_patch], title='Risco de Crédito')
    
    plt.tight_layout()
    plt.show()

for var in x_numericos:
    plt.figure(figsize=(8, 6))
    sns.violinplot(data=dados, x='class', y=var, palette="coolwarm", order=['good', 'bad'])
    plt.title(f'Violin Plot de {var} por Risco de Crédito')
    plt.xlabel('Risco de Crédito')
    plt.ylabel(var.capitalize())
    plt.xticks(ticks=[0, 1], labels=['Bom', 'Mau'])
    plt.tight_layout()
    plt.show()

x_numericos = x_numericos[['duration', 'credit_amount', 'age']]
x_numericos.skew()

duration        1.09
credit_amount   1.95
age             1.02
dtype: float64

x_numericos.kurt()

duration        0.92
credit_amount   4.29
age             0.60
dtype: float64

x_numericos.corr(method = 'pearson')

correlations = x_numericos.corr(method = 'pearson')

fig = plt.figure()
ax = fig.add_subplot()
cax = ax.matshow(correlations, vmin = -1, vmax = 1, cmap='coolwarm')
fig.colorbar(cax)

ticks = np.arange(len(correlations))
ax.set_xticks(ticks)
ax.set_yticks(ticks)
ax.set_xticklabels(correlations.columns, fontsize=20)
ax.set_yticklabels(correlations.columns, fontsize=20)
plt.setp(ax.get_xticklabels(), rotation=45, ha="left",
         rotation_mode="anchor")

plt.tight_layout()
plt.show()

# Configurando o tamanho da figura e o layout dos subplots
num_cols = 5  # Número de colunas de subplots
num_rows = len(x_numericos.columns) // num_cols + (len(x_numericos.columns) % num_cols > 0)
fig, axes = plt.subplots(num_rows, num_cols, figsize=(20, 4 * num_rows))

# Flatten the axes array for easy iteration
axes = axes.flatten()

# Loop para criar um boxplot para cada coluna numérica
for i, col in enumerate(x_numericos.columns):
    sns.boxplot(y=dados[col], ax=axes[i], palette='coolwarm')
    axes[i].set_title(col)

# Remover subplots vazios
for j in range(i + 1, len(axes)):
    fig.delaxes(axes[j])

# a) correlação
corr = np.corrcoef(x_numericos, rowvar = 0)
# b) técnicas
eigenvalues, eigenvectors = np.linalg.eig(corr)

print (eigenvalues)

[0.37124585 1.62499358 1.00376056]

print (eigenvectors[:,0])

[-0.70510167  0.70489107 -0.0772024 ]

eigenvectors_df = pd.DataFrame(eigenvectors, columns=[f'Component_{i+1}' for i in range(len(eigenvalues))])
eigenvectors_df['Variable'] = x_numericos.columns
eigenvectors_df[['Variable', 'Component_1']].sort_values(by='Component_1', key=abs, ascending=False)

X.head()

df_proc = dados.copy()
df_proc.head()

df_proc[['num_dependents', 'installment_commitment', 'residence_since', 'existing_credits']].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   num_dependents          1000 non-null   float64
 1   installment_commitment  1000 non-null   float64
 2   residence_since         1000 non-null   float64
 3   existing_credits        1000 non-null   float64
dtypes: float64(4)
memory usage: 31.4 KB

df_proc[['num_dependents', 'installment_commitment', 'residence_since', 'existing_credits']] = df_proc[['num_dependents', 'installment_commitment', 'residence_since', 'existing_credits']].astype(int)
df_proc[['num_dependents', 'installment_commitment', 'residence_since', 'existing_credits']].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 4 columns):
 #   Column                  Non-Null Count  Dtype
---  ------                  --------------  -----
 0   num_dependents          1000 non-null   int64
 1   installment_commitment  1000 non-null   int64
 2   residence_since         1000 non-null   int64
 3   existing_credits        1000 non-null   int64
dtypes: int64(4)
memory usage: 31.4 KB

from sklearn.impute import SimpleImputer
import numpy as np

# Criando o imputador com estratégia de mediana
imp_num = SimpleImputer(missing_values=np.nan, strategy='median', add_indicator=True)

# Aplicando a imputação nos dados
dados_imputados = imp_num.fit_transform(dados)

pct_miss = 100*dados.isnull().sum()/len(dados)
pct_miss[(-pct_miss).argsort()]

checking_status          0.00
own_telephone            0.00
num_dependents           0.00
job                      0.00
existing_credits         0.00
housing                  0.00
other_payment_plans      0.00
age                      0.00
property_magnitude       0.00
foreign_worker           0.00
residence_since          0.00
personal_status          0.00
installment_commitment   0.00
employment               0.00
savings_status           0.00
credit_amount            0.00
purpose                  0.00
credit_history           0.00
duration                 0.00
other_parties            0.00
class                    0.00
dtype: float64

x_numericos.head()

list(x_numericos.columns)

['duration', 'credit_amount', 'age']

scaler = MinMaxScaler()
x_norm = pd.DataFrame(scaler.fit_transform(df_proc[list(x_numericos.columns)]), columns= list(x_numericos.columns))

print("Dados Originais: \n\n", df_proc[list(x_numericos.columns)].head())
print("\nDados Normalizados: \n\n", x_norm.head() )

Dados Originais: 

    duration  credit_amount   age
0      6.00        1169.00 67.00
1     48.00        5951.00 22.00
2     12.00        2096.00 49.00
3     42.00        7882.00 45.00
4     24.00        4870.00 53.00

Dados Normalizados: 

    duration  credit_amount  age
0      0.03           0.05 0.86
1      0.65           0.31 0.05
2      0.12           0.10 0.54
3      0.56           0.42 0.46
4      0.29           0.25 0.61

df_proc.head()

df_proc[list(x_numericos.columns)] = x_norm

df_proc.head()

df_proc[df_proc.select_dtypes(include=['object']).columns].nunique().sort_values(ascending=True)

own_telephone           2
foreign_worker          2
class                   2
other_parties           3
other_payment_plans     3
housing                 3
checking_status         4
personal_status         4
property_magnitude      4
job                     4
credit_history          5
savings_status          5
employment              5
purpose                10
dtype: int64

df_proc.select_dtypes(include=['object']).columns

Index(['checking_status', 'credit_history', 'purpose', 'savings_status',
       'employment', 'personal_status', 'other_parties', 'property_magnitude',
       'other_payment_plans', 'housing', 'job', 'own_telephone',
       'foreign_worker', 'class'],
      dtype='object')

label_encoder = LabelEncoder()

df_proc['own_telephone'] = label_encoder.fit_transform(df_proc['own_telephone'])
df_proc['foreign_worker'] = label_encoder.fit_transform(df_proc['foreign_worker'])
df_proc['class'] = label_encoder.fit_transform(df_proc['class'])

df_proc.head()

df_proc['class'].value_counts()

class
1    700
0    300
Name: count, dtype: int64

print(f'dataset antes do tratamento de variáveis categóricas: {df_proc.shape}')

dataset antes do tratamento de variáveis categóricas: (1000, 21)

ohe_colunas = ['other_parties', 'other_payment_plans','housing','checking_status','personal_status',
               'property_magnitude','job','credit_history','savings_status','employment','purpose']

encoder = OneHotEncoder(drop='first', sparse_output=False)

encoded_array = encoder.fit_transform(df_proc[ohe_colunas])

encoded_df = pd.DataFrame(encoded_array, columns=encoder.get_feature_names_out(ohe_colunas))
encoded_df.head()

df_proc = pd.concat([df_proc.drop(columns=ohe_colunas), encoded_df], axis=1)
df_proc.head()

print(f'dataset após o tratamento de variáveis categóricas: {df_proc.shape}')

dataset após o tratamento de variáveis categóricas: (1000, 49)

df_proc.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 49 columns):
 #   Column                                         Non-Null Count  Dtype  
---  ------                                         --------------  -----  
 0   duration                                       1000 non-null   float64
 1   credit_amount                                  1000 non-null   float64
 2   installment_commitment                         1000 non-null   int64  
 3   residence_since                                1000 non-null   int64  
 4   age                                            1000 non-null   float64
 5   existing_credits                               1000 non-null   int64  
 6   num_dependents                                 1000 non-null   int64  
 7   own_telephone                                  1000 non-null   int64  
 8   foreign_worker                                 1000 non-null   int64  
 9   class                                          1000 non-null   int64  
 10  other_parties_guarantor                        1000 non-null   float64
 11  other_parties_none                             1000 non-null   float64
 12  other_payment_plans_none                       1000 non-null   float64
 13  other_payment_plans_stores                     1000 non-null   float64
 14  housing_own                                    1000 non-null   float64
 15  housing_rent                                   1000 non-null   float64
 16  checking_status_<0                             1000 non-null   float64
 17  checking_status_>=200                          1000 non-null   float64
 18  checking_status_no checking                    1000 non-null   float64
 19  personal_status_male div/sep                   1000 non-null   float64
 20  personal_status_male mar/wid                   1000 non-null   float64
 21  personal_status_male single                    1000 non-null   float64
 22  property_magnitude_life insurance              1000 non-null   float64
 23  property_magnitude_no known property           1000 non-null   float64
 24  property_magnitude_real estate                 1000 non-null   float64
 25  job_skilled                                    1000 non-null   float64
 26  job_unemp/unskilled non res                    1000 non-null   float64
 27  job_unskilled resident                         1000 non-null   float64
 28  credit_history_critical/other existing credit  1000 non-null   float64
 29  credit_history_delayed previously              1000 non-null   float64
 30  credit_history_existing paid                   1000 non-null   float64
 31  credit_history_no credits/all paid             1000 non-null   float64
 32  savings_status_500<=X<1000                     1000 non-null   float64
 33  savings_status_<100                            1000 non-null   float64
 34  savings_status_>=1000                          1000 non-null   float64
 35  savings_status_no known savings                1000 non-null   float64
 36  employment_4<=X<7                              1000 non-null   float64
 37  employment_<1                                  1000 non-null   float64
 38  employment_>=7                                 1000 non-null   float64
 39  employment_unemployed                          1000 non-null   float64
 40  purpose_domestic appliance                     1000 non-null   float64
 41  purpose_education                              1000 non-null   float64
 42  purpose_furniture/equipment                    1000 non-null   float64
 43  purpose_new car                                1000 non-null   float64
 44  purpose_other                                  1000 non-null   float64
 45  purpose_radio/tv                               1000 non-null   float64
 46  purpose_repairs                                1000 non-null   float64
 47  purpose_retraining                             1000 non-null   float64
 48  purpose_used car                               1000 non-null   float64
dtypes: float64(42), int64(7)
memory usage: 382.9 KB

df_proc.corr()

df_proc.corr().iloc[9]

duration                                        -0.21
credit_amount                                   -0.15
installment_commitment                          -0.07
residence_since                                 -0.00
age                                              0.09
existing_credits                                 0.05
num_dependents                                   0.00
own_telephone                                    0.04
foreign_worker                                  -0.08
class                                            1.00
other_parties_guarantor                          0.06
other_parties_none                               0.00
other_payment_plans_none                         0.11
other_payment_plans_stores                      -0.05
housing_own                                      0.13
housing_rent                                    -0.09
checking_status_<0                              -0.26
checking_status_>=200                            0.04
checking_status_no checking                      0.32
personal_status_male div/sep                    -0.05
personal_status_male mar/wid                     0.02
personal_status_male single                      0.08
property_magnitude_life insurance               -0.01
property_magnitude_no known property            -0.13
property_magnitude_real estate                   0.12
job_skilled                                      0.01
job_unemp/unskilled non res                     -0.01
job_unskilled resident                           0.02
credit_history_critical/other existing credit    0.18
credit_history_delayed previously               -0.01
credit_history_existing paid                    -0.04
credit_history_no credits/all paid              -0.14
savings_status_500<=X<1000                       0.07
savings_status_<100                             -0.16
savings_status_>=1000                            0.09
savings_status_no known savings                  0.13
employment_4<=X<7                                0.08
employment_<1                                   -0.11
employment_>=7                                   0.06
employment_unemployed                           -0.04
purpose_domestic appliance                      -0.01
purpose_education                               -0.07
purpose_furniture/equipment                     -0.02
purpose_new car                                 -0.10
purpose_other                                   -0.03
purpose_radio/tv                                 0.11
purpose_repairs                                 -0.02
purpose_retraining                               0.04
purpose_used car                                 0.10
Name: class, dtype: float64

X = df_proc.drop(columns= ['class'], axis= 1)
y = df_proc['class']

y.head()

0    1
1    0
2    1
3    1
4    0
Name: class, dtype: int64

X.head()

X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, stratify=y, shuffle=True)

print('tamanho total dos dados são {}, para treino temos {} e teste são {}'.format(df_proc.shape[0], len(X_treino), len(X_teste)))

tamanho total dos dados são 1000, para treino temos 750 e teste são 250

num_folds = 6
seed = 42
kfold = KFold(num_folds, shuffle=True, random_state = seed)

X.head()

vif_data = pd.DataFrame()
vif_data['Feature'] = X.columns
vif_data['VIF'] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]

print("Valores de VIF para cada variável:")
print(vif_data)

Valores de VIF para cada variável:
                                          Feature   VIF
0                                        duration  6.07
1                                   credit_amount  5.31
2                          installment_commitment 10.57
3                                 residence_since  9.96
4                                             age  4.56
5                                existing_credits 11.13
6                                  num_dependents 12.35
7                                   own_telephone  2.23
8                                  foreign_worker 26.03
9                         other_parties_guarantor  2.24
10                             other_parties_none 21.62
11                       other_payment_plans_none  7.69
12                     other_payment_plans_stores  1.41
13                                    housing_own 15.97
14                                   housing_rent  4.54
15                             checking_status_<0  2.33
16                          checking_status_>=200  1.31
17                    checking_status_no checking  2.80
18                   personal_status_male div/sep  1.24
19                   personal_status_male mar/wid  1.37
20                    personal_status_male single  3.55
21              property_magnitude_life insurance  1.85
22           property_magnitude_no known property  3.01
23                 property_magnitude_real estate  2.21
24                                    job_skilled  7.16
25                    job_unemp/unskilled non res  1.43
26                         job_unskilled resident  3.49
27  credit_history_critical/other existing credit  8.59
28              credit_history_delayed previously  3.11
29                   credit_history_existing paid 12.28
30             credit_history_no credits/all paid  1.99
31                     savings_status_500<=X<1000  1.70
32                            savings_status_<100  7.26
33                          savings_status_>=1000  1.54
34                savings_status_no known savings  2.94
35                              employment_4<=X<7  1.58
36                                  employment_<1  1.62
37                                 employment_>=7  2.24
38                          employment_unemployed  1.70
39                     purpose_domestic appliance  1.18
40                              purpose_education  1.66
41                    purpose_furniture/equipment  3.17
42                                purpose_new car  3.69
43                                  purpose_other  1.21
44                               purpose_radio/tv  4.32
45                                purpose_repairs  1.29
46                             purpose_retraining  1.16
47                               purpose_used car  2.31

modelo_v2 = LogisticRegression()

# Executar cross-validation com múltiplas métricas
cv_results = cross_validate(modelo_v2, X_treino, y_treino, cv=kfold, scoring=['accuracy', 'precision', 'recall', 'f1'])

# Exibir métricas médias
print(f"Acurácia Média: {cv_results['test_accuracy'].mean():.4f}")
print(f"Precisão Média: {cv_results['test_precision'].mean():.4f}")
print(f"Recall Médio: {cv_results['test_recall'].mean():.4f}")
print(f"F1-Score Médio: {cv_results['test_f1'].mean():.4f}")

Acurácia Média: 0.7493
Precisão Média: 0.7938
Recall Médio: 0.8689
F1-Score Médio: 0.8283

ridge_model = LogisticRegression(penalty='l2', solver='lbfgs', max_iter=1000, random_state=42)

ridge_model.fit(X_treino, y_treino)

LogisticRegression(max_iter=1000, random_state=42)

LogisticRegression(max_iter=1000, random_state=42)

y_pred = ridge_model.predict(X_teste)
print("\nRelatório de Classificação:\n", classification_report(y_teste, y_pred))

Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.58      0.44      0.50        75
           1       0.78      0.86      0.82       175

    accuracy                           0.74       250
   macro avg       0.68      0.65      0.66       250
weighted avg       0.72      0.74      0.72       250

# Avaliar coeficientes após regularização
coef_df = pd.DataFrame({'Feature': X_treino.columns, 'Coefficient': ridge_model.coef_[0]})
print(coef_df.sort_values(by='Coefficient', ascending=False))

                                          Feature  Coefficient
17                    checking_status_no checking         1.34
27  credit_history_critical/other existing credit         1.26
9                         other_parties_guarantor         1.07
28              credit_history_delayed previously         0.79
33                          savings_status_>=1000         0.75
4                                             age         0.70
47                               purpose_used car         0.70
46                             purpose_retraining         0.52
11                       other_payment_plans_none         0.50
34                savings_status_no known savings         0.46
35                              employment_4<=X<7         0.44
10                             other_parties_none         0.41
20                    personal_status_male single         0.37
16                          checking_status_>=200         0.36
43                                  purpose_other         0.35
7                                   own_telephone         0.29
25                    job_unemp/unskilled non res         0.28
44                               purpose_radio/tv         0.25
26                         job_unskilled resident         0.20
41                    purpose_furniture/equipment         0.18
29                   credit_history_existing paid         0.17
19                   personal_status_male mar/wid         0.12
23                 property_magnitude_real estate         0.10
37                                 employment_>=7         0.07
39                     purpose_domestic appliance         0.05
12                     other_payment_plans_stores         0.03
31                     savings_status_500<=X<1000         0.02
13                                    housing_own         0.02
3                                 residence_since        -0.00
21              property_magnitude_life insurance        -0.02
24                                    job_skilled        -0.07
36                                  employment_<1        -0.15
22           property_magnitude_no known property        -0.16
6                                  num_dependents        -0.21
45                                purpose_repairs        -0.29
2                          installment_commitment        -0.31
5                                existing_credits        -0.33
15                             checking_status_<0        -0.36
14                                   housing_rent        -0.38
38                          employment_unemployed        -0.41
30             credit_history_no credits/all paid        -0.46
18                   personal_status_male div/sep        -0.57
32                            savings_status_<100        -0.58
42                                purpose_new car        -0.60
40                              purpose_education        -0.99
8                                  foreign_worker        -1.02
1                                   credit_amount        -1.66
0                                        duration        -1.80

# Probabilidades previstas (classe positiva)
y_prob = ridge_model.predict_proba(X_teste)[:, 1]

# Curva ROC
fpr, tpr, thresholds = roc_curve(y_teste, y_prob)
auc = roc_auc_score(y_teste, y_prob)

# Plot da Curva ROC
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, label=f'AUC = {auc:.2f}', color='blue')
plt.plot([0, 1], [0, 1], 'k--', label='Modelo Aleatório')
plt.title('Curva ROC')
plt.xlabel('Taxa de Falsos Positivos (FPR)')
plt.ylabel('Taxa de Verdadeiros Positivos (TPR)')
plt.legend(loc='lower right')
plt.grid()
plt.show()
plt.tight_layout();

<Figure size 1000x600 with 0 Axes>

# Matriz de confusão
cm = confusion_matrix(y_teste, y_pred)
tn, fp, fn, tp = cm.ravel()
specificity = tn / (tn + fp)
print(f"Especificidade: {specificity:.2f}")

disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=ridge_model.classes_)
disp.plot(cmap='Blues', values_format='d')
plt.title('Matriz de Confusão')
plt.grid(False)
plt.show()

Especificidade: 0.44

explainer = shap.Explainer(ridge_model, X_treino)
shap_values = explainer(X_teste)

shap.summary_plot(shap_values, X_teste)

Variável	Tipo da Variável	Descrição
checking_status	Categórica Ordinal	Situação da conta corrente do cliente. Indica o nível de saldo disponível na conta corrente. Geralmente, um saldo menor ou "sem conta" pode indicar maior risco.
duration	Numérica Contínua	Duração do crédito em meses. Tempo total que o cliente terá para pagar o empréstimo. Prazos mais longos podem aumentar o risco devido a incertezas futuras.
credit_history	Categórica Ordinal	Histórico de crédito do cliente. Avalia o comportamento de pagamento em créditos anteriores. Um histórico problemático (crédito em atraso, crítico) sinaliza maior risco.
purpose	Categórica Nominal	Propósito do crédito. Indica para que o cliente pretende usar o dinheiro do empréstimo. Alguns propósitos (ex: carro novo, casa) podem ser vistos como menos arriscados que outros (ex: negócios, "outros").
credit_amount	Numérica Contínua	Valor do crédito solicitado. Montante total do empréstimo. Valores muito altos em relação à renda do cliente podem aumentar o risco de inadimplência.
savings_status	Categórica Ordinal	Reserva financeira do cliente. Indica o nível de poupança ou reserva financeira. Mais poupança geralmente indica menor risco.
employment	Categórica Ordinal	Tempo de emprego atual. Indica a estabilidade profissional do cliente. Empregos mais longos geralmente indicam menor risco.
installment_commitment	Numérica Discreta	Taxa de comprometimento da parcela. Percentual da renda disponível do cliente que será destinada ao pagamento da parcela do crédito. Taxas muito altas (próximas de 4, que pode representar uma taxa alta em escala ordinal) indicam maior dificuldade de pagamento.
personal_status	Categórica Nominal	Estado civil e gênero. Pode influenciar o risco de crédito, embora o impacto seja menos direto e possa estar ligado a fatores socioeconômicos associados a cada categoria.
other_parties	Categórica Nominal	Outras partes envolvidas no crédito. Indica se há avalistas ou coobrigados).
residence_since	Numérica Discreta	Tempo de residência atual em anos. Estabilidade residencial pode indicar maior estabilidade geral do cliente, sugerindo menor risco.
property_magnitude	Categórica Ordinal	Bens móveis. Indica o tipo de propriedade que o cliente possui (se possui alguma). Propriedades de maior valor (ex: real estate - imóveis) podem ser vistas como garantia, reduzindo o risco para o credor.
age	Numérica Contínua	Idade do cliente em anos. A idade pode estar correlacionada com risco de crédito de maneiras complexas. Clientes muito jovens podem ter menos histórico, enquanto clientes mais velhos podem ter mais estabilidade.
other_payment_plans	Categórica Nominal	Outros planos de pagamento. Indica se o cliente possui outros compromissos financeiros (ex: outras dívidas, planos de pagamento parcelados). Muitos planos podem sobrecarregar o orçamento e aumentar o risco.
housing	Categórica Nominal	Tipo de moradia. Indica se o cliente é proprietário, aluga ou mora de favor. Ser proprietário pode indicar maior estabilidade financeira.
existing_credits	Numérica Discreta	Número de créditos existentes. Quantidade de outros créditos que o cliente já possui. Muitos créditos podem indicar alta alavancagem e maior risco.
job	Categórica Ordinal	Tipo de emprego. Indica a qualificação profissional e nível hierárquico do emprego. Empregos de maior qualificação (ex: "high qualif/self emp/mgmt") geralmente indicam maior estabilidade e menor risco.
num_dependents	Numérica Discreta	Número de dependentes. Quantidade de pessoas que dependem financeiramente do cliente. Mais dependentes podem aumentar a pressão sobre o orçamento familiar e potencialmente aumentar o risco.
own_telephone	Categórica Binária	Possui telefone registrado. Em datasets mais antigos, a posse de telefone poderia ser um indicador de estabilidade e acessibilidade do cliente. Hoje em dia, pode ter menos relevância.
foreign_worker	Categórica Binária	Trabalhador estrangeiro. Pode ser um fator de risco em alguns contextos (ex: instabilidade de residência, barreiras linguísticas/culturais em certos casos). No entanto, generalizações sobre risco baseadas em nacionalidade são problemáticas e podem ser discriminatórias.
class	Categórica Binária	Classe de risco de crédito (Variável Alvo). Indica se o cliente é considerado um "bom" ou "mau" pagador, com base em dados históricos. É a variável que o modelo de machine learning tentará prever.

Variável	Coeficiente	Impacto
`checking_status_no checking`	1.34	Aumenta a chance de ser bom pagador
`credit_history_critical/other existing credit`	1.26	Aumenta a chance de ser bom pagador
`other_parties_guarantor`	1.07	Ter um garantidor aumenta a chance de bom pagador
`credit_history_delayed previously`	0.79	Histórico de atraso favorece bom pagador
`savings_status_>=1000`	0.75	Alto saldo de poupança favorece bom pagador
`age`	0.70	Idade maior favorece ser bom pagador
`purpose_used car`	0.70	Empréstimos para carros usados associam-se a bom pagador
`purpose_retraining`	0.52	Financiamento para requalificação profissional é positivo
`other_payment_plans_none`	0.50	Não possuir outros planos de pagamento aumenta chance de bom pagador
`savings_status_no known savings`	0.46	Não ter poupança favorece bom pagador
`employment_4<=X<7`	0.44	Tempo de emprego entre 4 e 7 anos favorece bom pagador
`checking_status_<0`	-0.36	Saldo negativo reduz chance de ser bom pagador
`employment_unemployed`	-0.41	Desemprego reduz chance de ser bom pagador
`credit_amount`	-1.66	Valores elevados de crédito estão associados a inadimplência
`duration`	-1.80	Duração maior do crédito reduz chance de ser bom pagador

Verdadeiro \ Predito	Mau Pagador (0)	Bom Pagador (1)
Mau Pagador (0)	33 (Verdadeiro Negativo - TN)	42 (Falso Positivo - FP)
Bom Pagador (1)	24 (Falso Negativo - FN)	151 (Verdadeiro Positivo - TP)

Programa de Pós-graduação em Computação Aplicada – PPCA (UnB)

Análise Estatística de Dados e Informações - Prova Final

Professor: João Gabriel de Moraes Souza

Aluno: Angelo Donizete Buso Júnior

Questão 4¶

1. Compreensão Problema de Negócio¶

1.1 Dicionário dados¶

2. Coleta de Dados¶

2.1 Carga dados¶

3. Análise Exploratória¶

3.1 Visão Geral dataSet¶

3.1.1 Variáveis Explicatórias e Variável Alvo¶

3.1.2 Variável Alvo¶

3.1.2.1 Amplitude¶

3.1.2.2 Balanceamento dos Dados¶

3.1.2.3 Plots Variável Alvo¶

3.1.2.4 Relações com a variável alvo¶

3.1.3 Preditores Categóricos¶

3.1.4 Preditores Numéricos¶

3.1.4.1 Distribuição dos Dados – Assimetria (Skewness) e Curtose (Kurtosis)¶

3.1.4.2 Identificação de Outliers¶

3.1.4.3 Avaliando a Multicolinearidade¶

4. Pré-Processamento dos Dados¶

Preparando os Dados para Machine Learning¶

4.1 Transformação de Variáveis/Atributos¶

4.1.1 Imputação de Valores Ausentes¶

4.2 Feature Scaling¶

4.2.1 Nomalização¶

4.2.1.1 MinMaxScaler¶

4.3 Feature Engineer¶

4.3.1 Codificação de Variáveis Categóricas (Dummies)¶

4.4 Split dos dados¶

4.4.1 Cross Validation - K folds¶

4.5 Avaliação de Multicolinearidade¶

5. Seleção Algoritmos¶

5.1 Validação Cruzada¶

5.2 Treinamento modelo¶

5.3 SHAP value¶

6. Conclusões¶

	checking_status	duration	credit_history	purpose	credit_amount	savings_status	employment	installment_commitment	personal_status	other_parties	...	property_magnitude	age	other_payment_plans	housing	existing_credits	job	num_dependents	own_telephone	foreign_worker	class
0	<0	6.00	critical/other existing credit	radio/tv	1169.00	no known savings	>=7	4.00	male single	none	...	real estate	67.00	none	own	2.00	skilled	1.00	yes	yes	good
1	0<=X<200	48.00	existing paid	radio/tv	5951.00	<100	1<=X<4	2.00	female div/dep/mar	none	...	real estate	22.00	none	own	1.00	skilled	1.00	none	yes	bad
2	no checking	12.00	critical/other existing credit	education	2096.00	<100	4<=X<7	2.00	male single	none	...	real estate	49.00	none	own	1.00	unskilled resident	2.00	none	yes	good
3	<0	42.00	existing paid	furniture/equipment	7882.00	<100	4<=X<7	2.00	male single	guarantor	...	life insurance	45.00	none	for free	1.00	skilled	2.00	none	yes	good
4	<0	24.00	delayed previously	new car	4870.00	<100	1<=X<4	3.00	male single	none	...	no known property	53.00	none	for free	2.00	skilled	2.00	none	yes	bad

	duration	credit_amount	age
duration	1.00	0.62	-0.04
credit_amount	0.62	1.00	0.03
age	-0.04	0.03	1.00

	other_parties_guarantor	other_parties_none	other_payment_plans_none	housing_own	checking_status_<0	checking_status_no checking	...	purpose_education	purpose_furniture/equipment	purpose_new car	purpose_radio/tv
0	0.00	1.00	1.00	1.00	1.00	0.00	...	0.00	0.00	0.00	1.00
1	0.00	1.00	1.00	1.00	0.00	0.00	...	0.00	0.00	0.00	1.00
2	0.00	1.00	1.00	1.00	0.00	1.00	...	1.00	0.00	0.00	0.00
3	1.00	0.00	1.00	0.00	1.00	0.00	...	0.00	1.00	0.00	0.00
4	0.00	1.00	1.00	0.00	1.00	0.00	...	0.00	0.00	1.00	0.00

	duration	credit_amount	installment_commitment	residence_since	age	existing_credits	num_dependents	own_telephone	foreign_worker	class	...	purpose_education	purpose_furniture/equipment	purpose_new car	purpose_radio/tv
0	0.03	0.05	4	4	0.86	2	1	1	1	1	...	0.00	0.00	0.00	1.00
1	0.65	0.31	2	2	0.05	1	1	0	1	0	...	0.00	0.00	0.00	1.00
2	0.12	0.10	2	3	0.54	1	2	0	1	1	...	1.00	0.00	0.00	0.00
3	0.56	0.42	2	4	0.46	1	2	0	1	1	...	0.00	1.00	0.00	0.00
4	0.29	0.25	3	4	0.61	2	2	0	1	0	...	0.00	0.00	1.00	0.00

	class
count	1000
unique	2
top	good
freq	700

	mean	std
class
bad	33.96	11.22
good	36.22	11.38

	age	credit_amount	duration
class
bad	33.96	3938.13	24.86
good	36.22	2985.46	19.21