# Análise de Dados e Visualização**
import pandas as pd               # Manipulação de dados
import numpy as np                # Operações numéricas
import matplotlib.pyplot as plt   # Visualização gráfica
import seaborn as sns             # Visualização gráfica avançada
from scipy import stats           # Estatísticas e testes estatísticos

# Pré-Processamento de Dados**
from sklearn.preprocessing import StandardScaler, LabelEncoder  # Normalização e codificação
from imblearn.under_sampling import RandomUnderSampler          # Balanceamento (undersampling)
from imblearn.over_sampling import SMOTE                        # Balanceamento (oversampling)
from collections import Counter                                 # Contagem de classes
from statsmodels.stats.outliers_influence import variance_inflation_factor  # VIF para multicolinearidade

# Algoritmos de Machine Learning**
from sklearn.linear_model import LogisticRegression  # Regressão Logística
from sklearn.svm import SVC                          # Support Vector Machine (SVM)

# Bibliotecas para Treinamento e Validação**
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, StratifiedKFold  # Divisão de dados e validação cruzada

# Avaliação de Modelos**
from sklearn.metrics import (
    confusion_matrix, accuracy_score, precision_score,
    recall_score, classification_report, roc_auc_score, roc_curve, ConfusionMatrixDisplay
)  # Métricas de avaliação
from scikitplot.metrics import plot_confusion_matrix, plot_roc  # Visualização de métricas

# Ignorar Warnings**
import warnings
warnings.filterwarnings("ignore")

# Verificação das Versões das Bibliotecas**
print("Versão do Seaborn:", sns.__version__)
print("Versão do Pandas:", pd.__version__)

Versão do Seaborn: 0.13.2
Versão do Pandas: 2.2.3

path = "/home/buso/mestrado/aedi-ppca/dados/Churn_Modelling.csv"
df = pd.read_csv(path)
print('Os dados possuem {} linhas e {} colunas'.format(df.shape[0], df.shape[1]))
df.head()

Os dados possuem 10000 linhas e 14 colunas

def visaogeral(df, mensagem):
    print(f'{mensagem}:\n')
    print("Qtd Observações:", df.shape[0])
    print("\nQtd Atributos:", df.shape[1])
    print("\nAtributos:")
    print(df.columns.values)
    # print(df.columns.tolist())
    print("\nQtd Valores missing:", df.isnull().sum().values.sum())
    print("\nValores Unicos:")
    print(df.nunique())

visaogeral(df,'Visão Geral do dataSet')

Visão Geral do dataSet:

Qtd Observações: 10000

Qtd Atributos: 14

Atributos:
['RowNumber' 'CustomerId' 'Surname' 'CreditScore' 'Geography' 'Gender'
 'Age' 'Tenure' 'Balance' 'NumOfProducts' 'HasCrCard' 'IsActiveMember'
 'EstimatedSalary' 'Exited']

Qtd Valores missing: 0

Valores Unicos:
RowNumber          10000
CustomerId         10000
Surname             2932
CreditScore          460
Geography              3
Gender                 2
Age                   70
Tenure                11
Balance             6382
NumOfProducts          4
HasCrCard              2
IsActiveMember         2
EstimatedSalary     9999
Exited                 2
dtype: int64

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 14 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   RowNumber        10000 non-null  int64  
 1   CustomerId       10000 non-null  int64  
 2   Surname          10000 non-null  object 
 3   CreditScore      10000 non-null  int64  
 4   Geography        10000 non-null  object 
 5   Gender           10000 non-null  object 
 6   Age              10000 non-null  int64  
 7   Tenure           10000 non-null  int64  
 8   Balance          10000 non-null  float64
 9   NumOfProducts    10000 non-null  int64  
 10  HasCrCard        10000 non-null  int64  
 11  IsActiveMember   10000 non-null  int64  
 12  EstimatedSalary  10000 non-null  float64
 13  Exited           10000 non-null  int64  
dtypes: float64(2), int64(9), object(3)
memory usage: 1.1+ MB

df.head()

df.tail()

print('Os dados possuem {:.2f} linhas e {} colunas'.format(df.shape[0], df.shape[1]))

Os dados possuem 10000.00 linhas e 14 colunas

# checando índice (endereço de cada obs) e sua distribuição
df.index

RangeIndex(start=0, stop=10000, step=1)

# checando os nomes das colunas
df.columns

Index(['RowNumber', 'CustomerId', 'Surname', 'CreditScore', 'Geography',
       'Gender', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'HasCrCard',
       'IsActiveMember', 'EstimatedSalary', 'Exited'],
      dtype='object')

df.head()

X_churn = df.drop(columns= 'Exited', axis= 1)
y_churn = df.Exited

y_churn.shape

(10000,)

print('DataSet original com {} atributos e {} observações'.format(df.shape[1], df.shape[0]))
print('As Variáveis Explicatórias possuem {} atributos e {} observações'.format(X_churn.shape[1], X_churn.shape[0]))
print('A Variável Alvo possuem {} observações'.format(y_churn.shape))

DataSet original com 14 atributos e 10000 observações
As Variáveis Explicatórias possuem 13 atributos e 10000 observações
A Variável Alvo possuem (10000,) observações

y_churn.describe()

count    10000.000000
mean         0.203700
std          0.402769
min          0.000000
25%          0.000000
50%          0.000000
75%          0.000000
max          1.000000
Name: Exited, dtype: float64

y_churn.unique()

array([1, 0])

print(y_churn.value_counts())
print("\nObserva-se que {:.4f}% do dataSet realizaram churn.".format((df.groupby('Exited').size()[1] / df.shape[0])*100))
print("Enquanto que {:.4f}% dos dados não realizaram churn.".format((df.groupby('Exited').size()[0] / df.shape[0])*100))

Exited
0    7963
1    2037
Name: count, dtype: int64

Observa-se que 20.3700% do dataSet realizaram churn.
Enquanto que 79.6300% dos dados não realizaram churn.

%matplotlib inline
# seto algumas caracteristicas para os plots. Padornizar Plots
sns.set_theme(style='darkgrid')
sns.set_palette("hls", 3)

balData = pd.DataFrame(df.Exited.value_counts())
balData['% total'] = round(100*balData['count']/df.shape[0], 2)

print(balData)
churn_plot = sns.countplot(data=df, x='Exited', order=df.Exited.value_counts().index, hue= 'Exited')

plt.title('Distribuição das classes')
plt.ylabel('Quantidade')

plt.tight_layout()
plt.show()

        count  % total
Exited                
0        7963    79.63
1        2037    20.37

df.head()

df_graph = df.copy()
df_graph.drop(['RowNumber', 'CustomerId', 'Surname'], axis=1, inplace= True)
print("dados originais \t", df.shape)
print("dados para gráficos \t", df_graph.shape)

dados originais 	 (10000, 14)
dados para gráficos 	 (10000, 11)

categoricas = [coluna for coluna in df_graph.select_dtypes(['object']).columns.tolist() if coluna != 'Exited']

categoricas

['Geography', 'Gender']

df_graph.groupby('Gender').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

plt.tight_layout()
plt.show()

df_graph['Gender'].value_counts()

Gender
Male      5457
Female    4543
Name: count, dtype: int64

figsize = (12, 1.2 * len(df_graph['Gender'].unique()))
plt.figure(figsize=figsize)
sns.violinplot(df_graph, x='CreditScore', y='Gender', inner='box', palette='Dark2')
sns.despine(top=True, right=True, bottom=True, left=True)

df_graph.groupby('Geography').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

plt.tight_layout()
plt.show()

df_graph['Geography'].value_counts()

Geography
France     5014
Germany    2509
Spain      2477
Name: count, dtype: int64

plt.subplots(figsize=(8, 8))
df_2dhist = pd.DataFrame({
    x_label: grp['Gender'].value_counts()
    for x_label, grp in df.groupby('Geography')
})
sns.heatmap(df_2dhist, cmap='viridis')

plt.xlabel('Geography')
_ = plt.ylabel('Gender')

plt.tight_layout()
plt.show()

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(20, 20))
ax = [ax1, ax2]

for coluna in range(len(categoricas)):
    sns.countplot(x = categoricas[coluna],
                  hue = "Exited",
                  data = df,
                  ax = ax[coluna])

selected_columns = df_graph[['NumOfProducts', 'HasCrCard', 'IsActiveMember']]

fig, (ax1, ax2, ax3) = plt.subplots(1, 3, figsize=(20, 20))
ax = [ax1, ax2, ax3]

for coluna in range(len(selected_columns.columns)):
    unique_values = df[selected_columns.columns[coluna]].unique()

    sns.histplot(x=selected_columns[selected_columns.columns[coluna]],
                  hue="Exited",
                  data=df,
                  ax=ax[coluna],
                  multiple="stack",
                  discrete=True,
                  bins=unique_values)

    ax[coluna].set_xticks(unique_values)
    ax[coluna].set_title(f'Plot {coluna + 1}')  # Adiciona o título numerado

plt.show()

# df_graph[['NumOfProducts', 'Exited']].value_counts()
# df_graph['NumOfProducts'].value_counts()

df_graph.dtypes

CreditScore          int64
Geography           object
Gender              object
Age                  int64
Tenure               int64
Balance            float64
NumOfProducts        int64
HasCrCard            int64
IsActiveMember       int64
EstimatedSalary    float64
Exited               int64
dtype: object

numericas = ['CreditScore', 'Age', 'Tenure', 'Balance', 'EstimatedSalary']
df_graph[numericas]

df_graph['CreditScore'].plot(kind='hist', bins=20, title='CreditScore')
plt.gca().spines[['top', 'right',]].set_visible(False)

plt.tight_layout()

df_graph['CreditScore'].mean()

650.5288

plt.figure(figsize=(8, 6))
sns.boxplot(x='Exited', y='CreditScore', data=df_graph, hue='Exited', palette='Dark2')

plt.title('CreditScore por Churn')
plt.xlabel('Churn (Exited)')
_ = plt.ylabel('Credit Score')

plt.tight_layout()

df_graph['Age'].plot(kind='hist', bins=20, title='Age')
plt.gca().spines[['top', 'right',]].set_visible(False)

plt.tight_layout()

plt.figure(figsize=(10, 6))
sns.histplot(data=df, x='Age', hue='Exited', multiple='stack', bins=20)
plt.title('Distribuição por idade dos clientes e o status do churn')
plt.xlabel('Age')
_ = plt.ylabel('Number of Customers')

plt.tight_layout()

df_graph.plot(kind='scatter', x='CreditScore', y='Age', s=35, alpha=.8)
plt.gca().spines[['top', 'right',]].set_visible(False)

plt.title('CreditScore por Idade')
plt.tight_layout()

df_graph.plot(kind='scatter', x='Balance', y='Age', s=32, alpha=.8)
plt.gca().spines[['top', 'right',]].set_visible(False)

plt.title('Saldo do cliente vs. Idade')
plt.tight_layout()

plt.figure(figsize=(8, 6))
plt.scatter(df_graph['Tenure'], df_graph['Balance'], c=df_graph['Exited'], cmap='viridis', alpha=0.5)

plt.title('Saldo do cliente vs. Tempo de conta')
plt.xlabel('Tempo de conta')
plt.ylabel('Saldo do cliente')
_ = plt.colorbar(label='Churn (Exited)')

plt.tight_layout()

fig, ax =  plt.subplots(1, 5, figsize=(20,5))

df[df.Exited == 0][numericas].hist(bins= 20, color= "#CB6D67", ax= ax, label= "Não")
df[df.Exited == 1][numericas].hist(bins= 20, color= "#67CB6D", ax= ax, label = "Sim")

plt.legend()
plt.tight_layout()

numericas

['CreditScore', 'Age', 'Tenure', 'Balance', 'EstimatedSalary']

df.groupby(['Exited'])[['EstimatedSalary', 'Balance']].agg([np.mean])

df.groupby(['Exited'])['Tenure'].agg([np.mean])

df['Age'].loc[df['Exited'] == 0].describe()

count    7963.000000
mean       37.408389
std        10.125363
min        18.000000
25%        31.000000
50%        36.000000
75%        41.000000
max        92.000000
Name: Age, dtype: float64

df['Age'].loc[df['Exited'] == 0].quantile([0.25, 0.5, 0.85, 0.95, 0.98])

0.25    31.0
0.50    36.0
0.85    45.0
0.95    59.0
0.98    68.0
Name: Age, dtype: float64

df[numericas].skew()

CreditScore       -0.071607
Age                1.011320
Tenure             0.010991
Balance           -0.141109
EstimatedSalary    0.002085
dtype: float64

fig, ((ax1, ax2, ax3), (ax4, ax5, ax6)) = plt.subplots(2, 3, figsize=(10,10))
ax = [ax1, ax2, ax3, ax4, ax5, ax6]

for coluna in range(len(numericas)):
  sns.distplot(df[numericas[coluna]], bins=20, hist=True, ax=ax[coluna],fit = stats.norm)

fig, ax = plt.subplots(1, 5, figsize=(10,10))


for coluna in range(len(numericas)):
    sns.boxplot(x = 'Exited', y = numericas[coluna], data=df, ax=ax[coluna], hue='Exited')

plt.tight_layout() 
plt.show()

df.head()

df_proc = df.copy()
df_proc.head()

df_proc.drop(['RowNumber', 'CustomerId', 'Surname'], axis= 1, inplace= True)
df_proc.head()

from sklearn.impute import SimpleImputer
import numpy as np

# Criando o imputador com estratégia de mediana
imp_num = SimpleImputer(missing_values=np.nan, strategy='median', add_indicator=True)

# Aplicando a imputação nos dados
dados_imputados = imp_num.fit_transform(dados)

df_proc.isnull().sum()

CreditScore        0
Geography          0
Gender             0
Age                0
Tenure             0
Balance            0
NumOfProducts      0
HasCrCard          0
IsActiveMember     0
EstimatedSalary    0
Exited             0
dtype: int64

label_encoder = LabelEncoder()

# variáveis categóricas
df_proc['Geography'] = label_encoder.fit_transform(df_proc['Geography'])
df_proc['Gender'] = label_encoder.fit_transform(df_proc['Gender'])

print(df_proc[['Geography', 'Gender']].head())

   Geography  Gender
0          0       0
1          2       0
2          0       0
3          0       0
4          2       0

df_proc['Age'].describe()

count    10000.000000
mean        38.921800
std         10.487806
min         18.000000
25%         32.000000
50%         37.000000
75%         44.000000
max         92.000000
Name: Age, dtype: float64

bins = [18, 32, 37, 44, 92]
labels = [1, 2, 3, 4]

df_proc['AgeGroup'] = pd.cut(df_proc['Age'], bins=bins, labels=labels, include_lowest=True)
print(df_proc[['Age', 'AgeGroup']].tail())
print(df_proc['AgeGroup'].value_counts())

      Age AgeGroup
9995   39        3
9996   35        2
9997   36        2
9998   42        3
9999   28        1
AgeGroup
1    2790
3    2573
4    2340
2    2297
Name: count, dtype: int64

df_proc.head()

df_proc.head()

X = df_proc.drop(columns= ['Exited', 'AgeGroup'], axis= 1)
y = df_proc.Exited

X_treino, X_teste, y_treino, y_teste = train_test_split(X, y, stratify=y, shuffle=True)

print('tamanho total dos dados são {}, para treino temos {} e teste são {}'.format(df_proc.shape[0], len(X_treino), len(X_teste)))

tamanho total dos dados são 10000, para treino temos 7500 e teste são 2500

# a. instanciar as classes dos métodos pretendidos
rus = RandomUnderSampler()

# b. usam método fit_sample() para usar a técnica
X_treino_rus, y_treino_rus = rus.fit_resample(X_treino, y_treino)

# Verificar a nova distribuição das classes
print("\Antes do balanceamento:", X_treino.shape[0])
print("\Depois de balancear:", X_treino_rus.shape[0])

\Antes do balanceamento: 7500
\Depois de balancear: 3056

X_treino_rus.isnull().sum()

CreditScore        0
Geography          0
Gender             0
Age                0
Tenure             0
Balance            0
NumOfProducts      0
HasCrCard          0
IsActiveMember     0
EstimatedSalary    0
dtype: int64

# a. instanciar as classes dos métodos pretendidos
smote = SMOTE(random_state=42)

# b. usam método fit_sample() para usar a técnica
X_resampled, y_resampled = smote.fit_resample(X_treino, y_treino)

# Verificar a nova distribuição das classes
print("Distribuição antes SMOTE:", Counter(y_treino))
print("Distribuição após SMOTE:", Counter(y_resampled))

Distribuição antes SMOTE: Counter({0: 5972, 1: 1528})
Distribuição após SMOTE: Counter({0: 5972, 1: 5972})

X_resampled.isnull().sum()

CreditScore        0
Geography          0
Gender             0
Age                0
Tenure             0
Balance            0
NumOfProducts      0
HasCrCard          0
IsActiveMember     0
EstimatedSalary    0
dtype: int64

# X_resampled = X_resampled.replace([np.inf, -np.inf], np.nan)
# X_resampled = X_resampled.dropna()

vif_data = pd.DataFrame()
vif_data['Feature'] = X_resampled.columns
vif_data['VIF'] = [variance_inflation_factor(X_resampled.values, i) for i in range(X_resampled.shape[1])]

print("Valores de VIF para cada variável:")
print(vif_data)

Valores de VIF para cada variável:
           Feature        VIF
0      CreditScore  22.035977
1        Geography   1.810074
2           Gender   1.774821
3              Age  13.754587
4           Tenure   3.992206
5          Balance   2.874863
6    NumOfProducts   7.062512
7        HasCrCard   2.661923
8   IsActiveMember   1.668364
9  EstimatedSalary   3.900885

# (a) instancia as classes dos algoritmos

algoritmos = [LogisticRegression()]

# (b) com dados desbalanceado
score_modelo = []
for classificador in algoritmos:
    score = cross_val_score(classificador,
                            X_treino,
                            y_treino,
                            scoring='recall')
    score_modelo.append(
        {'Estimator':classificador.__class__.__name__, 'Score médio':score.mean()}
        )
    print('Usando dados desbalanceados')
pd.DataFrame(score_modelo)

Usando dados desbalanceados

# (b) com dados balanceado com a técinca de UnderSampling
score_modelo = []
for classificador in algoritmos:
    score = cross_val_score(classificador,
                            X_treino_rus,
                            y_treino_rus,
                            scoring='recall')
    score_modelo.append(
        {'Estimator':classificador.__class__.__name__, 'Score médio':score.mean()}
        )
    print('Usando dados bancalanceados com a técnica de UnderSampling')
pd.DataFrame(score_modelo)

Usando dados bancalanceados com a técnica de UnderSampling

# (b) com dados balanceado com a técinca de OverSampling
score_modelo = []
for classificador in algoritmos:
    score = cross_val_score(classificador,
                            X_resampled,
                            y_resampled,
                            scoring='recall')
    score_modelo.append(
        {'Estimator':classificador.__class__.__name__, 'Score médio':score.mean()}
        )
    print('Usando dados bancalanceados com a técnica de OverSampling')
pd.DataFrame(score_modelo)

Usando dados bancalanceados com a técnica de OverSampling

# Instanciar o modelo
ridge_model = LogisticRegression(penalty='l2', solver='lbfgs', max_iter=1000, random_state=42)

# Treinar o modelo
ridge_model.fit(X_resampled, y_resampled)

LogisticRegression(max_iter=1000, random_state=42)

LogisticRegression(max_iter=1000, random_state=42)

# Avaliar coeficientes após regularização
coef_df = pd.DataFrame({'Feature': X_resampled.columns, 'Coefficient': ridge_model.coef_[0]})
print(coef_df.sort_values(by='Coefficient', ascending=False))

           Feature   Coefficient
3              Age  8.412219e-02
5          Balance  4.278016e-06
9  EstimatedSalary -1.426315e-07
0      CreditScore -1.227092e-03
4           Tenure -5.924735e-02
1        Geography -1.263432e-01
7        HasCrCard -6.052691e-01
6    NumOfProducts -6.306722e-01
2           Gender -1.344342e+00
8   IsActiveMember -1.713152e+00

# Probabilidades previstas (classe positiva)
y_prob = ridge_model.predict_proba(X_teste)[:, 1]

# Curva ROC
fpr, tpr, thresholds = roc_curve(y_teste, y_prob)
auc = roc_auc_score(y_teste, y_prob)

# Plot da Curva ROC
plt.figure(figsize=(8, 6))
plt.plot(fpr, tpr, label=f'AUC = {auc:.2f}', color='blue')
plt.plot([0, 1], [0, 1], 'k--', label='Modelo Aleatório')
plt.title('Curva ROC')
plt.xlabel('Taxa de Falsos Positivos (FPR)')
plt.ylabel('Taxa de Verdadeiros Positivos (TPR)')
plt.legend(loc='lower right')
plt.grid()
plt.show()
plt.tight_layout();

<Figure size 640x480 with 0 Axes>

# Impressão das métricas de classificação
y_pred = ridge_model.predict(X_teste)
print("\nRelatório de Classificação:\n", classification_report(y_teste, y_pred))

Relatório de Classificação:
               precision    recall  f1-score   support

           0       0.88      0.77      0.82      1991
           1       0.40      0.59      0.47       509

    accuracy                           0.73      2500
   macro avg       0.64      0.68      0.65      2500
weighted avg       0.78      0.73      0.75      2500

# Matriz de confusão
cm = confusion_matrix(y_teste, y_pred)
tn, fp, fn, tp = cm.ravel()
specificity = tn / (tn + fp)
print(f"Especificidade: {specificity:.2f}")

disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=ridge_model.classes_)
disp.plot(cmap='Blues', values_format='d')
plt.title('Matriz de Confusão')
plt.grid(False)
plt.show()

Especificidade: 0.77

	CreditScore	Age	Tenure	Balance	EstimatedSalary
0	619	42	2	0.00	101348.88
1	608	41	1	83807.86	112542.58
2	502	42	8	159660.80	113931.57
3	699	39	1	0.00	93826.63
4	850	43	2	125510.82	79084.10
...	...	...	...	...	...
9995	771	39	5	0.00	96270.64
9996	516	35	10	57369.61	101699.77
9997	709	36	7	0.00	42085.58
9998	772	42	3	75075.31	92888.52
9999	792	28	4	130142.79	38190.78

País	Codificação
França	0
Alemanha	1
Espanha	2

Gênero	Codificação
Feminino	0
Masculino	1

	RowNumber	CustomerId	Surname	CreditScore	Geography	Gender	Age	Tenure	Balance	NumOfProducts	HasCrCard	IsActiveMember	EstimatedSalary	Exited
0	1	15634602	Hargrave	619	France	Female	42	2	0.00	1	1	1	101348.88	1
1	2	15647311	Hill	608	Spain	Female	41	1	83807.86	1	0	1	112542.58	0
2	3	15619304	Onio	502	France	Female	42	8	159660.80	3	1	0	113931.57	1
3	4	15701354	Boni	699	France	Female	39	1	0.00	2	0	0	93826.63	0
4	5	15737888	Mitchell	850	Spain	Female	43	2	125510.82	1	1	1	79084.10	0

	RowNumber	CustomerId	Surname	CreditScore	Geography	Gender	Age	Tenure	Balance	NumOfProducts	HasCrCard	IsActiveMember	EstimatedSalary	Exited
9995	9996	15606229	Obijiaku	771	France	Male	39	5	0.00	2	1	0	96270.64	0
9996	9997	15569892	Johnstone	516	France	Male	35	10	57369.61	1	1	1	101699.77	0
9997	9998	15584532	Liu	709	France	Female	36	7	0.00	1	0	1	42085.58	1
9998	9999	15682355	Sabbatini	772	Germany	Male	42	3	75075.31	2	1	0	92888.52	1
9999	10000	15628319	Walker	792	France	Female	28	4	130142.79	1	1	0	38190.78	0

	EstimatedSalary	Balance
	mean	mean
Exited
0	99738.391772	72745.296779
1	101465.677531	91108.539337

	mean
Exited
0	5.033279
1	4.932744

Programa de Pós-graduação em Computação Aplicada – PPCA (UnB)

Análise Estatística de Dados e Informações

Professor: João Gabriel de Moraes Souza

Aluno: Angelo Donizete Buso Júnior

1. Compreensão do Problema de Negócio (Business Understanding)¶

1.1 Dicionário de Dados¶

Informações sobre os atributos:¶

2. Coleta Dados¶

2.1 Carga dados¶

3. Análise Exploratória¶

3.1 Visão Geral dataSet¶

3.1.1 Variáveis Explicatórias e Variável Alvo¶

3.1.2 Variável Alvo¶

3.1.2.1 Amplitude¶

3.1.2.2 Balanceamento dos Dados¶

3.1.2.3 Plots Variável Alvo¶

3.1.3 Preditores Categóricos¶

3.1.3.1 Plots dos Preditores Categóricos¶

⚠️ Atenção: Possibilidade de Bias em Variáveis¶

3.1.4 Preditores Numéricos¶

3.1.4.1 Plots dos Preditores Numéricos¶

Análise Geral dos Preditores Numéricos¶

3.1.4.2 Tabulação dos Preditores Numéricos¶

3.1.4.3 Distribuição dos Dados – Assimetria (Skewness) e Curtose (Kurtosis)¶

**3.1.4.4 Identificação de *Outliers***¶

4. Pré-Processamento dos Dados¶

Preparando os Dados para Machine Learning¶

4.1 Transformação de Variáveis/Atributos¶

4.1.1 Excluindo atributos sem relevancia¶

4.2 Feature Engineer - I¶

4.2.1 Imputação de Valores Ausentes¶

4.2.2 Codificação de Variáveis Categóricas (Dummies)¶

4.2.3 Discretização de Variáveis Numéricas¶

4.3 Split dados¶

4.3.1 Estático¶

4.4 Feature Engineer - II¶

4.4.1.Balanceamento de classes¶

4.4.1.1 Usando Undersampling¶

4.4.1.2 Usando Oversampling¶

4.5 Avaliação de Multicolinearidade¶

5. Seleção de Algoritmos¶

5.1 Algoritmos de Classificação¶

Conclusões¶

**⚠️ Atenção: Possibilidade de Bias em Variáveis**¶

**3.1.4.3 Distribuição dos Dados – Assimetria (Skewness) e Curtose (Kurtosis)**¶