import warnings
warnings.filterwarnings("ignore")

# Manipulação de Dados
import pandas as pd
from IPython.display import display
import numpy as np

# Visualização de Dados
import matplotlib.pyplot as plt
import matplotlib.patches as mpatches
import seaborn as sns

# Estatística e Testes Estatísticos
import shap
from scipy import stats
from scipy.stats import kurtosis, skew, f_oneway, shapiro, levene, kruskal
import statsmodels.api as sm
from statsmodels.formula.api import ols
from statsmodels.stats.outliers_influence import variance_inflation_factor

# Pré-Processamento de Dados
from sklearn.model_selection import KFold, cross_validate
from sklearn.preprocessing import StandardScaler, LabelEncoder, MinMaxScaler, OneHotEncoder
from imblearn.under_sampling import RandomUnderSampler
from imblearn.over_sampling import SMOTE
from collections import Counter

# Algoritmos de Machine Learning
from sklearn.linear_model import LinearRegression, LogisticRegression
from sklearn.svm import SVC

# Treinamento e Validação de Modelos
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV, StratifiedKFold

# Avaliação de Modelos
from sklearn.metrics import (
    mean_squared_error, mean_absolute_error, r2_score,
    confusion_matrix, accuracy_score, precision_score, recall_score,
    classification_report, roc_auc_score, roc_curve, ConfusionMatrixDisplay
)
from scikitplot.metrics import plot_confusion_matrix, plot_roc

# Configurações Opcionais
pd.set_option('display.float_format', '{:.2f}'.format)
sns.set_theme(style="whitegrid")
plt.rc("figure", figsize=(10, 6))

# Verificação de Versões
print("Versão do Seaborn:", sns.__version__)
print("Versão do Pandas:", pd.__version__)

Versão do Seaborn: 0.13.2
Versão do Pandas: 2.2.3

path = "/home/buso/mestrado/aedi-ppca/dados/kc_house_data.csv"

data = pd.read_csv(path)
data.head()

def visaogeral(df, messagem):
    print(f'{messagem}:\n')
    print("Qtd Observações:", df.shape[0])
    print("\nQtd Atributos:", df.shape[1])
    print("\nAtributos:")
    print(df.columns.tolist())
    print("\nQtd Valores missing:", df.isnull().sum().values.sum())
    print("\nValores Unicos: indicativo de valores categóricos")
    print(df.nunique().sort_values(ascending=True).head(40))

visaogeral(data,'Visão Geral dataSet treino')

Visão Geral dataSet treino:

Qtd Observações: 21613

Qtd Atributos: 21

Atributos:
['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade', 'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long', 'sqft_living15', 'sqft_lot15']

Qtd Valores missing: 0

Valores Unicos: indicativo de valores categóricos
waterfront           2
view                 5
condition            5
floors               6
grade               12
bedrooms            13
bathrooms           30
zipcode             70
yr_renovated        70
yr_built           116
sqft_basement      306
date               372
long               752
sqft_living15      777
sqft_above         946
sqft_living       1038
price             4028
lat               5034
sqft_lot15        8689
sqft_lot          9782
id               21436
dtype: int64

data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 21 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   price          21613 non-null  float64
 3   bedrooms       21613 non-null  int64  
 4   bathrooms      21613 non-null  float64
 5   sqft_living    21613 non-null  int64  
 6   sqft_lot       21613 non-null  int64  
 7   floors         21613 non-null  float64
 8   waterfront     21613 non-null  int64  
 9   view           21613 non-null  int64  
 10  condition      21613 non-null  int64  
 11  grade          21613 non-null  int64  
 12  sqft_above     21613 non-null  int64  
 13  sqft_basement  21613 non-null  int64  
 14  yr_built       21613 non-null  int64  
 15  yr_renovated   21613 non-null  int64  
 16  zipcode        21613 non-null  int64  
 17  lat            21613 non-null  float64
 18  long           21613 non-null  float64
 19  sqft_living15  21613 non-null  int64  
 20  sqft_lot15     21613 non-null  int64  
dtypes: float64(5), int64(15), object(1)
memory usage: 3.5+ MB

data.columns

Index(['id', 'date', 'price', 'bedrooms', 'bathrooms', 'sqft_living',
       'sqft_lot', 'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode',
       'lat', 'long', 'sqft_living15', 'sqft_lot15'],
      dtype='object')

X = data.drop("price", axis=1)
y = data["price"]

def missing_values_table(df):
    mis_val = df.isnull().sum()        
    mis_val_percent = 100 * df.isnull().sum() / len(df)        
    mis_val_table = pd.concat([mis_val, mis_val_percent], axis=1)        
    mis_val_table_ren_columns = mis_val_table.rename(
    columns = {0 : 'Missing Values', 1 : '% of Total Values'})        
    mis_val_table_ren_columns = mis_val_table_ren_columns[
    mis_val_table_ren_columns.iloc[:,1] != 0].sort_values(
    '% of Total Values', ascending=False).round(1)
    
    print ("Seu dataframe tem " + str(df.shape[1]) + " colunas.\n"      
        "Há " + str(mis_val_table_ren_columns.shape[0]) +
            " colunas que possuem valores ausentes.")
    
    return mis_val_table_ren_columns

y.isnull().sum()

0

missing_values_table(X)

Seu dataframe tem 20 colunas.
Há 0 colunas que possuem valores ausentes.

y.describe()

count     21613.00
mean     540088.14
std      367127.20
min       75000.00
25%      321950.00
50%      450000.00
75%      645000.00
max     7700000.00
Name: price, dtype: float64

y.quantile([0.80,0.90,0.93,0.94,0.99])

0.80    700108.00
0.90    887000.00
0.93    998000.00
0.94   1063560.00
0.99   1964400.00
Name: price, dtype: float64

plt.figure(figsize=(10, 6))
plt.plot(np.sort(y), label="Preço Venda", color='blue')
plt.title("Amplitude de Preço Venda")
plt.ylabel("Preço de Venda")
plt.legend()

plt.xticks([])
plt.ticklabel_format(style='plain', axis='y')

plt.tight_layout()
plt.show()

sns.set_style("whitegrid")

plt.figure(figsize=(10, 6))

sns.boxplot(y=y, color='blue')
plt.title("Boxplot do preço de venda")
plt.xlabel("Preço Venda")

plt.ticklabel_format(style='plain', axis='y')

plt.tight_layout()
plt.show()

plt.figure(figsize=(10, 6))
sm.qqplot(y, line='s', fit=True)

plt.title("QQ-Plot de SalePrice")

plt.tight_layout()
plt.show()

<Figure size 1000x600 with 0 Axes>

# Estatísticas descritivas adicionais
print("Skewness (Assimetria):", skew(y))
print("Kurtosis (Curtose):", kurtosis(y))

Skewness (Assimetria): 4.023789858140135
Kurtosis (Curtose): 34.577262255687536

plt.figure(figsize=(10, 6))
sns.histplot(y, kde=True, bins=30, color='blue')
plt.title("Histograma de preço de venda")
plt.xlabel("Preço de Venda")
plt.ylabel("Frequência")

plt.ticklabel_format(style='plain', axis='x')

plt.tight_layout()
plt.show()

log_price = np.log1p(y)  # log1p evita problemas com log(0)

# Criando o histograma
plt.figure(figsize=(10, 6))
sns.histplot(log_price, bins=20, kde=True, color='blue', alpha=0.6)
plt.xlabel("Log(Preço de Venda)")
plt.ylabel("Frequência")
plt.title("Histograma do Log do Preço de Venda")
plt.grid(True)
plt.show()

X.head()

localizacao = ['zipcode', 'lat', 'long', 'price']
df_localizacao = data[localizacao]

def atribuir_cor_preco(preco):
    if preco <= 500000:
        return 'green'  # Verde para preços até 500 mil
    elif preco <= 1000000:
        return 'yellow'  # Amarelo para preços entre 500 mil e 1 milhão
    elif preco <= 3000000: # Laranja para preços entre 1 milhão e 3 milhões
        return 'orange'
    elif preco <= 5000000: # Roxo para preços entre 3 milhões e 5 milhões
        return 'purple'
    else:
        return 'red'  # Vermelho para preços acima de 1 milhão

mapa = folium.Map(location=[df_localizacao['lat'].mean(), df_localizacao['long'].mean()], zoom_start=10)

for index, row in df_localizacao.iterrows():
    # Chama a função para obter a cor do preço
    cor = atribuir_cor_preco(row['price'])
    folium.CircleMarker(
        location=[row['lat'], row['long']],
        # tamanho do círculo
        radius=5,
        # define a cor dado o valor da linha
        color=cor,
        fill=True,
        fill_color=cor,
        fill_opacity=0.6,
        # exibe o preço no popup (quando clicar no círculo)
        popup=f"Preço: R${row['price']}"
    ).add_to(mapa)

mapa

estrutura_imovel = ['sqft_living', 'sqft_lot', 'sqft_above', 'sqft_basement', 'floors', 'bedrooms', 'bathrooms']

for feature in estrutura_imovel:
    plt.figure(figsize=(10, 6))
    sns.lineplot(x=X[feature], y=y, palette="viridis", label='Dados de dispersão')
    sns.regplot(x=X[feature], y=y, scatter=False, color='blue', label='Regressão Linear')

    plt.title(f"Relação entre {feature} e Preço Venda")

    plt.ticklabel_format(style='plain', axis='x')
    plt.ticklabel_format(style='plain', axis='y')
    plt.xlabel(feature)
    plt.ylabel("price")
    plt.legend()
    
    plt.tight_layout()
    plt.show()

X['floors'].unique()

array([1. , 2. , 1.5, 3. , 2.5, 3.5])

estrutura_imovel = ['sqft_living', 'sqft_lot', 'sqft_above', 'sqft_basement', 'floors', 'bedrooms', 'bathrooms', 'price']
data[estrutura_imovel].corr()

plt.figure(figsize=(12, 8))
correlation_matrix = data[estrutura_imovel].corr()
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", fmt=".2f")
plt.title("Matriz de Correlação - Variáveis Estruturais")
plt.show()

qualidade_construcao = ['grade', 'condition']

for feature in qualidade_construcao:
    plt.figure(figsize=(10, 6))
    sns.boxplot(x=data[feature], y=y, palette="viridis")

    plt.title(f"Relação entre {feature} e Preço Venda")
    plt.xlabel(feature)
    plt.ylabel("price")
    #plt.ticklabel_format(style='plain', axis='x')
    plt.ticklabel_format(style='plain', axis='y')
    
    plt.tight_layout()
    plt.show()

data.groupby('grade')['price'].describe()

grade_counts = data.groupby('grade').size().reset_index(name='counts')

plt.figure(figsize=(10, 6))
sns.barplot(x='grade', y='counts', data=grade_counts)

plt.title('Quantidade de cada categoria de avaliação de qualidade')
plt.xlabel('Grade')
plt.ylabel('Quantidade')

plt.tight_layout()
plt.show()

data.groupby('condition')['price'].describe()

category_counts_agg = data.groupby(['grade', 'condition']).agg(
    mean_price=('price', 'mean'),
    count=('price', 'size')
    ).reset_index()
category_counts_agg

category_counts = data.groupby(['grade', 'condition']).size().unstack(fill_value=0)
palette = sns.light_palette("blue", n_colors=len(category_counts.columns))

category_counts.plot(kind='bar', stacked=True, figsize=(10, 6), color=palette)

plt.title('Quantidade de cada categoria de grade e condition')
plt.xlabel('Grade')
plt.ylabel('Quantidade')
plt.legend(title='Condition')

plt.tight_layout()
plt.show()

idade_construcao = data[['yr_built', 'yr_renovated', 'price']]

plt.figure(figsize=(12,6))
sns.scatterplot(data=idade_construcao, x='yr_built', y='price', alpha=0.5)

plt.title("Relação entre Ano de Construção e Preço de Venda")
plt.xlabel("Ano de Construção")
plt.ylabel("Preço de Venda")
plt.ticklabel_format(style='plain', axis='y')

plt.tight_layout()
plt.show()

idade_construcao['decade_built'] = (idade_construcao['yr_built'] // 10) * 10  # Criar faixas por década

plt.figure(figsize=(12,6))
sns.boxplot(data=idade_construcao, x='decade_built', y='price')

plt.xticks(rotation=45)
plt.title("Distribuição dos Preços por Década de Construção")
plt.xlabel("Década de Construção")
plt.ylabel("Preço de Venda")
plt.ticklabel_format(style='plain', axis='y')

plt.tight_layout()
plt.show()

plt.figure(figsize=(12,6))
sns.scatterplot(data=idade_construcao[idade_construcao['yr_renovated'] > 0], x='yr_renovated', y='price', color='red', label="Reformados")
sns.scatterplot(data=idade_construcao, x='yr_built', y='price', alpha=0.5, label="Ano Construção")

plt.title("Ano de Construção x Ano de Reforma x Preço")
plt.xlabel("Ano")
plt.ylabel("Preço de Venda")
plt.legend()
plt.ticklabel_format(style='plain', axis='y')

plt.tight_layout()
plt.show()

# idade_construcao['yr_renovated'].value_counts()
print(f'Apenas {data.shape[0] - data['yr_renovated'].loc[data['yr_renovated'] == 0].count()} imóveis foram reformados.')

Apenas 914 imóveis foram reformados.

plt.figure(figsize=(8,5))
sns.boxplot(data= data, x='waterfront', y='price')

plt.title("Distribuição de Preços por Presença de Vista para o Mar")
plt.xlabel("Waterfront (0 = Não, 1 = Sim)")
plt.ylabel("Preço de Venda")
plt.ticklabel_format(style='plain', axis='y')

plt.tight_layout()
plt.show()

plt.figure(figsize=(8,5))
sns.boxplot(data=data, x='view', y='price')

plt.title("Distribuição de Preços por Qualidade da Vista")
plt.xlabel("Qualidade da Vista (0 a 4)")
plt.ylabel("Preço de Venda")
plt.ticklabel_format(style='plain', axis='y')

plt.tight_layout()
plt.show()
plt.show()

plt.figure(figsize=(8,5))
sns.scatterplot(data=data, x='sqft_living15', y='price', alpha=0.5)
plt.title("Relação entre Média de Área Útil das 15 Casas Mais Próximas e Preço")
plt.xlabel("Média sqft_living15")
plt.ylabel("Preço de Venda")
plt.show()

plt.figure(figsize=(8,5))
sns.histplot(data['sqft_living15'], bins=30, kde=True)
plt.title("Distribuição da Média da Área Útil das Casas Vizinhas")
plt.xlabel("Média sqft_living15")
plt.ylabel("Frequência")
plt.show()

X.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21613 entries, 0 to 21612
Data columns (total 20 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   id             21613 non-null  int64  
 1   date           21613 non-null  object 
 2   bedrooms       21613 non-null  int64  
 3   bathrooms      21613 non-null  float64
 4   sqft_living    21613 non-null  int64  
 5   sqft_lot       21613 non-null  int64  
 6   floors         21613 non-null  float64
 7   waterfront     21613 non-null  int64  
 8   view           21613 non-null  int64  
 9   condition      21613 non-null  int64  
 10  grade          21613 non-null  int64  
 11  sqft_above     21613 non-null  int64  
 12  sqft_basement  21613 non-null  int64  
 13  yr_built       21613 non-null  int64  
 14  yr_renovated   21613 non-null  int64  
 15  zipcode        21613 non-null  int64  
 16  lat            21613 non-null  float64
 17  long           21613 non-null  float64
 18  sqft_living15  21613 non-null  int64  
 19  sqft_lot15     21613 non-null  int64  
dtypes: float64(4), int64(15), object(1)
memory usage: 3.3+ MB

numerical_features = ['price', 'bedrooms', 'bathrooms', 'sqft_living',
       'floors', 'waterfront', 'view', 'condition', 'grade',
       'sqft_above', 'sqft_basement','sqft_living15']

vif_data = pd.DataFrame()
vif_data["Feature"] = numerical_features
vif_data["VIF"] = [variance_inflation_factor(data[numerical_features].values, i) for i in range(data[numerical_features].shape[1])]

print("\nVariance Inflation Factor (VIF):")
print(vif_data)

Variance Inflation Factor (VIF):
          Feature   VIF
0           price  7.43
1        bedrooms 21.35
2       bathrooms 24.91
3     sqft_living   inf
4          floors 15.80
5      waterfront  1.25
6            view  1.54
7       condition 21.04
8           grade 69.37
9      sqft_above   inf
10  sqft_basement   inf
11  sqft_living15 26.18

numerical_features = ['bedrooms', 'bathrooms', 'sqft_living', 'floors', 'waterfront', 'view', 'condition', 'grade']
vif_data = pd.DataFrame()
vif_data["Feature"] = numerical_features
vif_data["VIF"] = [variance_inflation_factor(data[numerical_features].values, i) for i in range(data[numerical_features].shape[1])]

print("\nVariance Inflation Factor (VIF):")
print(vif_data)

Variance Inflation Factor (VIF):
       Feature   VIF
0     bedrooms 20.49
1    bathrooms 24.38
2  sqft_living 19.37
3       floors 12.89
4   waterfront  1.20
5         view  1.43
6    condition 20.11
7        grade 55.09

# X = X.dropna()
# y = y[X.index]

X.columns

Index(['id', 'date', 'bedrooms', 'bathrooms', 'sqft_living', 'sqft_lot',
       'floors', 'waterfront', 'view', 'condition', 'grade', 'sqft_above',
       'sqft_basement', 'yr_built', 'yr_renovated', 'zipcode', 'lat', 'long',
       'sqft_living15', 'sqft_lot15'],
      dtype='object')

numerical_features = ['bedrooms', 'bathrooms', 'sqft_living',
       'floors', 'waterfront', 'view', 'condition', 'grade']
X = X[numerical_features]

X.head()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = LinearRegression()

print(X.dtypes)

bedrooms         int64
bathrooms      float64
sqft_living      int64
floors         float64
waterfront       int64
view             int64
condition        int64
grade            int64
dtype: object

model.fit(X_train, y_train)

LinearRegression()

LinearRegression()

coefficients = pd.DataFrame({"Feature": X.columns, "Coefficient": model.coef_})
intercept = model.intercept_

y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

residuals = y_test - y_pred_test

print("Coeficientes do modelo:")
print(coefficients)

Coeficientes do modelo:
       Feature  Coefficient
0     bedrooms    -30632.18
1    bathrooms     -7969.01
2  sqft_living       190.49
3       floors    -12012.75
4   waterfront    559483.69
5         view     64298.00
6    condition     53036.76
7        grade     98875.62

train_rmse = np.sqrt(mean_squared_error(y_train, y_pred_train))
test_rmse = np.sqrt(mean_squared_error(y_test, y_pred_test))

# quanto menor melhor
print(f'O MSE do modelo é: {train_rmse} para os dados de treino e {test_rmse} para os dados de teste!')

O MSE do modelo é: 228523.7241964183 para os dados de treino e 241797.04179854685 para os dados de teste!

train_mae = np.sqrt(mean_absolute_error(y_train, y_pred_train))
test_mae = np.sqrt(mean_absolute_error(y_test, y_pred_test))

# quanto menor melhor
print(f'O MAE do modelo é: {train_mae} para os dados de treino e {test_mae} para os dados de teste!')

O MAE do modelo é: 389.2203128991908 para os dados de treino e 393.44530256636966 para os dados de teste!

train_r2 = r2_score(y_train, y_pred_train)
test_r2 = r2_score(y_test, y_pred_test)
print(f'O R2 do modelo é: {train_r2} para os dados de treino e {test_r2} para os dados de teste!')

O R2 do modelo é: 0.6002782500272685 para os dados de treino e 0.6132618010425313 para os dados de teste!

print("O MSE do modelo é:", train_rmse)
print("O MAE do modelo é:", train_mae)
print("O R² do modelo é:", train_r2)

O MSE do modelo é: 228523.7241964183
O MAE do modelo é: 389.2203128991908
O R² do modelo é: 0.6002782500272685

plt.figure(figsize=(10, 6))
sns.scatterplot(x=y_pred_test, y=residuals, color="blue")
plt.axhline(0, linestyle="--", color="red")
plt.title("Resíduos vs. Valores Preditos")
plt.xlabel("Valores Preditos")
plt.ylabel("Resíduos")
plt.show()

plt.figure(figsize=(10, 6))
sns.histplot(residuals, kde=True, color="purple")
plt.title("Distribuição dos Resíduos")
plt.xlabel("Resíduos")
plt.ylabel("Frequência")
plt.show()

sm.qqplot(residuals, line="s")
plt.title("QQ-Plot dos Resíduos")
plt.show()

print("Média dos resíduos:", np.mean(residuals))
print("Desvio padrão dos resíduos:", np.std(residuals))

Média dos resíduos: 2608.9596338330316
Desvio padrão dos resíduos: 241782.9662158963

print("O MSE do modelo é:", train_rmse)
print("O MAE do modelo é:", train_mae)
print("O R² do modelo é:", train_r2)

O MSE do modelo é: 228523.7241964183
O MAE do modelo é: 389.2203128991908
O R² do modelo é: 0.6002782500272685

	id	date	price	bedrooms	bathrooms	sqft_living	sqft_lot	floors	...	grade	sqft_above	sqft_basement	yr_built	yr_renovated	zipcode	lat	long	sqft_living15	sqft_lot15
0	7129300520	20141013T000000	221900.00	3	1.00	1180	5650	1.00	...	7	1180	0	1955	0	98178	47.51	-122.26	1340	5650
1	6414100192	20141209T000000	538000.00	3	2.25	2570	7242	2.00	...	7	2170	400	1951	1991	98125	47.72	-122.32	1690	7639
2	5631500400	20150225T000000	180000.00	2	1.00	770	10000	1.00	...	6	770	0	1933	0	98028	47.74	-122.23	2720	8062
3	2487200875	20141209T000000	604000.00	4	3.00	1960	5000	1.00	...	7	1050	910	1965	0	98136	47.52	-122.39	1360	5000
4	1954400510	20150218T000000	510000.00	3	2.00	1680	8080	1.00	...	8	1680	0	1987	0	98074	47.62	-122.05	1800	7503

	id	date	bedrooms	bathrooms	sqft_living	sqft_lot	floors	condition	grade	sqft_above	sqft_basement	yr_built	yr_renovated	zipcode	lat	long	sqft_living15	sqft_lot15
0	7129300520	20141013T000000	3	1.00	1180	5650	1.00	3	7	1180	0	1955	0	98178	47.51	-122.26	1340	5650
1	6414100192	20141209T000000	3	2.25	2570	7242	2.00	3	7	2170	400	1951	1991	98125	47.72	-122.32	1690	7639
2	5631500400	20150225T000000	2	1.00	770	10000	1.00	3	6	770	0	1933	0	98028	47.74	-122.23	2720	8062
3	2487200875	20141209T000000	4	3.00	1960	5000	1.00	5	7	1050	910	1965	0	98136	47.52	-122.39	1360	5000
4	1954400510	20150218T000000	3	2.00	1680	8080	1.00	3	8	1680	0	1987	0	98074	47.62	-122.05	1800	7503

Variável	Relação com Preço	Insight
sqft_living	Positiva	Áreas úteis maiores aumentam o preço, mas com dispersão para imóveis grandes.
sqft_lot	Fraca	A área do terreno tem impacto limitado no preço, a menos que seja associada a outros fatores.
sqft_above	Positiva forte	Áreas construídas maiores acima do solo são preditores consistentes de preços mais altos.
sqft_basement	Moderada	Porões maiores agregam valor, mas o impacto depende de outros fatores.
floors	Não linear	Imóveis com 1,5 a 2,5 andares tendem a ser os mais valorizados.
bedrooms	Não linear	Imóveis com 3 a 5 quartos são os mais valorizados; mais quartos podem não agregar valor proporcional.
bathrooms	Positiva	Banheiros adicionais aumentam o preço, mas o impacto diminui após 5 banheiros.

	sqft_living	sqft_lot	sqft_above	sqft_basement	floors	bedrooms	bathrooms	price
sqft_living	1.00	0.17	0.88	0.44	0.35	0.58	0.75	0.70
sqft_lot	0.17	1.00	0.18	0.02	-0.01	0.03	0.09	0.09
sqft_above	0.88	0.18	1.00	-0.05	0.52	0.48	0.69	0.61
sqft_basement	0.44	0.02	-0.05	1.00	-0.25	0.30	0.28	0.32
floors	0.35	-0.01	0.52	-0.25	1.00	0.18	0.50	0.26
bedrooms	0.58	0.03	0.48	0.30	0.18	1.00	0.52	0.31
bathrooms	0.75	0.09	0.69	0.28	0.50	0.52	1.00	0.53
price	0.70	0.09	0.61	0.32	0.26	0.31	0.53	1.00

	count	mean	std	min	25%	50%	75%	max
grade
1	1.00	142000.00	NaN	142000.00	142000.00	142000.00	142000.00	142000.00
3	3.00	205666.67	113517.99	75000.00	168500.00	262000.00	271000.00	280000.00
4	29.00	214381.03	94306.17	80000.00	145000.00	205000.00	265000.00	435000.00
5	242.00	248523.97	118100.28	78000.00	175000.00	228700.00	295750.00	795000.00
6	2038.00	301919.64	122970.28	82000.00	215037.50	275276.50	366837.50	1200000.00
7	8981.00	402590.26	155876.92	90000.00	285000.00	375000.00	485000.00	2050000.00
8	6068.00	542852.77	217473.37	140000.00	390000.00	510000.00	640000.00	3070000.00
9	2615.00	773513.19	316120.08	230000.00	571500.00	720000.00	880000.00	2700000.00
10	1134.00	1071771.07	483545.09	316000.00	768087.50	914327.00	1250000.00	3600000.00
11	399.00	1496841.73	705099.30	420000.00	1036000.00	1284000.00	1700000.00	7062500.00
12	90.00	2191222.00	1027818.63	835000.00	1500000.00	1817500.00	2668500.00	5350000.00
13	13.00	3709615.38	1859449.90	1780000.00	2415000.00	2983000.00	3800000.00	7700000.00

	count	mean	std	min	25%	50%	75%	max
condition
1	30.00	334431.67	271172.80	78000.00	160000.00	262500.00	431125.00	1500000.00
2	172.00	327287.15	245418.41	80000.00	189750.00	279000.00	397300.00	2555000.00
3	14031.00	542012.58	364449.06	75000.00	329500.00	450000.00	640000.00	7062500.00
4	5679.00	521200.39	358516.23	89000.00	305000.00	440000.00	625000.00	7700000.00
5	1701.00	612418.09	410971.92	110000.00	350000.00	526000.00	725000.00	3650000.00

Variável	Coeficiente	Interpretação
`bedrooms`	-30.632,18	Cada quarto adicional está associado a uma redução média de 30.632,18 no preço do imóvel. Isso pode indicar que o número de quartos isoladamente não é um bom preditor e pode estar capturando efeitos já explicados por `sqft_living`.
`bathrooms`	-7.969,01	Cada banheiro adicional reduz o preço médio em 7.969,01. Esse efeito negativo pode ser um indicador de multicolinearidade, pois `bathrooms` pode estar correlacionado com `sqft_living` ou `floors`.
`sqft_living`	+190,49	Cada aumento de 1 pé quadrado na área útil aumenta o preço médio em 190,49. Este coeficiente reforça que o tamanho do imóvel é um dos principais fatores de valorização.
`floors`	-12.012,75	Cada andar adicional reduz o preço médio em 12.012,75. Esse resultado pode indicar que imóveis de muitos andares podem ser menos valorizados na região.
`waterfront`	+559.483,69	Casas com vista para o mar são, em média, 559.483,69 mais caras que aquelas sem vista. Forte impacto positivo!
`view`	+64.298,00	Cada ponto a mais na classificação da vista aumenta o preço médio em 64.298,00. A valorização crescente mostra que imóveis com melhores vistas têm um impacto direto no preço.
`condition`	+53.036,76	Cada melhoria na condição geral da casa aumenta o preço médio em 53.036,76. Faz sentido, pois imóveis em melhor estado de conservação são mais valorizados.
`grade`	+98.875,62	Cada nível a mais na classificação da qualidade da construção aumenta o preço médio em 98.875,62. Como esperado, a qualidade da construção tem um impacto significativo.

	grade	condition	mean_price	count
0	1	1	142000.00	1
1	3	2	280000.00	1
2	3	3	75000.00	1
3	3	5	262000.00	1
4	4	1	150000.00	1
5	4	2	179600.00	5
6	4	3	210000.00	13
7	4	4	243905.00	10
8	5	1	280833.33	9
9	5	2	206166.67	15
10	5	3	246993.46	100
11	5	4	245299.01	84
12	5	5	271127.59	34
13	6	1	303813.64	11
14	6	2	269483.90	59
15	6	3	290651.85	1035
16	6	4	318731.57	685
17	6	5	310140.86	248
18	7	1	334416.67	6
19	7	2	342698.52	75
20	7	3	385666.79	5234
21	7	4	412923.07	2833
22	7	5	479667.75	833
23	8	1	932500.00	2
24	8	2	421996.15	13
25	8	3	510102.77	4269
26	8	4	589527.30	1394
27	8	5	736538.05	390
28	9	2	715000.00	2
29	9	3	726587.80	2041
30	9	4	889664.52	446
31	9	5	1123419.90	126
32	10	2	1752500.00	2
33	10	3	1012934.13	921
34	10	4	1176284.59	156
35	10	5	1735830.36	55
36	11	3	1414401.44	332
37	11	4	1839916.43	56
38	11	5	2238477.27	11
39	12	3	2138601.08	74

Programa de Pós-graduação em Computação Aplicada – PPCA (UnB)

Análise Estatística de Dados e Informações - Prova Final

Professor: João Gabriel de Moraes Souza

Aluno: Angelo Donizete Buso Júnior

Questão 1¶

1. Compreensão do Problema de Negócio¶

1.1 Dicionário dados¶

2. Coleta Dados¶

2.1 Carga dados¶

3. Análise Exploratória¶

3.1 Visão Geral dos dados¶

3.1.1 Variáveis Explanatórias e Variável Dependente¶

3.1.2 Missing Values¶

3.1.3 Análise Variável Dependente¶

3.1.3.1 Amplitude¶

3.1.3.2 Plot - boxplot¶

3.1.3.3 Plots Variável Dependente¶

3.1.3.4 Distribuição Dados - skw/Kurt¶

3.1.3.5 Histograma Variável Dependente¶

3.1.4 Análise da Variáveis Explanatórias¶

3.1.4.1 Localização¶

3.1.4.2 Características Estruturais do Imóvel¶

3.1.4.2.1 Correlação dos atributos estruturais¶

3.1.4.3 Qualidade da Construção e Infraestrutura¶

3.1.4.4 Atributos Externos e Vizinhança¶

3.1.4.5 Avaliando a Multicolinearidade¶

4. Pré-Processamento dados¶

4.1 Feature Engineer¶

4.1.1 Imputação Missing¶

4.2 Split dados¶

4.2.1 Estático - nível linha¶

5. Seleção Algoritmos¶

5.1 Algoritmos Regressores¶

5.1.1 Regressão Linear¶

5.2 Performance para Regressores¶

5.2.1 MSE¶

5.2.2 MAE¶

5.2.3 R²¶

Consolidando as principais Técnicas de performance para Regressores¶

5.3 Distribuição dos resíduos¶

6. Conclusões¶