import pandas as pd
import yfinance as yf
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
from scipy import optimize
import plotly.express as px
from scipy.stats import norm
import warnings
warnings.filterwarnings("ignore")

tickers = ['VLID3.SA', 'CAML3.SA', 'JHSF3.SA', 'ALPA4.SA', 'LOGG3.SA']
dados_acoes  = yf.download(tickers, start="2020-01-01", end="2024-11-15")['Adj Close']

# Ajustar o índice dos dados das ações para timezone-naive -> evitar problemas no joins
dados_acoes.index = dados_acoes.index.tz_localize(None)
dados_acoes.head()

[*********************100%***********************]  5 of 5 completed

dados_acoes.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 1216 entries, 2020-01-02 to 2024-11-14
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   ALPA4.SA  1216 non-null   float64
 1   CAML3.SA  1216 non-null   float64
 2   JHSF3.SA  1216 non-null   float64
 3   LOGG3.SA  1216 non-null   float64
 4   VLID3.SA  1216 non-null   float64
dtypes: float64(5)
memory usage: 57.0 KB

dados_smallcaps = pd.read_csv("/home/buso/mestrado/aedi-ppca/dados/small-cap-indice.csv", parse_dates=["Data"], dayfirst=True)

# Ajustar o índice dos dados do índice Small Caps para timezone-naive -> evitar problemas no joins
dados_smallcaps['Data'] = pd.to_datetime(dados_smallcaps['Data'])
dados_smallcaps.set_index('Data', inplace=True)
dados_smallcaps.rename(columns={"Último": "SMALL"}, inplace=True)

dados_smallcaps.head()

dados_smallcaps.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 1218 entries, 2024-11-15 to 2020-01-02
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   SMALL   1218 non-null   float64
dtypes: float64(1)
memory usage: 19.0 KB

dados_acoes = dados_acoes.join(dados_smallcaps)
dados_acoes.head()

dados_acoes.plot(title='Preços das Ações e Índice Small Caps', figsize=(12, 6))
plt.xlabel('Data')
plt.ylabel('Preço Ajustado (R$)')
plt.grid()
plt.show()

fig, axes = plt.subplots(2, 3, figsize=(18, 10))  # 2 linhas, 3 colunas

# 1. Papéis e índice
ativos = tickers + ['SMALL']

# 2. Gráficos individuais para cada papel
for i, ticker in enumerate(tickers):
    ax = axes[i // 3, i % 3]  # Seleciona o subplot apropriado
    dados_acoes[ticker].plot(ax=ax, title=f'Comportamento de {ticker}')
    ax.set_xlabel('Data')
    ax.set_ylabel('Preço Ajustado (R$)')
    ax.grid()

# 3. Gráfico conjunto com índice Small Caps
ax = axes[1, 2]
dados_acoes[ativos].plot(ax=ax, title='Comportamento Conjunto das Ações e Índice Small Caps')
ax.set_xlabel('Data')
ax.set_ylabel('Preço Ajustado (R$)')
ax.grid()

plt.tight_layout()
plt.show()

retorno_log = np.log(dados_acoes / dados_acoes.shift(1))

# Plot dos retornos logarítmicos
retorno_log.plot(title='Retornos Logarítmicos das Ações e Índice Small Caps', figsize=(12, 6))
plt.xlabel('Data')
plt.ylabel('Retorno Logarítmico')
plt.grid()
plt.show()

retorno_log.head()

retorno_log.describe()

retorno_log.mean()*100

ALPA4.SA   -0.128214
CAML3.SA    0.000122
JHSF3.SA   -0.019485
LOGG3.SA   -0.020042
VLID3.SA    0.048176
SMALL      -0.031674
dtype: float64

retorno_descritivo = retorno_log.agg(['mean', 'std']).rename(index={'mean': 'média do retorno', 'std': 'desvio do retorno'})
retorno_descritivo

fig, axes = plt.subplots(2, 3, figsize=(18, 10)) 

# 1. Papéis e índice
ativos = tickers + ['SMALL']

# 2. Gráficos individuais para cada papel
for i, ticker in enumerate(tickers):
    ax = axes[i // 3, i % 3]
    retorno_log[ticker].plot(ax=ax, title=f'Retorno Logarítmico de {ticker}')
    ax.set_xlabel('Data')
    ax.set_ylabel('Retorno Logarítmico')
    ax.grid()

# 3. Gráfico conjunto com índice Small Caps
ax = axes[1, 2]
retorno_log[ativos].plot(ax=ax, title='Retorno Logarítmico Conjunto (Ações e Índice)')
ax.set_xlabel('Data')
ax.set_ylabel('Retorno Logarítmico')
ax.grid()

plt.tight_layout()
plt.show()

correlacao = retorno_log.corr()
correlacao = np.round(correlacao, 2)
correlacao

custom_colorscale = [[0.0, 'green'], [0.5, 'blue'], [1.0, 'red']]

fig = px.imshow(correlacao, 
                text_auto=True,  
                aspect="auto",   
                color_continuous_scale=custom_colorscale,
                labels=dict(color="Correlações"),
                zmin=-1, zmax=1)
fig.show()

retorno_log.head()

retorno_log_simul = retorno_log.drop(columns=['SMALL']).reset_index(drop=True)
retorno_log_simul

len(dados_acoes.columns)

6

len(retorno_log_simul.columns)

5

log_ret = retorno_log_simul
num_ports = 50000
all_weights = np.zeros((num_ports, len(retorno_log_simul.columns)))
ret_arr = np.zeros(num_ports)
vol_arr = np.zeros(num_ports)
sharpe_arr = np.zeros(num_ports)

for x in range(num_ports):
    weights = np.array(np.random.random(5))
    weights = weights/np.sum(weights)

    # i. recepcionar todos os pesos
    all_weights[x,:] = weights
    
    # ii. retornos esperados
    ret_arr[x] = np.sum((log_ret.mean() * weights))
    
    # iii. volatilidade
    vol_arr[x] = np.sqrt(np.dot(weights.T, np.dot(log_ret.cov(), weights)))
    
    # iv. indice de Sharpe
    sharpe_arr[x] = ret_arr[x]/vol_arr[x]

melhores_pesos = all_weights[sharpe_arr.argmax(),:]

print("Melhor índice de Sharpe simulado: {}". format(sharpe_arr.max()))
print("Local do melhor índice de Sharpe simulado: {}". format(sharpe_arr.argmax()))
print("Pesos do Portfólio para o máxino índice de Sharpe: {}".format(all_weights[sharpe_arr.argmax(),:]))

Melhor índice de Sharpe simulado: 0.011902279657440095
Local do melhor índice de Sharpe simulado: 43169
Pesos do Portfólio para o máxino índice de Sharpe: [0.00356932 0.14814608 0.04613269 0.06390184 0.73825008]

max_sr_ret = ret_arr[sharpe_arr.argmax()]
max_sr_vol = vol_arr[sharpe_arr.argmax()]
print(max_sr_ret*100)
print(max_sr_vol*100)

0.03294699203967357
2.7681245095832088

plt.figure(figsize=(12,8))
plt.scatter(vol_arr, ret_arr, c=sharpe_arr, cmap='RdBu')
plt.colorbar(label='Sharpe Ratio')
plt.xlabel('Volatilidade')
plt.ylabel('Retorno')
plt.scatter(max_sr_vol, max_sr_ret,c='blue', marker='*', s=200, label= 'Melhor Carteira') # black dot
plt.legend()
plt.show()

print(log_ret.mean())

ALPA4.SA   -0.001282
CAML3.SA    0.000001
JHSF3.SA   -0.000195
LOGG3.SA   -0.000200
VLID3.SA    0.000482
dtype: float64

def get_ret_vol_sr(weights):
    weights = np.array(weights)
    ret = np.sum(log_ret.mean() * weights)
    vol = np.sqrt(np.dot(weights.T, np.dot(log_ret.cov(), weights)))
    sr = ret/vol
    return np.array([ret, vol, sr])

def neg_sharpe(weights):
    return get_ret_vol_sr(weights)[2] * -1

def check_sum(weights):
    return np.sum(weights)-1

def minimize_volatility(weights):
    return get_ret_vol_sr(weights)[1]

cons = ({'type': 'eq', 'fun': check_sum})
bounds = ((0,1), (0,1), (0,1), (0,1), (0,1))
init_guess = ((0.2),(0.2),(0.2),(0.2),(0.2))

op_results = optimize.minimize(neg_sharpe, init_guess, method="SLSQP", bounds= bounds, constraints=cons)
print(op_results)

 message: Optimization terminated successfully
 success: True
  status: 0
     fun: -0.014326218306554762
       x: [ 0.000e+00  4.163e-17  5.037e-18  4.111e-17  1.000e+00]
     nit: 10
     jac: [ 4.248e-02  2.687e-03  1.199e-02  1.114e-02  1.164e-10]
    nfev: 60
    njev: 10

frontier_y = np.linspace(-0.0010, 0.0004, 100)
frontier_x = []

for possible_return in frontier_y:
    cons = ({'type':'eq', 'fun':check_sum},
            {'type':'eq', 'fun': lambda w: get_ret_vol_sr(w)[0] - possible_return})
    
    result = optimize.minimize(minimize_volatility,init_guess,method='SLSQP', bounds=bounds, constraints=cons)
    frontier_x.append(result['fun'])

plt.figure(figsize=(12,8))
plt.scatter(vol_arr, ret_arr, c=sharpe_arr, cmap='RdBu')
plt.colorbar(label='Sharpe Ratio')
plt.xlabel('Volatilidade')
plt.ylabel('Retorno')
plt.plot(frontier_x, frontier_y, linewidth=3, c='black')
plt.scatter(max_sr_vol, max_sr_ret, c='blue', marker='*', s=250, label= 'Melhor Carteira')
plt.legend()
plt.show()

def alocacao_ativos(dataset, dinheiro_total, seed = 0, melhores_pesos = []):
  dataset = dataset.copy()

  if seed != 0:
    np.random.seed(seed)

  # 1  busca os melhores pesos pela simulação de monte carlo
  if len(melhores_pesos) > 0:
    pesos = melhores_pesos
    # print(f'passo 1 {pesos}')
  else:  
    pesos = np.random.random(len(dataset.columns) - 1)
    print(pesos, pesos.sum())
    pesos = pesos / pesos.sum()
    print(pesos, pesos.sum())

  # 2 
  datas = dataset['Date']
  # print(f'passo 2 {datas}')

  dataset.drop(labels = ['Date'], axis = 1, inplace = True)
  
  # 3 fator de normalização relativo ao valor inicial da série de dados. 
  colunas = dataset.columns
  # print(f'passo 3 {colunas}')
  for i in colunas:
    dataset[i] = (dataset[i] / dataset[i][0])

  # 4 aplica a distribuição do peso dos papeis da carteira 
  for i, acao in enumerate(dataset.columns):
    # print(f'passo 4 {i, acao}')
    dataset[acao] = dataset[acao] * pesos[i] * dinheiro_total
  
  # 5 Identificar as colunas não numéricas
  colunas_nao_numericas = dataset.select_dtypes(exclude=['number']).columns
  # Exibir as colunas e tipos de dados das colunas não numéricas
  # print("Colunas não numéricas e exemplos: passo 5")
  for col in colunas_nao_numericas:
    print(f"{col}: Tipo -> {dataset[col].dtype}, Exemplos -> {dataset[col].unique()[:5]}")
  
  # Selecionar apenas as colunas numéricas para somar
  dataset = dataset[dataset.select_dtypes(include=['number']).columns]
  # o valor total que a "aplicação inicial" deu/daria
  dataset['soma valor'] = dataset.sum(axis = 1)

  dataset['taxa retorno'] = 0.0
  for i in range(1, len(dataset)):
    dataset['taxa retorno'][i] = np.log(dataset['soma valor'][i] / dataset['soma valor'][i - 1]) * 100

  acoes_pesos = pd.DataFrame(data = {'Ações': colunas, 'Pesos': pesos})

  return dataset, datas, acoes_pesos, dataset.loc[len(dataset) - 1]['soma valor']

dados_acoes.head()

acoes_port = dados_acoes.copy()
acoes_port = acoes_port.drop(columns= ['SMALL']).reset_index()
acoes_port

melhores_pesos

array([0.00356932, 0.14814608, 0.04613269, 0.06390184, 0.73825008])

dataset, datas, acoes_pesos, soma_valor = alocacao_ativos(acoes_port, 35000, 0, melhores_pesos)
dataset

acoes_pesos

soma_valor

np.float64(54642.723982526964)

figura = px.line(title = 'Evolução do patrimônio')
for i in dataset.drop(columns = ['soma valor', 'taxa retorno']).columns:
  figura.add_scatter(x = datas, y = dataset[i], name = i)
figura.show()

figura = px.line(x = datas, y = dataset['soma valor'], 
                 title = 'Evolução do patrimônio da Carteira',
                 labels=dict(x="Data", y="Valor R$"))
figura.add_hline(y = dataset['soma valor'].mean(), 
                 line_color="green", line_dash="dot", )
figura.add_hline(y = 35000, 
                 line_color="red", line_dash="dot", )
figura.show()

dataset['soma valor'].mean()

np.float64(29762.86634806909)

def var(returns, confidence_level):
  returns = np.array(returns)
  z_score = norm.ppf(confidence_level)
  stdev = np.std(returns)
  var = -(returns.mean() + z_score * stdev)
  return var

# Calculate VaR at the 90% confidence level
confidence_level = 0.90
returns = dataset['taxa retorno']
value = dataset['soma valor']
var_90 = var(returns, confidence_level)
value_90 = var(value, confidence_level )
print(f'VaR no intervalo de confiança de 90% para os retornos é de {var_90:.2f} %')
print(f'VaR no intervalo de confiança de 90% para os retornos é de {value_90:.2f}' )

VaR no intervalo de confiança de 90% para os retornos é de -3.38 %
VaR no intervalo de confiança de 90% para os retornos é de -40935.94

media = dataset['soma valor'].mean()
print("Media de ganho", media)
desvp = dataset['soma valor'].std()
print('desvio padrão do ganho', desvp)

Media de ganho 29762.86634806909
desvio padrão do ganho 8721.979187088387

returns = dataset['taxa retorno']  # Retornos diários
confidence_level = 0.90  # Nível de confiança
var_90 = var(returns, confidence_level)  # Calculando o VaR

# Configuração do histograma
plt.figure(figsize=(12, 6))
hist_vals, bins, patches = plt.hist(returns, bins=50, color='skyblue', alpha=0.7, edgecolor='black', density=True)

# Linha do VaR
plt.axvline(x=var_90, color='red', linestyle='--', linewidth=2, label=f'VaR ({confidence_level*100:.0f}%) = {var_90:.2f}%')

# Destacar a área de risco (à esquerda do VaR)
bin_centers = 0.5 * (bins[:-1] + bins[1:])  # Posição dos centros das barras do histograma
plt.fill_betweenx(hist_vals, bins[:-1], var_90, where=(bins[:-1] <= var_90), color='red', alpha=0.2, label='Área de Risco')

# Títulos e legendas
plt.title('Distribuição dos Retornos e VaR', fontsize=14)
plt.xlabel('Retornos Diários (%)', fontsize=12)
plt.ylabel('Frequência (Densidade)', fontsize=12)
plt.legend(loc='upper left')
plt.grid(alpha=0.3)

# Exibir o gráfico
plt.show()

Papel	Setor	Descrição
VLID3 (Valid Soluções S.A.)	Tecnologia da Informação	A Valid é uma empresa brasileira especializada em soluções de segurança digital, identificação e certificação. Oferece serviços como emissão de documentos, certificação digital e soluções para meios de pagamento. Atua em segmentos como telecomunicações e bancos, com presença internacional.
CAML3 (Camil Alimentos S.A.)	Alimentos e Bebidas	A Camil é uma das maiores empresas de alimentos da América Latina, atuando nos segmentos de arroz, feijão, açúcar e pescados enlatados. Possui marcas reconhecidas e ampla distribuição no mercado brasileiro e internacional.
JHSF3 (JHSF Participações S.A.)	Construção Civil e Incorporação	A JHSF é uma empresa brasileira que atua nos setores de incorporação imobiliária, shopping centers, hotelaria e gastronomia. É conhecida por desenvolver projetos de alto padrão, como o complexo Cidade Jardim em São Paulo.
ALPA4 (Alpargatas S.A.)	Consumo Cíclico (Calçados e Vestuário)	A Alpargatas é uma empresa líder no setor de calçados, famosa por marcas como Havaianas e Osklen. Tem forte presença no mercado nacional e internacional, exportando produtos para diversos países.
LOGG3 (Log Commercial Properties e Participações S.A.)	Imobiliário	A LOG é especializada no desenvolvimento e locação de galpões logísticos e industriais, atuando em várias regiões do Brasil. Oferece soluções para empresas que necessitam de espaços para armazenamento e distribuição.

Ticker	ALPA4.SA	CAML3.SA	JHSF3.SA	LOGG3.SA	VLID3.SA
Date
2020-01-02	32.146427	7.718513	5.638634	28.244261	13.650017
2020-01-03	32.146427	7.760462	6.024435	27.318794	13.465775
2020-01-06	31.643213	7.601059	6.054113	28.104567	14.058558
2020-01-07	32.363499	7.433262	6.106046	28.375223	13.802219
2020-01-08	32.718704	7.483603	6.009596	27.947411	13.473783

	SMALL
Data
2024-11-15	1969.93
2024-11-14	1969.93
2024-11-13	1974.06
2024-11-12	1978.35
2024-11-11	1991.37

	ALPA4.SA	CAML3.SA	JHSF3.SA	LOGG3.SA	VLID3.SA	SMALL
Date
2020-01-02	32.146427	7.718513	5.638634	28.244261	13.650017	2894.58
2020-01-03	32.146427	7.760462	6.024435	27.318794	13.465775	2902.46
2020-01-06	31.643213	7.601059	6.054113	28.104567	14.058558	2899.97
2020-01-07	32.363499	7.433262	6.106046	28.375223	13.802219	2902.78
2020-01-08	32.718704	7.483603	6.009596	27.947411	13.473783	2884.84

	ALPA4.SA	CAML3.SA	JHSF3.SA	LOGG3.SA	VLID3.SA	SMALL
Date
2020-01-02	NaN	NaN	NaN	NaN	NaN	NaN
2020-01-03	0.000000	0.005420	0.066182	-0.033315	-0.013589	0.002719
2020-01-06	-0.015778	-0.020754	0.004914	0.028357	0.043080	-0.000858
2020-01-07	0.022508	-0.022323	0.008542	0.009584	-0.018402	0.000969
2020-01-08	0.010916	0.006749	-0.015922	-0.015192	-0.024084	-0.006199

Programa de Pós-graduação em Computação Aplicada – PPCA (UnB)

Análise Estatística de Dados e Informações

Professor: João Gabriel de Moraes Souza

Aluno: Angelo Donizete Buso Júnior

Medidas Descritivas Aplicadas à Finanças

Problemática a ser simulada

Coleta de dados

Ações das empresas listadas em bolsa

Índice SMALL B3

Dados a serem explorados

Análise Gráfica de Preço

Grid Gráfica de Preço

Análise de Tendências¶

Análise Gráfica de Retorno

Grid Gráfica dos Retornos

Simulação de Carteiras e Fronteira Eficiente

Metodologia

Visualização dos Resultados

Identificação da Carteira com Melhor Índice de Sharpe

Gráfico da Simulação feita e identificação da carteira com Melhor Índice de Sharpe

Fronteira Eficiente de Markowitz

Construção da Fronteira Eficiente

Funções Utilizadas

Cálculo da Fronteira Eficiente

Visualização

Simulação da Evolução do Patrimônio

O que é VaR (Value at Risk)?

Componentes do VaR

Conclusão

	ALPA4.SA	CAML3.SA	JHSF3.SA	LOGG3.SA	VLID3.SA	SMALL
count	1215.000000	1215.000000	1215.000000	1215.000000	1215.000000	1215.000000
mean	-0.001282	0.000001	-0.000195	-0.000200	0.000482	-0.000317
std	0.032848	0.024214	0.030979	0.029957	0.033628	0.019407
min	-0.233994	-0.137917	-0.179385	-0.203650	-0.189039	-0.182201
25%	-0.017035	-0.013234	-0.016891	-0.015936	-0.017142	-0.009461
50%	-0.001367	0.000000	-0.001436	-0.000287	-0.000966	0.000004
75%	0.015105	0.013376	0.016740	0.014523	0.018368	0.009637
max	0.254025	0.188280	0.152254	0.230119	0.163678	0.103693

	ALPA4.SA	CAML3.SA	JHSF3.SA	LOGG3.SA	VLID3.SA	SMALL
média do retorno	-0.001282	0.000001	-0.000195	-0.000200	0.000482	-0.000317
desvio do retorno	0.032848	0.024214	0.030979	0.029957	0.033628	0.019407

	ALPA4.SA	CAML3.SA	JHSF3.SA	LOGG3.SA	VLID3.SA	SMALL
ALPA4.SA	1.00	0.29	0.48	0.46	0.31	0.62
CAML3.SA	0.29	1.00	0.32	0.26	0.26	0.42
JHSF3.SA	0.48	0.32	1.00	0.57	0.47	0.75
LOGG3.SA	0.46	0.26	0.57	1.00	0.41	0.68
VLID3.SA	0.31	0.26	0.47	0.41	1.00	0.59
SMALL	0.62	0.42	0.75	0.68	0.59	1.00

	ALPA4.SA	CAML3.SA	JHSF3.SA	LOGG3.SA	VLID3.SA	soma valor	taxa retorno
0	124.926075	5185.112668	1614.644063	2236.564369	25838.752825	35000.000000	0.000000
1	124.926075	5213.293509	1725.119727	2163.279906	25489.993893	34716.613110	-0.812973
2	122.970507	5106.210157	1733.618096	2225.502472	26612.100407	35800.401639	3.074078
3	125.769649	4993.488394	1748.489389	2246.934822	26126.864231	35241.546485	-1.573343
4	127.150034	5027.305724	1720.870473	2213.057838	25505.152616	34593.536685	-1.855882
...	...	...	...	...	...	...	...
1211	25.376608	5266.725152	1300.046135	1849.796864	47967.267064	56409.211823	6.682764
1212	26.425871	5387.645065	1271.410784	1814.954758	49254.471328	57754.907806	2.357585
1213	26.387008	5360.773724	1271.410784	1770.610356	46698.992699	55128.174572	-4.654741
1214	26.348148	5280.160662	1274.274251	1710.428593	47418.310817	55709.522471	1.049017
1215	26.309285	5192.829685	1274.274251	1753.189228	46396.121532	54642.723983	-1.933503

	Ações	Pesos
0	ALPA4.SA	0.003569
1	CAML3.SA	0.148146
2	JHSF3.SA	0.046133
3	LOGG3.SA	0.063902
4	VLID3.SA	0.738250