Visão Geral do Projeto
Este projeto, denominado "DataLab", teve como objetivo principal analisar dados financeiros históricos de ações de grandes empresas de tecnologia. A análise visou identificar padrões de volatilidade, volume de negociação e consistência nos preços, gerando segmentações por perfil de risco para auxiliar investidores de diversos perfis (conservador, moderado, agressivo) em suas decisões de investimento.
Ferramentas e Tecnologias
- Ambiente de Desenvolvimento: Google Colab
- Linguagem de Programação: Python
- Visualização e Dashboards: Looker Studio
- Validação de Códigos: Chat GPT e Gemini
Equipe
- Cassia Silva
- Vanessa Santana
Processamento da Base de Dados
O projeto utilizou dois arquivos de dados principais:
big_tech_companies.csv: Contém os símbolos das ações e nomes das empresas.big_tech_stock_prices.xlsx: Histórico diário de preços (open, high, low, close, adj_close) e volume de negociação.
Ambos foram carregados no ambiente do Google Colab (Projeto_4.ipynb).
- Verificação Inicial: Importação bem-sucedida, verificação e conversão dos tipos de dados, com datas convertidas para o formato datetime e validadas.
- Limpeza de Dados: Uma linha com valores nulos foi identificada e removida. Adicionalmente, uma linha duplicada foi removida, resultando em uma base de dados final limpa e consistente. Não foram encontrados valores fora do escopo (como preço ou volume ≤ 0) nem categorias inválidas na coluna
stock_symbol. As datas analisadas abrangeram o intervalo de 2010-01-04 a 2023-01-24. - Padronização: A coluna
stock_symbolfoi padronizada para letras maiúsculas, e a distribuição de registros por empresa foi verificada, confirmando a representação das 14 empresas. - Análise de Outliers: A detecção de outliers foi realizada utilizando o método do Intervalo Interquartil (IQR). Outliers foram identificados nas variáveis `open` (2.553 registros), `high` (2.594 registros), `low` (2.514 registros), `close` (2.555 registros), `adj_close` (3.333 registros) e `volume` (3.462 registros). Optou-se por manter esses outliers, pois eles representam eventos históricos legítimos do mercado, como ganhos extraordinários da Netflix ou o lançamento do iPad pela Apple, que são informações relevantes para a análise.
Para aprimorar a análise, foram criadas diversas variáveis derivadas a partir dos dados originais:
variação_diariapct_var(variação percentual)subiu(indicador booleano para dias de alta)subiu_5pct(indicador para dias com alta de 5% ou mais)- Médias móveis (de 5 e 20 dias)
- Desvio padrão de 5 dias
amplitude_diariavolatilidade relativagap_aberturaperfil_risco(categorizado como Conservador, Moderado, Agressivo)
Análise Exploratória de Dados (EDA)
A etapa de EDA focou na compreensão da distribuição, padrões e tendências dos preços das ações, além da criação de novas variáveis para aprofundar a análise.
- Distribuição de Preços: A análise por meio de boxplots revelou alta volatilidade nas ações de empresas como TSLA, META e NFLX. Em contraste, IBM, INTC e ORCL demonstraram maior estabilidade nos preços.
- Volume de Negociação: AAPL, AMZN e GOOGL apresentaram os maiores volumes médios de negociação. Foi observado que um alto volume não se correlaciona diretamente com a volatilidade dos preços.
- Medidas de Tendência Central: Foram comparadas a média e a mediana. Em ações mais voláteis, a mediana se mostrou mais representativa do que a média.
- Dispersão: Métricas como desvio padrão, variância e Intervalo Interquartil (IQR) foram calculadas para todas as variáveis. Empresas com um desvio padrão elevado exibiram maior risco.
- Correlação: Uma forte correlação foi identificada entre as variáveis `open`, `close`, `high` e `low`, indicando consistência nos dados de preço. No entanto, o volume apresentou baixa correlação com os preços, sugerindo um comportamento mais independente.
- Risco Relativo: O conceito de risco relativo foi empregado para comparar dias com alta igual ou superior a 5%.
Segmentação por Perfil de Investidor
A segmentação das empresas por perfil de investidor foi realizada com base em critérios como Amplitude de Preço, Desvio Padrão e Volume Médio, resultando nas seguintes classificações:
| Perfil | Empresas Identificadas |
|---|---|
| Conservador | IBM, ORCL, INTC |
| Moderado | AAPL, MSFT, GOOGL, ADBE |
| Agressivo | TSLA, META, NFLX, NVDA, CRM |
Validação de Hipótese
Foi realizada a validação da hipótese: "Ações com maior volume médio de negociação são mais voláteis (maior desvio padrão de preço)".
As empresas foram divididas em dois grupos: alto volume versus baixo volume, com a mediana do volume de negociação servindo como critério de separação. O desvio padrão dos preços de fechamento (`close`) entre esses dois grupos foi então comparado usando um teste t para amostras independentes.
| Métrica | Valor |
|---|---|
| Estatística t | -0.7895 |
| Valor-p | 0.4527 |
| Média do desvio padrão (alto volume) | 57.63 |
| Média do desvio padrão (baixo volume) | 80.55 |
Dado que o valor-p (0.4527) é maior que 0.05, não há diferença estatística significativa entre as médias dos desvios padrão dos grupos. Portanto, a hipótese de que empresas com maior volume de negociação são mais voláteis não foi sustentada pelos dados. Isso reforça a ideia de que um alto volume de negociação não implica necessariamente um maior risco de volatilidade de preços. Em termos mais simples: "Ter um maior número de negociações não significa que o preço de uma ação mudará mais. Algumas empresas com menos movimento de negociação ainda podem ser mais instáveis em seus preços."
Modelagem Preditiva
Regressão Linear (5.1) – MARCO 2:
Objetivo: Modelar a relação entre o volume de negociação (`volume`) e o preço de fechamento (`close`) para determinar se existe uma dependência linear que permita prever o preço.
Resultados do Modelo:
| Métrica | Valor |
|---|---|
| Coeficiente (volume) | -0.000000 |
| Intercepto | 102.24 |
| R² (Coeficiente de Determinação) | 0.0505 |
| Erro Padrão (RMSE) | 98.99 |
Interpretação: O coeficiente do volume muito próximo de zero indica que o volume de negociação tem pouquíssima ou nenhuma influência direta sobre o preço de fechamento. O valor de
Conclusão: A relação linear entre volume e preço de fechamento é muito fraca. O volume não se mostra um bom preditor do preço das ações para o período analisado utilizando este modelo de regressão linear.
Regressão Logística (5.2) – MARCO 2:
Objetivo: Prever a probabilidade de uma ação fechar em alta (`close > open`), utilizando o volume negociado como variável preditora.
Matriz de Confusão e Classificação:
| Métrica | Classe "Não Subiu" (0) | Classe "Subiu" (1) |
|---|---|---|
| Precision | 0.51 | 0.52 |
| Recall | 0.71 | 0.31 |
| F1-score | 0.59 | 0.39 |
Após aplicar técnicas de balanceamento de classes e criar novas variáveis derivadas, o modelo de regressão logística apresentou melhora significativa de desempenho:
- O modelo passou a identificar corretamente parte dos dias em que a ação sobe, o que não ocorria na versão anterior (F1-score = 0).
- Apesar de ainda apresentar dificuldades com a classe positiva, os resultados indicam uma evolução considerável.
- Recall (classe “subiu”) = 0.31 → o modelo acerta 31% dos dias com alta real.
- F1-score (classe “subiu”) = 0.39 → há poder preditivo legítimo, mesmo que ainda inicial.
Conclusão: Com o balanceamento adequado das classes e uma engenharia de atributos mais rica, a regressão logística evoluiu de um modelo ineficaz para uma versão básica, porém funcional. Essa melhoria comprova que a qualidade das variáveis e o equilíbrio das classes são fatores cruciais na construção de modelos preditivos eficazes.
Conclusões Gerais
- A análise estatística e visual realizada permitiu a clara identificação de perfis de risco entre as empresas estudadas.
- A segmentação das empresas por perfil de risco oferece um suporte valioso na recomendação de ações, equilibrando segurança e potencial de retorno.
- A aplicação de testes estatísticos, como o teste t, conferiu maior rigor e confiabilidade às conclusões obtidas.
- A regressão linear demonstrou que o volume de negociação possui uma baixa relação com o preço das ações, indicando que não é um preditor relevante por si só.
- A regressão logística revelou que o volume não é suficiente, por si só, para prever com alta precisão se uma ação subirá em um determinado dia.
- Foi concluído que o volume e a volatilidade das ações são variáveis independentes no contexto da análise realizada.
- Modelos preditivos simples que utilizam apenas o volume como variável explicativa são pouco eficazes. Sugere-se que outras variáveis, como fundamentos da empresa e eventos externos do mercado, são mais relevantes para a previsão do comportamento dos preços das ações.