Skip to content

Cassia-s/PROJETO-4-DataLab

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 

Repository files navigation

Projeto de Análise de Dados

Título do Projeto: “DataLab”

Visão Geral do Projeto

Este projeto, denominado "DataLab", teve como objetivo principal analisar dados financeiros históricos de ações de grandes empresas de tecnologia. A análise visou identificar padrões de volatilidade, volume de negociação e consistência nos preços, gerando segmentações por perfil de risco para auxiliar investidores de diversos perfis (conservador, moderado, agressivo) em suas decisões de investimento.

Ferramentas e Tecnologias
  • Ambiente de Desenvolvimento: Google Colab
  • Linguagem de Programação: Python
  • Visualização e Dashboards: Looker Studio
  • Validação de Códigos: Chat GPT e Gemini
Equipe
  • Cassia Silva
  • Vanessa Santana
Processamento da Base de Dados

O projeto utilizou dois arquivos de dados principais:

  • big_tech_companies.csv: Contém os símbolos das ações e nomes das empresas.
  • big_tech_stock_prices.xlsx: Histórico diário de preços (open, high, low, close, adj_close) e volume de negociação.

Ambos foram carregados no ambiente do Google Colab (Projeto_4.ipynb).

Etapas de Tratamento de Dados:

  • Verificação Inicial: Importação bem-sucedida, verificação e conversão dos tipos de dados, com datas convertidas para o formato datetime e validadas.
  • Limpeza de Dados: Uma linha com valores nulos foi identificada e removida. Adicionalmente, uma linha duplicada foi removida, resultando em uma base de dados final limpa e consistente. Não foram encontrados valores fora do escopo (como preço ou volume ≤ 0) nem categorias inválidas na coluna stock_symbol. As datas analisadas abrangeram o intervalo de 2010-01-04 a 2023-01-24.
  • Padronização: A coluna stock_symbol foi padronizada para letras maiúsculas, e a distribuição de registros por empresa foi verificada, confirmando a representação das 14 empresas.
  • Análise de Outliers: A detecção de outliers foi realizada utilizando o método do Intervalo Interquartil (IQR). Outliers foram identificados nas variáveis `open` (2.553 registros), `high` (2.594 registros), `low` (2.514 registros), `close` (2.555 registros), `adj_close` (3.333 registros) e `volume` (3.462 registros). Optou-se por manter esses outliers, pois eles representam eventos históricos legítimos do mercado, como ganhos extraordinários da Netflix ou o lançamento do iPad pela Apple, que são informações relevantes para a análise.

Variáveis Criadas:

Para aprimorar a análise, foram criadas diversas variáveis derivadas a partir dos dados originais:

  • variação_diaria
  • pct_var (variação percentual)
  • subiu (indicador booleano para dias de alta)
  • subiu_5pct (indicador para dias com alta de 5% ou mais)
  • Médias móveis (de 5 e 20 dias)
  • Desvio padrão de 5 dias
  • amplitude_diaria
  • volatilidade relativa
  • gap_abertura
  • perfil_risco (categorizado como Conservador, Moderado, Agressivo)
Análise Exploratória de Dados (EDA)

A etapa de EDA focou na compreensão da distribuição, padrões e tendências dos preços das ações, além da criação de novas variáveis para aprofundar a análise.

  • Distribuição de Preços: A análise por meio de boxplots revelou alta volatilidade nas ações de empresas como TSLA, META e NFLX. Em contraste, IBM, INTC e ORCL demonstraram maior estabilidade nos preços.
  • Volume de Negociação: AAPL, AMZN e GOOGL apresentaram os maiores volumes médios de negociação. Foi observado que um alto volume não se correlaciona diretamente com a volatilidade dos preços.
  • Medidas de Tendência Central: Foram comparadas a média e a mediana. Em ações mais voláteis, a mediana se mostrou mais representativa do que a média.
  • Dispersão: Métricas como desvio padrão, variância e Intervalo Interquartil (IQR) foram calculadas para todas as variáveis. Empresas com um desvio padrão elevado exibiram maior risco.
  • Correlação: Uma forte correlação foi identificada entre as variáveis `open`, `close`, `high` e `low`, indicando consistência nos dados de preço. No entanto, o volume apresentou baixa correlação com os preços, sugerindo um comportamento mais independente.
  • Risco Relativo: O conceito de risco relativo foi empregado para comparar dias com alta igual ou superior a 5%.
Segmentação por Perfil de Investidor

A segmentação das empresas por perfil de investidor foi realizada com base em critérios como Amplitude de Preço, Desvio Padrão e Volume Médio, resultando nas seguintes classificações:

Perfil Empresas Identificadas
Conservador IBM, ORCL, INTC
Moderado AAPL, MSFT, GOOGL, ADBE
Agressivo TSLA, META, NFLX, NVDA, CRM
Validação de Hipótese

Foi realizada a validação da hipótese: "Ações com maior volume médio de negociação são mais voláteis (maior desvio padrão de preço)".

Método:

As empresas foram divididas em dois grupos: alto volume versus baixo volume, com a mediana do volume de negociação servindo como critério de separação. O desvio padrão dos preços de fechamento (`close`) entre esses dois grupos foi então comparado usando um teste t para amostras independentes.

Resultados:

Métrica Valor
Estatística t -0.7895
Valor-p 0.4527
Média do desvio padrão (alto volume) 57.63
Média do desvio padrão (baixo volume) 80.55

Conclusão da Hipótese:

Dado que o valor-p (0.4527) é maior que 0.05, não há diferença estatística significativa entre as médias dos desvios padrão dos grupos. Portanto, a hipótese de que empresas com maior volume de negociação são mais voláteis não foi sustentada pelos dados. Isso reforça a ideia de que um alto volume de negociação não implica necessariamente um maior risco de volatilidade de preços. Em termos mais simples: "Ter um maior número de negociações não significa que o preço de uma ação mudará mais. Algumas empresas com menos movimento de negociação ainda podem ser mais instáveis em seus preços."

Modelagem Preditiva

Regressão Linear (5.1) – MARCO 2:

Objetivo: Modelar a relação entre o volume de negociação (`volume`) e o preço de fechamento (`close`) para determinar se existe uma dependência linear que permita prever o preço.

Resultados do Modelo:

Métrica Valor
Coeficiente (volume) -0.000000
Intercepto 102.24
R² (Coeficiente de Determinação) 0.0505
Erro Padrão (RMSE) 98.99

Interpretação: O coeficiente do volume muito próximo de zero indica que o volume de negociação tem pouquíssima ou nenhuma influência direta sobre o preço de fechamento. O valor de $R^2$ de $0.0505$ é extremamente baixo, sugerindo que o modelo explica apenas cerca de 5% da variância no preço de fechamento, o que é um indicador de baixa capacidade preditiva.

Conclusão: A relação linear entre volume e preço de fechamento é muito fraca. O volume não se mostra um bom preditor do preço das ações para o período analisado utilizando este modelo de regressão linear.

Regressão Logística (5.2) – MARCO 2:

Objetivo: Prever a probabilidade de uma ação fechar em alta (`close > open`), utilizando o volume negociado como variável preditora.

Matriz de Confusão e Classificação:

Métrica Classe "Não Subiu" (0) Classe "Subiu" (1)
Precision 0.51 0.52
Recall 0.71 0.31
F1-score 0.59 0.39

Após aplicar técnicas de balanceamento de classes e criar novas variáveis derivadas, o modelo de regressão logística apresentou melhora significativa de desempenho:

  • O modelo passou a identificar corretamente parte dos dias em que a ação sobe, o que não ocorria na versão anterior (F1-score = 0).
  • Apesar de ainda apresentar dificuldades com a classe positiva, os resultados indicam uma evolução considerável.
  • Recall (classe “subiu”) = 0.31 → o modelo acerta 31% dos dias com alta real.
  • F1-score (classe “subiu”) = 0.39 → há poder preditivo legítimo, mesmo que ainda inicial.

Conclusão: Com o balanceamento adequado das classes e uma engenharia de atributos mais rica, a regressão logística evoluiu de um modelo ineficaz para uma versão básica, porém funcional. Essa melhoria comprova que a qualidade das variáveis e o equilíbrio das classes são fatores cruciais na construção de modelos preditivos eficazes.

Conclusões Gerais
  • A análise estatística e visual realizada permitiu a clara identificação de perfis de risco entre as empresas estudadas.
  • A segmentação das empresas por perfil de risco oferece um suporte valioso na recomendação de ações, equilibrando segurança e potencial de retorno.
  • A aplicação de testes estatísticos, como o teste t, conferiu maior rigor e confiabilidade às conclusões obtidas.
  • A regressão linear demonstrou que o volume de negociação possui uma baixa relação com o preço das ações, indicando que não é um preditor relevante por si só.
  • A regressão logística revelou que o volume não é suficiente, por si só, para prever com alta precisão se uma ação subirá em um determinado dia.
  • Foi concluído que o volume e a volatilidade das ações são variáveis independentes no contexto da análise realizada.
  • Modelos preditivos simples que utilizam apenas o volume como variável explicativa são pouco eficazes. Sugere-se que outras variáveis, como fundamentos da empresa e eventos externos do mercado, são mais relevantes para a previsão do comportamento dos preços das ações.
Links

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors