Projeto de Análise de Dados

Título do Projeto: “DataLab”

Visão Geral do Projeto

Este projeto, denominado "DataLab", teve como objetivo principal analisar dados financeiros históricos de ações de grandes empresas de tecnologia. A análise visou identificar padrões de volatilidade, volume de negociação e consistência nos preços, gerando segmentações por perfil de risco para auxiliar investidores de diversos perfis (conservador, moderado, agressivo) em suas decisões de investimento.

Ferramentas e Tecnologias

Ambiente de Desenvolvimento: Google Colab
Linguagem de Programação: Python
Visualização e Dashboards: Looker Studio
Validação de Códigos: Chat GPT e Gemini

Equipe

Cassia Silva
Vanessa Santana

Processamento da Base de Dados

O projeto utilizou dois arquivos de dados principais:

big_tech_companies.csv: Contém os símbolos das ações e nomes das empresas.
big_tech_stock_prices.xlsx: Histórico diário de preços (open, high, low, close, adj_close) e volume de negociação.

Ambos foram carregados no ambiente do Google Colab (Projeto_4.ipynb).

Etapas de Tratamento de Dados:

Verificação Inicial: Importação bem-sucedida, verificação e conversão dos tipos de dados, com datas convertidas para o formato datetime e validadas.
Limpeza de Dados: Uma linha com valores nulos foi identificada e removida. Adicionalmente, uma linha duplicada foi removida, resultando em uma base de dados final limpa e consistente. Não foram encontrados valores fora do escopo (como preço ou volume ≤ 0) nem categorias inválidas na coluna stock_symbol. As datas analisadas abrangeram o intervalo de 2010-01-04 a 2023-01-24.
Padronização: A coluna stock_symbol foi padronizada para letras maiúsculas, e a distribuição de registros por empresa foi verificada, confirmando a representação das 14 empresas.
Análise de Outliers: A detecção de outliers foi realizada utilizando o método do Intervalo Interquartil (IQR). Outliers foram identificados nas variáveis `open` (2.553 registros), `high` (2.594 registros), `low` (2.514 registros), `close` (2.555 registros), `adj_close` (3.333 registros) e `volume` (3.462 registros). Optou-se por manter esses outliers, pois eles representam eventos históricos legítimos do mercado, como ganhos extraordinários da Netflix ou o lançamento do iPad pela Apple, que são informações relevantes para a análise.

Variáveis Criadas:

Para aprimorar a análise, foram criadas diversas variáveis derivadas a partir dos dados originais:

variação_diaria
pct_var (variação percentual)
subiu (indicador booleano para dias de alta)
subiu_5pct (indicador para dias com alta de 5% ou mais)
Médias móveis (de 5 e 20 dias)
Desvio padrão de 5 dias
amplitude_diaria
volatilidade relativa
gap_abertura
perfil_risco (categorizado como Conservador, Moderado, Agressivo)

Análise Exploratória de Dados (EDA)

A etapa de EDA focou na compreensão da distribuição, padrões e tendências dos preços das ações, além da criação de novas variáveis para aprofundar a análise.

Distribuição de Preços: A análise por meio de boxplots revelou alta volatilidade nas ações de empresas como TSLA, META e NFLX. Em contraste, IBM, INTC e ORCL demonstraram maior estabilidade nos preços.
Volume de Negociação: AAPL, AMZN e GOOGL apresentaram os maiores volumes médios de negociação. Foi observado que um alto volume não se correlaciona diretamente com a volatilidade dos preços.
Medidas de Tendência Central: Foram comparadas a média e a mediana. Em ações mais voláteis, a mediana se mostrou mais representativa do que a média.
Dispersão: Métricas como desvio padrão, variância e Intervalo Interquartil (IQR) foram calculadas para todas as variáveis. Empresas com um desvio padrão elevado exibiram maior risco.
Correlação: Uma forte correlação foi identificada entre as variáveis `open`, `close`, `high` e `low`, indicando consistência nos dados de preço. No entanto, o volume apresentou baixa correlação com os preços, sugerindo um comportamento mais independente.
Risco Relativo: O conceito de risco relativo foi empregado para comparar dias com alta igual ou superior a 5%.

Segmentação por Perfil de Investidor

A segmentação das empresas por perfil de investidor foi realizada com base em critérios como Amplitude de Preço, Desvio Padrão e Volume Médio, resultando nas seguintes classificações:

Perfil	Empresas Identificadas
Conservador	IBM, ORCL, INTC
Moderado	AAPL, MSFT, GOOGL, ADBE
Agressivo	TSLA, META, NFLX, NVDA, CRM

Validação de Hipótese

Foi realizada a validação da hipótese: "Ações com maior volume médio de negociação são mais voláteis (maior desvio padrão de preço)".

Método:

As empresas foram divididas em dois grupos: alto volume versus baixo volume, com a mediana do volume de negociação servindo como critério de separação. O desvio padrão dos preços de fechamento (`close`) entre esses dois grupos foi então comparado usando um teste t para amostras independentes.

Resultados:

Métrica	Valor
Estatística t	-0.7895
Valor-p	0.4527
Média do desvio padrão (alto volume)	57.63
Média do desvio padrão (baixo volume)	80.55

Conclusão da Hipótese:

Dado que o valor-p (0.4527) é maior que 0.05, não há diferença estatística significativa entre as médias dos desvios padrão dos grupos. Portanto, a hipótese de que empresas com maior volume de negociação são mais voláteis não foi sustentada pelos dados. Isso reforça a ideia de que um alto volume de negociação não implica necessariamente um maior risco de volatilidade de preços. Em termos mais simples: "Ter um maior número de negociações não significa que o preço de uma ação mudará mais. Algumas empresas com menos movimento de negociação ainda podem ser mais instáveis em seus preços."

Modelagem Preditiva

Regressão Linear (5.1) – MARCO 2:

Objetivo: Modelar a relação entre o volume de negociação (`volume`) e o preço de fechamento (`close`) para determinar se existe uma dependência linear que permita prever o preço.

Resultados do Modelo:

Métrica	Valor
Coeficiente (volume)	-0.000000
Intercepto	102.24
R² (Coeficiente de Determinação)	0.0505
Erro Padrão (RMSE)	98.99

Interpretação: O coeficiente do volume muito próximo de zero indica que o volume de negociação tem pouquíssima ou nenhuma influência direta sobre o preço de fechamento. O valor de $R^2$ de $0.0505$ é extremamente baixo, sugerindo que o modelo explica apenas cerca de 5% da variância no preço de fechamento, o que é um indicador de baixa capacidade preditiva.

Conclusão: A relação linear entre volume e preço de fechamento é muito fraca. O volume não se mostra um bom preditor do preço das ações para o período analisado utilizando este modelo de regressão linear.

Regressão Logística (5.2) – MARCO 2:

Objetivo: Prever a probabilidade de uma ação fechar em alta (`close > open`), utilizando o volume negociado como variável preditora.

Matriz de Confusão e Classificação:

Métrica	Classe "Não Subiu" (0)	Classe "Subiu" (1)
Precision	0.51	0.52
Recall	0.71	0.31
F1-score	0.59	0.39

Após aplicar técnicas de balanceamento de classes e criar novas variáveis derivadas, o modelo de regressão logística apresentou melhora significativa de desempenho:

O modelo passou a identificar corretamente parte dos dias em que a ação sobe, o que não ocorria na versão anterior (F1-score = 0).
Apesar de ainda apresentar dificuldades com a classe positiva, os resultados indicam uma evolução considerável.
Recall (classe “subiu”) = 0.31 → o modelo acerta 31% dos dias com alta real.
F1-score (classe “subiu”) = 0.39 → há poder preditivo legítimo, mesmo que ainda inicial.

Conclusão: Com o balanceamento adequado das classes e uma engenharia de atributos mais rica, a regressão logística evoluiu de um modelo ineficaz para uma versão básica, porém funcional. Essa melhoria comprova que a qualidade das variáveis e o equilíbrio das classes são fatores cruciais na construção de modelos preditivos eficazes.

Conclusões Gerais

A análise estatística e visual realizada permitiu a clara identificação de perfis de risco entre as empresas estudadas.
A segmentação das empresas por perfil de risco oferece um suporte valioso na recomendação de ações, equilibrando segurança e potencial de retorno.
A aplicação de testes estatísticos, como o teste t, conferiu maior rigor e confiabilidade às conclusões obtidas.
A regressão linear demonstrou que o volume de negociação possui uma baixa relação com o preço das ações, indicando que não é um preditor relevante por si só.
A regressão logística revelou que o volume não é suficiente, por si só, para prever com alta precisão se uma ação subirá em um determinado dia.
Foi concluído que o volume e a volatilidade das ações são variáveis independentes no contexto da análise realizada.
Modelos preditivos simples que utilizam apenas o volume como variável explicativa são pouco eficazes. Sugere-se que outras variáveis, como fundamentos da empresa e eventos externos do mercado, são mais relevantes para a previsão do comportamento dos preços das ações.

Links

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
Projeto_4.ipynb		Projeto_4.ipynb
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Projeto de Análise de Dados

Título do Projeto: “DataLab”

Etapas de Tratamento de Dados:

Variáveis Criadas:

Método:

Resultados:

Conclusão da Hipótese:

Regressão Linear (5.1) – MARCO 2:

Regressão Logística (5.2) – MARCO 2:

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Projeto de Análise de Dados

Título do Projeto: “DataLab”

Etapas de Tratamento de Dados:

Variáveis Criadas:

Método:

Resultados:

Conclusão da Hipótese:

Regressão Linear (5.1) – MARCO 2:

Regressão Logística (5.2) – MARCO 2:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages