Olá, se você está por aqui é porque é interessado no assunto. Vou colocar alguns pontos que acho essencial de aprendizado e algumas dicas, no geral.
-
Seja focado e tente o máximo ter um aprendizado constante: assim como em qualquer outra coisa que você quer aprender, isso é essencial para nossa área também. Existem muitas vertentes e assuntos a serem estudados dentro da área, então cuidado para não se desfocar.
-
Mantenha a calma e, se você tem alguma religião, a fé: É um processo de aprendizado. Assim como você vai aprender a tocar violão, por exemplo, não é do nada que você vai aprender a soltar alguns acordes. Logo, não será do nada que você vai começar a gerar alguns modelos de Deep Learning no nível do pessoal da NVIDIA.
-
O que estudar:
- Estatística:
- Análise Exploratória: medidas descritivas, como média, mediana, desvio padrão e etc (recomendo olhar o livro "Estatística Básica - Bussab e Morettin")
- Teste de hipóteses: distribuições de probabilidade mais comuns; como a Normal, Binomial e Exponencial; p-valor e intervalo de confiança (recomendo o mesmo livro anterior)
- Completar no futuro
- Estatística:
-
Crie um portfólio: É algo que escuto desde que eu estagiava na SEFA (2017 ou 18) e acompanhava o slack do Datahackers. Se você quer entrar na área e não tiver nenhum conhecido que pegue sua mão e te encaminhe para uma vaga, esse é o melhor jeito.
- Por quê: Basicamente, a ideia é ter um local onde as pessoas irão ver e acompanhar os seus trabalhos, projetos e aprendizado.
- Onde: Qualquer local, onde você consiga colocar seus códigos. Minha recomendação, por facilidade, é aqui no próprio Github. Mas você pode criar um blog pessoal também.
- Quais projetos posso fazer?: Você pode se basear nesse tutorial.
-
Divulgue seu aprendizado e projetos: Sim, divulgue. Não adianta ter progresso e não mostrar para todos que você está aprendendo algo. Para isso, o LinkedIn ainda é o melhor local. Lá é uma rede de profissionais no mercado de trabalho, onde tem recrutadores, coordenadores(a) das áreas de dados e outros estudantes também. Existem outros locais também, como as comunidades de dados/estatística, mas eu recomendaria focar no LinkedIn.
- Seja constante nas suas postagens também. Tenta postar o que você aprendeu.
- Faça conexões: envie convite para todo mundo que você ver no perfil algo relacionado com dados/data science/ciência de dados e etc... É o famoso networking
- Tenha um perfil bem detalhado e alinhado com seus objetivos futuros: algumas dicas de como organizar seu LinkedIn você pode ver aqui, aqui e esse tutorial que é um pouco mais específico para nossa área.
-
Python: Sim, Python você utiliza em tudo que é canto: análise de dados, machine learning, automação e etc. Tem mais tutoriais, tanto em inglês quanto em português.
-
SQL: Obrigatório, após conhecer algumas coisas de programação em Python, passe para essa linguagem para aprender a parte de DQL (Data Query Language), que é a parte de consulta aos dados.
-
Excel: Aprenda um pouco, até o PROCV. Talvez seja o software mais utilizado no ambiente profissional. Tem bastante solução gambiarra que você não consegue fazer em Python mas consegue em Excel.
Git: Usando esse "sisteminha", você consegue "voltar no tempo" para pegar uma modificação sua do passado, fora que você consegue trackear todas as modificações que você fez no seu código.
- Depois de tudo isso, caso você tenha tempo: Software de visualização: PowerBI, Tableau e etc. Não tenho preferência, pois eu particularmente odeio fazer dashboard.
-
O seu papel como cientista/analista de dados é traduzir o que suas análises significam para uma pessoa, geralmente, de negócio. Portanto, a habilidade de se comunicar é essencial também. Outra, o software que você faz a análise é um meio para chegar no fim que é o resultado.
-
A Análise Exploratória dos Dados (parte em que você explora os seus dados) é uma parte muito subestimada. Se você não explorar seus dados bem, é capaz que os seus modelos/sistemas posteriores estejam viesados ou simplesmente com informações incosistentes.
-
Não se apegue a aprender os modelos mais difíceis, como Deep Learning, Gradient Boosting e todos esses nomes de modelos complicados. Aprenda a base de como um modelo aprende, métricas, por exemplo. Muitas das vezes um simples modelo é o suficiente para responder um problema simples, até mesmo um modelo nem é necessário (grande parte das vezes)
-
Se possível, tenha um profissional da área como mentor. Se não conseguir, jogue suas dúvidas conceitual ou de código em alguma comunidade, que pessoas irão te ajudar. A comunidade de dados no Brasil é bem legal, em sua grande maioria.
-
Não pare de estudar, mesmo empregado. Claro, respeite seu tempo.
-
Desenvolva o pensamento crítico. Comece a se perguntar coisas do tipo: "de onde saiu esse dado?" ou "se a gente utilizar variável X, não vamos estar impactando a variável Y?"
-
Não foque somente em vagas de "Cientista de Dados": existem outras vagas que fazem exatamente a mesma coisa, só que com outro nome. Por isso, leia bastante atentamente a descrição da vaga
-
É bastante normal iniciar a área de ciência de dados e se desvirtuar para outras áreas. Engenharia de Dados, Engenharia de Machine Learning, Pesquisador acadêmico e etc.