Machine Learning para Competições Kaggle - Curso 1
Aprenda passo a passo como trabalhar com bases de dados de classificação e regressão voltados a desafios reais no Python
What you will learn
Como trabalhar com bases de dados reais de classificação e regressão, aplicado em competições reais (KDD e Kaggle)
Desenvolva insights que permitam construir modelos de Machine Learning aplicados em problemas reais
Aprenda exploração de dados, feature engineering, treinamento e fine-tuning de modelos voltados para desafios reais
Crie vários tipos de gráficos para ajudar na compreensão e análise dos dados
Faça a previsão de cancelamento de conta, tendência de usar novos produtos e propensão para comprar upgrades; aplicado em uma base real de empresa de telecomunicações
Faça a previsão da tarifa de preços de corridas de táxi da cidade de Nova Iorque
Description
As competições de Ciência de Dados como aquelas postadas na plataforma Kaggle são uma ótima maneira de testar as habilidades adquiridas em cursos iniciais, e ainda aprender novas habilidades necessárias para resolver problemas reais. Entretanto, fazer essa transição entre um ambiente educacional e aquele que encontramos no Kaggle, que imita os desafios que devemos encontrar no mercado de trabalho, tende a ser um degrau muito grande, pois a natureza dos dados e dos problemas propostos aumenta de complexidade num nível que os cursos básicos não contemplam.
Pensando nisso, este curso tem o objetivo de preencher essa lacuna na formação dos cientistas de dados, mostrando detalhadamente como abordar os desafios, passando pelas fases de exploração e tratamento de dados, escolha de abordagem de solução, construção de um modelo, treinamento e validação; até a entrega de um resultado inicial em formato que pode ser submetido às competições. O entendimento desse processo é o primeiro passo para que os competidores possam desenvolver melhorias e começar sua escalada rumo ao topo dos rankings.
Neste curso focaremos em duas das principais tarefas da aprendizagem de máquina: classificação e regressão.
Com relação a classificação, vamos trabalhar com uma base de dados real de uma empresa de telecomunicações do KDD Cup 2009, na qual o objetivo é modelar o comportamento do consumidor analisando três características: cancelamento da conta, tendência de usar novos produtos e serviços e a propensão para comprar upgrades ou adicionais com maior margem de lucro
No que se refere a regressão, vamos trabalhar com uma base de dados real das corridas de táxi no Nova Iorque do Kaggle 2018! O objetivo é prever o valor da tarifa para uma corrida de táxi nesta cidade
Vamos desenvolver todos os códigos utilizando a linguagem Python e linha por linha, de forma que você entenda todas as análises necessárias para participar dessas competições!