Machine Learning para Competições Kaggle - Especial COVID-19

Atenda ao chamado da Casa Branca e ajude a comunidade científica e os profissionais de saúde na pandemia de COVID-19

5.00 (141 reviews)
Udemy
platform
Português
language
Data Science
category
instructor
Machine Learning para Competições Kaggle - Especial COVID-19
855
students
9 hours
content
Jan 2021
last update
$19.99
regular price

What you will learn

Como trabalhar com bases de dados específicas para competições Kaggle

Como resolver problemas de recuperação de informação, regressão e diagnóstico por imagens para ajudar a comunidade científica na pandemia de COVID-19

Desenvolva insights que permitam construir modelos de Machine Learning aplicados em problemas reais

Aprenda exploração de dados voltados para desafios reais

Crie vários tipos de gráficos para ajudar na compreensão e análise dos dados

Utilize técnicas modernas para recuperação de informações em documentos de texto

Utilize regressão para prever o número de mortes por COVID-19

Utilize técnicas modernas de deep learning; como redes neurais convolucionais e transfer learning, para diagnosticar pacientes com COVID-19 utilizando imagens de Raio X

Description

De acordo com o CDC (Centers for Disease Control and Prevention), o novo coronavírus de 2019 é um vírus identificado como a causa de um surto de doença respiratória detectado pela primeira vez em Wuhan, na China. Desde o início, muitos dos pacientes do surto em Wuhan teriam algum vínculo com um grande mercado de frutos do mar e animais silvestres. Um número crescente de pacientes supostamente não teve exposição ao mercado de animais, indicando a ocorrência de disseminação de pessoa para pessoa. O vírus já se espalhou para praticamente todos os países do mundo, causando muitas mortes e sérios problemas na economia. Devido a isso, a Casa Branca dos Estados Unidos junto com pesquisadores e líderes do Allen Institute for AI, Chan Zuckerberg Initiative (CZI), Georgetown University’s Center for Security and Emerging Technology (CSET), Microsoft, e o National Library of Medicine (NLM) at the National Institutes of Health lançaram uma base de dados com artigos publicados sobre o COVI-19, SARS-CoV-2 e vírus do grupo dos coronavírus.

A base de dados possui mais de 30.000 artigos científicos sobre essas doenças, sendo que o objetivo principal é ajudar pesquisadores e profissionais da saúde obterem informações relevantes sobre esses assuntos. Leia alguns trechos do chamado (call to action) da Casa Branca: "A Casa Branca se une a essas instituições ao emitir um apelo à ação dos especialistas em inteligência artificial da nação para desenvolver novas técnicas de mineração de texto e dados que podem ajudar a comunidade científica a responder perguntas científicas de alta prioridade relacionadas ao COVID-19", "Precisamos nos unir como empresas, governos e cientistas e trabalhar para trazer nossas melhores tecnologias para a biomedicina, epidemiologia, IA e outras ciências. O recurso e desafio da literatura COVID-19 estimulará esforços que podem acelerar o caminho para soluções em COVID-19", "Uma das aplicações mais imediatas e impactantes da IA é a capacidade de ajudar cientistas, acadêmicos e tecnólogos a encontrar as informações corretas em um mar de artigos científicos para impulsionar a pesquisa mais rapidamente", "É difícil para as pessoas revisarem manualmente mais de 20.000 artigos e sintetizarem suas descobertas. Avanços recentes em tecnologia podem ser úteis aqui".

Como essa base de dados foi postada como um desafio no Kaggle, é uma ótima oportunidade para testar as habilidades adquiridas em cursos iniciais, e ainda aprender novas habilidades necessárias para resolver problemas reais. Entretanto, fazer essa transição entre um ambiente educacional e aquele que encontramos no Kaggle, que imita os desafios que devemos encontrar no mercado de trabalho, tende a ser um degrau muito grande, pois a natureza dos dados e dos problemas propostos aumenta de complexidade num nível que os cursos básicos não contemplam. Pensando nisso, este curso tem o objetivo de preencher essa lacuna na formação dos cientistas de dados, mostrando detalhadamente como abordar os desafios, passando pelas fases de exploração e tratamento de dados, escolha de abordagem de solução, construção de um modelo, treinamento e validação. O entendimento desse processo é o primeiro passo para que os competidores possam desenvolver melhorias e começar sua escalada rumo ao topo dos rankings.

Além da base de dados descrita acima, neste curso também focaremos em mais duas bases de dados relacionadas ao COVID-19. Com isso, o curso está dividido em três partes:

  1. Recuperação de informações de bases de dados de artigos: vamos usar a base de dados dos artigos científicos e aplicar várias técnicas de mineração de textos e processamento de linguagem natural, utilizando bibliotecas como NLTK (Natural Language Toolkit, spaCy, WordCloud e fuzzywuzzy. Focaremos na etapa de preparação e visualização dos textos, como por exemplo: contagem de termos frequentes, nuvem de palavras e aplicação de algoritmos para agrupamento, como o k-means! Implementaremos também sistemas de busca em textos que levam em consideração palavras-chave e similaridade entre documentos utilizando TF-IDF (Term Frequency - Inverse Document Frequency)

  2. Previsões de mortes por COVID-19: utilizaremos outra base de dados do Kaggle para prever as mortes diárias, utilizando algoritmos de regressão

  3. Diagnóstico de pacientes com COVID-19 por meio do Raio-X do tórax: vamos utilizar modernas técnicas de Deep Learning com o TensorFlow 2.0, ou seja, redes neurais convolucionais e transferência de aprendizagem (transfer learning) para classificar imagens de pacientes doentes e saudáveis!

Os códigos serão desenvolvidos utilizando a linguagem Python linha por linha e com o Google Colab, de forma que você entenda todas as análises necessárias para participar dessas competições!

Content

Introdução

Boas-vindas e conteúdo do curso
Mais sobre Inteligência Artificial
Recursos para download

COVID-19: Tratamento e análise da base de dados

Introdução ao desafio do Kaggle
Instalação e importação das bibliotecas
Carregamento dos arquivos da base de dados
Criação do dataframe com os textos 1
Criação do dataframe com os textos 2
Pré-processamento dos textos 1
Pré-processamento dos textos 2
Pré-processamento dos textos 3
Pré-processamento dos textos 4
Pré-processamento dos textos 5
Termos frequentes 1
Termos frequentes 2
Nuvem de palavras
Ajustes no pré-processamento
Reconhecimento de entidades nomeadas 1
Reconhecimento de entidades nomeadas 2

COVID-19: Pesquisa de palavras-chave nos documentos

Textos utilizados para pesquisa
Pesquisa com uma palavra e NLTK
Pesquisa com uma palavra e find 1
Pesquisa com uma palavra e find 2
Pesquisa com uma palavra e find 3
Pesquisa com uma palavra e find 4
Pesquisa com uma palavra e find 5
Pesquisa com mais palavras e spaCy 1
Pesquisa com mais palavras e spaCy 2
Pesquisa com mais palavras e spaCy 3

COVID-19: Similaridade entre documentos

Documentos similares com fuzzywuzzy 1
Documentos similares com fuzzywuzzy 2
Documentos similares com fuzzywuzzy 3
Documentos similares com fuzzywuzzy 4
TF-IDF - teoria
TF-IDF - teste prático
Similaridade do cosseno
Documentos similares com TF-IDF e cosseno 1
Documentos similares com TF-IDF e cosseno 2

COVID-19: Agrupamento de documentos com k-means

Tratamento da base de dados
TF-IDF
Introdução a PCA e LDA
Redução de dimensionalidade com PCA
Algoritmo k-means - introdução
Algoritmo k-means - cálculos matemáticos
Algoritmo k-means - inicialização
Número de clusters com WCSS
Agrupamento com k-means
BÔNUS: visualização dinâmica dos resultados
BÔNUS: sumarização de documentos

Previsões de mortes por COVID-19

Exploração da base de dados 1
Exploração da base de dados 2
Preparação da base de dados 1
Preparação da base de dados 2
Regressão linear - teoria
Regressão polinomial - teoria
Regressão polinomial - treinamento
Regressão polinomial - previsões de mortes

Diagnóstico de COVID-19 com imagens de Raio-X

Importação das bibliotecas e base de dados de imagens
Análise das imagens de raio-x
Processamento das imagens
Redes neurais convolucionais - teoria básica
Transferência de aprendizagem - teoria
Implementação da transferência de aprendizagem
Avaliação dos resultados da rede neural
Diagnóstico de COVID-19 com várias imagens
Diagnóstico de COVID-19 com somente uma imagem

Reviews

Jose
September 17, 2020
Queria conhecer novas funcionalidades do python aplicado a DC, o curso está sendo bastante proveitoso.
Katharine
August 16, 2020
INCRÍVEL! Não tenho outra palavra que possa definir esse curso. Muito bom, várias dicas... Gostei bastante
Renato
June 9, 2020
Como em todos os cursos do Jones Granatyr esse curso é muito bem detalhado e explicado o que se está fazendo em cada aula e cada células dos códigos! O curso vale muito a pena! Apenas uma sugestão (não é pra falar mal do curso, mas pra melhorá-lo ainda mais) é que poderia fazer uma aula a mais utilizando os dados da secretaria de saúde pra fazer um especificamente sobre os casos no Brasil. Mas é só uma sugestão pois o curso é muito bom!!
Rafael
May 26, 2020
Sou inscrito em diversos cursos da plataforma Udemy e posso afirmar: esse curso é simplesmente sensacional! Além do ótimo conteúdo, o professor Jones é extremamente atencioso e dedicado a ajudar! Parabéns, professor Jones!
Carlos
May 6, 2020
O curso aborda técnicas avançadas que podem ser aplicadas a Pandemia do COVID-19. O professor tem muita habilidade com programação e domina muito bem as bibliotecas. Realmente o curso superou as expectativas. Apenas como sugestão, penso que seria muito bom um curso voltado para processamento digital de imagens. Obrigado professor.
Flavio
April 18, 2020
Peço desculpas pelas observações mas há pouco desenvolvimento de algoritmos e no algoritmo em que você usa find há erros, provavelmente porque você fez com pressa este curso. Você comete erros em termos biológicos e deveria melhorar este conhecimento também caso queira discutir (um poucos) resultados de tabelas biológicas. Também com relação ao seu inglês você poderia aprimorar um pouco uma vez que utiliza termos em inglês e eu acho bom. Poderia ir um pouco mais a fundo nas teorias, nem que seja em material complementar. No geral o curso é muito bom, estou aumentando meu "rating". Muito obrigado. obs: displot(age) está explicado errado - tem menos crianças pois provavelmente elas não foram até o hospital, a doença não avança. Tem menos velhos pois a população de idosos é menor. Tem mais gente entre 40 e 60 pois são susceptíveis e a doença progride, há mais pessoas nesta faixa etária que na faixa dos idosos > 65 anos.
Jaqueline
April 15, 2020
Como é comum nas aulas do Professor Jones, ótima clareza nas explicações... e domínio das técnicas apresentadas.

Charts

Price

Machine Learning para Competições Kaggle - Especial COVID-19 - Price chart

Rating

Machine Learning para Competições Kaggle - Especial COVID-19 - Ratings chart

Enrollment distribution

Machine Learning para Competições Kaggle - Especial COVID-19 - Distribution chart
2925954
udemy ID
3/29/2020
course created date
4/17/2020
course indexed date
Bot
course submited by