Classificação de Áudio com Python: O Guia Completo

Deep Learning aplicado em áudios! Classificação de sons ambientais, emoções, comandos de voz e transcrição de áudio!

4.85 (24 reviews)
Udemy
platform
Português
language
Data Science
category
instructor
Classificação de Áudio com Python: O Guia Completo
459
students
12.5 hours
content
Jun 2022
last update
$19.99
regular price

What you will learn

Entender os principais conceitos relacionados à processamento de áudio, como: taxa de amostragem, amplitude, ondas, frequência, decibel, dentre outros

Como utilizar a Transformada de Fourier e o Coeficiente Cepstral de Frequência Mel (MFCC) para extrair características de áudios

Visualizar o gráfico de onda e espectrogramas de arquivos de áudio

Treinar redes neurais convolucionais com o TensorFlow para classificar diversos tipos de áudios

Classificar 10 categorias de sons ambientais: ar condicionado, buzina, crianças, latido, perfuração, motor, tiro de arma, britadeira, sirene e música de rua

Utilizar a arquitetura YAMNet para classificar 521 eventos de aúdio

Treinar a arquitetura YAMNet utilizando transferência de aprendizagem para classificar o canto de 5 espécies de pássaros

Classificar 10 emoções pela fala: tristeza, surpresa, nojo, neutro, nervosismo, medo, felicidade e calmo

Treinar uma rede neural para classificar 8 comandos de voz

Transcrição de áudio utilizando a biblioteca SpeechRecognition

Transcrever áudios do WhatsApp

Description

A área de Processamento de Linguagem Natural - PLN (Natural Language Processing - NLP) é uma subárea da Inteligência Artificial que tem como objetivo tornar os computadores capazes de entender a linguagem humana, tanto escrita quanto falada. Alguns exemplo de aplicações práticas são: tradutores entre idiomas, tradução de texto para fala ou fala para texto, chatbots, sistemas automáticos de perguntas e respostas, sumarização de textos, geração automática de descrições para imagens, adição de legendas em vídeos, classificação de sentimentos em frases e áudios, dentre várias outras! Dentro desta área existe a classificação de áudio, que consiste em identificar sons específicos em áudios. Alguns exemplos são: identificação de sons do ambiente (carros, buzina, latidos, sirenes, etc), classificação de estilos musicais, transcrição de texto, reconhecimento de emoções pela fala e reconhecimento de comandos de voz, muito utilizado pelos assistentes virtuais.

Atualmente, o setor comercial está cada vez mais necessitando de soluções de Processamento de Linguagem Natural voltadas ao áudio, ou seja, aprender essa área pode ser a chave para trazer soluções reais para necessidades presentes e futuras. Baseado nisso, este curso foi projetado para quem deseja crescer ou iniciar uma nova carreira na área de Processamento de Linguagem Natural, trabalhando especificamente com a classificação de arquivos de áudio! O curso está dividido em sete partes:


  • Na parte 1 você aprenderá os conceitos teóricos sobre a área de áudio, como por exemplo: o que são sinais de áudio, sinal analógico e digital, amplitude, ondas, frequência, decibel, taxa de amostragem e principalmente, como representar o áudio para ser enviado para algoritmos de aprendizagem de máquina

  • Na parte 2 serão implementados na prática vários dos conceitos abordados na primeira parte! Alguns exemplos são: carregamento e execução de arquivos de áudio, separação harmônica-percursiva, sintetização de cliques, Transformada de Fourier, Coeficiente Cepstral de Frequência Mel e geração de gráfico de ondas e espectrogramas. Ao final deste módulo, você saberá como extrair dados dos áudios para envio para algoritmos de aprendizagem de máquina. Será utilizada a biblioteca Librosa

  • Na parte 3, vamos utilizar a base UrbanSound8K para classificar os seguintes sons ambientais: ar condicionado, buzina de carro, crianças brincando, latidos de cachorro, perfuração, motor em marcha lenta, tiros de arma, britadeira, sirene e música de rua. Faremos o treinamento de uma rede neural convolucional utilizando o TensorFlow, e ao final, vamos enviar um áudio e a rede neural será capaz de classificar qualquer uma dessas categorias

  • Na parte 4, vamos utilizar a arquitetura pré-treinada YAMNet para classificar 521 diferentes eventos de áudio! Logo após, utilizaremos transferência de aprendizagem para classificar o canto de 5 espécies diferentes de pássaros

  • Na parte 5 utilizarmos a base de dados RAVDESS para classificar as seguintes emoções de áudios: tristeza, surpresa, nojo, neutro, medo, felicidade e calmo

  • Na parte 6 você entenderá o básico sobre como funciona um assistente de voz! Por meio da base mini-speech-commands, vamos treinar uma rede neural para classificar 8 tipos diferentes de comandos

  • Por fim, na parte 7 utilizaremos a biblioteca SpeechRecognition para realizar a transcrição de áudio, ou seja, você fala e o algoritmo faz a transcrição em formato textual!

Todos os códigos serão implementados passo a passo, com detalhes e utilizando o Google Colab. Com isso, você não precisa se preocupar com instalações e configurações de softwares na sua própria máquina! São mais de 90 aulas e mais de 12 horas de vídeos passo a passo!

Content

Introdução

Conteúdo do curso
CURSOS gratuitos AQUI
Mais sobre Inteligência Artificial
Recursos para download
Classificação de áudio
O que são sinais de áudio
Amostragem do sinal de áudio
Tipos de sinais de áudio
Extração de recursos de áudio

Carregamento e processamento de áudio

Introdução
Importação das bibliotecas
Carregamento de arquivo mono
Carregamento de arquivo stereo
Taxa de amostragem
Tipos de reamostragem
Separação harmônico-percussiva
Detecção de início e sintetização de click
Gráfico de onda (wave plot)
Transformada de Fourier - intuição
Transformada de Fourier com Librosa
Visualização de espectrograma
Coeficiente Cepstral de Frequência Mel (MFCC)
MFCCs com Librosa
Espectrograma em decibéis
Normalização média cepstral

Classificações de sons ambientais

Introdução
Importação das bibliotecas
Base de dados UrbanSound8K 1
Base de dados UrbanSound8K 2
Base de dados UrbanSound8K 3
Visualização dos dados
Gráfico de ondas
Espectrogramas de STFT
Espectrogramas de MFCCs
Extração de características MFCCs
Preparação dos dados
Estrutura da rede neural
Treinamento da rede neural
Avaliação da rede neural
Testes com arquivos de áudio

Classificação de sons com YAMNet

Introdução
Eventos de áudio 1
Eventos de áudio 2
Eventos de áudio 3
Eventos de áudio 4
Canto de pássaros 1
Canto de pássaros 2
Canto de pássaros 3
Canto de pássaros 4
Canto de pássaros 5
Canto de pássaros 6
Canto de pássaros 7
Canto de pássaros 8

Classificação de emoções pela fala

Introdução
Base de dados RAVDESS
Tratamento da base de dados
Visualização dos dados
Gráfico de ondas e espectrogramas
Extração de características MFCCs
Construção e treinamento da rede neural
Avaliação da rede neural
Testes com arquivos de áudio

Reconhecimento de comandos de voz

Introdução
Base mini speech commands 1
Base mini speech commands 2
Visualização dos dados
Extração das características MFCCs
Preparação dos dados
Construção e treinamento da rede neural
Avaliação da rede neural
Testes com arquivos de áudio

Transcrição de áudio

Introdução
Transcrição com speech recognition - bibliotecas
Transcrição com speech recognition - primeiro teste
Transcrição com speech recognition - remoção de ruído
Transcrição com speech recognition - microfone
Transcrição com speech recognition - WhatsApp

ANEXO 1: Redes neurais artificiais

Fundamentos biológicos
Perceptron de uma camada
Redes multicamada - função soma e ativação
Redes multicamada - cálculo do erro
Descida do gradiente
Cálculo do parâmetro delta
Ajuste dos pesos com backpropagation
Bias, erro, descida do gradiente estocástica e mais parâmetros

ANEXO 2: Redes neurais convolucionais

Introdução a redes neurais convolucionais 1
Introdução a redes neurais convolucionais 2
Etapa 1 – operador de convolução (introdução)
Etapa 1 – operador de convolução (cálculos)
Etapa 2 – pooling
Etapa 3 – flattening
Etapa 4 – rede neural densa

Considerações finais

Considerações finais
AULA BÔNUS

Reviews

Cleberson
June 29, 2022
O professor parece dominar o assunto, é calmo e didático. Isso ajuda muito o aprendizado. Valeu a compra.
Marco
June 28, 2022
O curso é completo e foi detalhado passo a passo para tornar sua compreensão fácil. A plataforma utilizada (google colab) também facilita muito ao evitar o trabalho de instalação das bibliotecas. Como nos outros cursos do prof. Jones, tudo foi feito com muito capricho.
4748750
udemy ID
6/23/2022
course created date
6/29/2022
course indexed date
Bot
course submited by