Парсинг сайтов. Scrapy, Splash, Selenium, requests, bs4.

Сбор данных с сайтов с использованием различных библиотек и фреймворков.

4.39 (9 reviews)
Udemy
platform
Русский
language
Other
category
instructor
61
students
3 hours
content
Dec 2021
last update
$34.99
regular price

What you will learn

Сбор данных с различных сайтов, используя различные библиотеки и фреймворки Python

Получение HTML страницы с помощью requests и beautifulsoup4

Парсинг многостраничных сайтов с использованием Scrapy

Авторизация на сайте и сбор данных при помощи Selenium

Description

Этот курс предназначен для тех, кто хочет научиться автоматизированному сбору информации с различных сайтов, то есть парсингу. Для прохождения курса требуются базовые знания питона.

На лекциях будут рассмотрены основные подходы к сбору данных с использованием таких библиотек, как requests, beautifulsoup4 и splash, а также фреймворков Scrapy и Selenium.

В этом курсе рассматриваются основные базовые подходы к сбору данных, а также затрагивается вопрос этичного парсинга. По итогам курса студенты будут иметь базовое представление о том, как парсить различные сайты, используя Python.

Этот курс будет не очень интересен тем, кто уже имеет базовое представление о том, что такое парсинг и как создавать скрипты для автоматизированного сбора данных.

После прохождения курса студенты будут знать:

  • Как найти и установить необходимые библиотеки для парсинга данных.

  • Что такое этичный парсинг, как не нарушить права и закон при парсинге данных.

  • Для чего нужен файл robots.txt.

  • Каким образом получать HTML сайта для извлечения необходимой информации.

  • Как пользоваться xpath для указания точного расположения элементов на странице.

  • Как переходить по страницам на многостраничном сайте.

  • Как создавать проект и запускать «пауков» Scrapy.

  • Как парсить всю информацию о каждом товаре на сайте.

  • Как осуществлять переход на страницу каждого товара.

  • Каким образом парсить сайты, использующие JavaScript при загрузке.

  • Как авторизовываться на сайте, используя фреймворк Selenium.

  • Как парсить сайты с бесконечной прокруткой, имитируя действия пользователя на странице.

Content

Введение

Что такое парсинг сайтов.
Этичный парсинг.
Что такое robots.txt

Парсинг сайтов с помощью Requests и BeautifulSoup

Установка Requests и BeautifulSoup.
Получение HTML сайта. Получение необходимых полей различными способами.
Поиск и извлечение ссылки на следующую страницу.

Парсинг сайтов с помощью Scrapy

Установка Scrapy.
Парсинг обычных сайтов.
Парсинг многостраничных сайтов.

Парсинг сайтов с JS с помощью Scrapy и Splash

Установка Splash.
Выполнение простого скрипта на локальном сайте.
Запуск Splash из Scrapy.

Парсинг сайтов с помощью Selenium

Установка Selenium.
Авторизация на сайте с помощью Selenium. Получение HTML сайта после авторизации.
Парсинг сайтов с бесконечной прокруткой.

Screenshots

Парсинг сайтов. Scrapy, Splash, Selenium, requests, bs4. - Screenshot_01Парсинг сайтов. Scrapy, Splash, Selenium, requests, bs4. - Screenshot_02Парсинг сайтов. Scrapy, Splash, Selenium, requests, bs4. - Screenshot_03Парсинг сайтов. Scrapy, Splash, Selenium, requests, bs4. - Screenshot_04

Reviews

Александр
February 22, 2023
Очень кратко и по существу. Это базовый курс по парсингу. Один только минус - отсутствует информация по ракоте с куками, сессиями и useragent. А так в целом курсом доволен.
Иван
November 25, 2021
В целом курс неплохой, особенно для начинающих - простой код, простые примеры, легко воспринимается. Можно добавить ноутбуки с кодом в список скачиваемых ресурсов. И, по моему личному мнению, не хватает разбора парсинга сложных ресурсов, где могут быть продемонстрированы потенциальные ошибки и сложности. Не вот инструкция по применению, а именно демонстрация сложностей. В противном случае курс создает своего рода иллюзию легкости парсинга, хотя иногда очень сложно "бодаться" с некоторыми ресурсами и приходится танцевать с бубном.

Charts

Price

Парсинг сайтов. Scrapy, Splash, Selenium, requests, bs4. - Price chart

Rating

Парсинг сайтов. Scrapy, Splash, Selenium, requests, bs4. - Ratings chart

Enrollment distribution

Парсинг сайтов. Scrapy, Splash, Selenium, requests, bs4. - Distribution chart
4214844
udemy ID
7/31/2021
course created date
9/16/2021
course indexed date
Bot
course submited by