Semalt: Як за допомогою Python скребтувати веб-сайт?

Дані відіграють вирішальну роль у розслідуванні, чи не так? Це може призвести до нового погляду на речі та розвитку інших розумінь. Найбільш прикро те, що шукані вами дані зазвичай не доступні. Ви можете знайти його в Інтернеті, але він може бути не у форматі, який можна завантажити. У такому випадку ви можете використовувати техніку скребтування веб-сторінок для програмування та збору потрібних даних.
Існує кілька підходів до вискоблювання та мов програмування, які можуть допомогти у цьому процесі. Ця стаття дозволить вам ознайомитись із тим, як використовувати мову python для записування сайту. Ви отримаєте багато розумінь щодо роботи веб-сторінок. Ви також зрозумієте, як розробники структурують дані на будь-якому веб-сайті.

Найкращий вихідний пункт - завантажити та встановити розподіл Anaconda Python на свій обчислювальний апарат. Ви також можете взяти кілька навчальних посібників з основ цієї мови програмування. Найкращим місцем для відправки може стати Codecademy, особливо якщо ви не маєте уявлення у цій галузі.
У цьому посібнику буде використано веб-сайт поточного списку країн, що перебувають у країні Полк. Ми настановимо вас, як використовувати сценарій Python для отримання списку ув'язнених та отримання деяких даних, таких як місто проживання та раса для кожного ув'язненого. Весь сценарій, який ми проведемо з вами, зберігається та відкривається в GitHub. Це одна з популярних онлайн-платформ, яка дозволяє ділитися комп'ютерними кодами. Коди мають довгий список коментарів, які можуть вам дуже допомогти.
При обробці будь-якого сайту першим інструментом для пошуку є веб-браузер. Більшість браузерів надають користувачам інструменти для огляду HTML, які допомагають підняти люк на моторному відсіку та зрозуміти структуру сторінки. Спосіб доступу до кожного інструменту залежить від одного браузера до іншого. Однак основою є "джерело перегляду сторінки", і ви можете отримати її, натиснувши правою кнопкою миші на сторінку безпосередньо.
Переглядаючи HTML-джерело сторінки, доцільно акуратно перелічити деталі посилань на ув'язненого у рядках таблиці. Наступним кроком є написання сценарію, який ми будемо використовувати для отримання цієї інформації. Два пакети Python, які ми збираємось використовувати в процесі важкого підйому, - прекрасний суп та запити. Переконайтесь, що ви встановили їх, перш ніж почати запускати код.
Сценарій веб-вискоблювання буде робити три речі. Сюди входить завантаження сторінок списку та вилучення посилань на сторінки деталей, завантаження кожної сторінки деталей та вилучення даних та друк вилучених даних залежно від того, як вона фільтрується, як місто проживання та раси. Після того, як ви це зрозумієте, наступний крок - почати процес кодування з використанням прекрасного супу та запитів.

По-перше, логічно завантажте сторінку з інформацією про в'язнів, використовуючи URL-адресу request.get, а потім використовуйте гарний суп, щоб гамати його. Після цього ми витягуємо посилання на сторінки деталей, перебираючи кожен рядок. Після розбору деталей ув'язнених, наступним кроком є отримання словника, віку, раси, часу бронювання та імені. Кожен ув'язнений отримає свій словник, а всі словники будуть додані до списку ув'язненого. Нарешті, перевірте значення гонки та міста перед тим, як остаточно роздрукувати свій список.