Изстъргване на уебсайтове с Python и BeautifulSoup - съвети за Semalt

В интернет има повече от достатъчно информация за това как да изстържете правилно уебсайтове и блогове. Нуждаем се не само от достъпа до тези данни, а от мащабируемите начини да ги събираме, анализираме и организираме. Python и BeautifulSoup са два чудесни инструмента за разтриване на уебсайтове и извличане на данни. При уебстраниране данните могат лесно да бъдат извлечени и представени във формат, от който се нуждаете. Ако сте запален инвеститор, който цени своето време и пари, определено трябва да ускорите процеса на изстъргване в мрежата и да го направите максимално оптимизиран.

Приготвяме се да започнем

Ще използваме Python и BeautifulSoup като основен език за изстъргване.

  • 1. За потребителите на Mac Python е предварително инсталиран в OS X. Те просто трябва да отворят Terminal и да въведат python -version . По този начин те ще могат да видят версия на Python 2.7.
  • 2. За потребителите на Windows препоръчваме да инсталират Python през официалния му сайт.
  • 3. След това трябва да получите достъп до библиотеката BeautifulSoup с помощта на pip. Този инструмент за управление на пакети е направен специално за Python.

В терминала трябва да поставите следния код:

easy_install пип

пип инсталирайте BeautifulSoup4

Правила за изстъргване:

Основните правила за остъргване, за които трябва да се грижите, са:

  • 1. Трябва да проверите Правилата и правилата на сайта, преди да започнете с неговото изстъргване. Затова бъдете много внимателни!
  • 2. Не трябва да изисквате данните от сайтовете твърде агресивно. Уверете се, че използваният от вас инструмент се държи разумно. В противен случай можете да разбиете сайта.
  • 3. Една заявка в секунда е правилната практика.
  • 4. Оформлението на блога или сайта може да бъде променено по всяко време и може да се наложи да преразгледате този сайт и да пренапишете свой собствен код, когато е необходимо.

Проверете страницата

Задръжте курсора на страницата Цена, за да разберете какво трябва да направите. Прочетете текста, свързан както с HTML, така и с Python, и от резултатите ще видите цените в HTML маркерите.

Експортиране в Excel CSV

След като извлечете данните, следващата стъпка е да ги запазите офлайн. Excel запечатаният формат запетая е най-добрият избор в това отношение и можете лесно да го отворите в своя лист на Excel. Но първо, трябва да импортирате Python CSV модулите и модулите за дата, за да запишете вашите данни правилно. Следният код може да бъде поставен в секцията за импортиране:

import csv

от импортиране на дата до дата

Разширени техники за изстъргване

BeautifulSoup е един от най-простите и изчерпателни инструменти за изстъргване в мрежата. Ако обаче трябва да съберете големи обеми от данни, помислете за някои други алтернативи:

  • 1. Скрапията е мощна и невероятна рамка за остъргване на питон.
  • 2. Можете също да интегрирате кода с публичен API. Ефективността на вашите данни ще бъде важна. Например, можете да опитате Facebook Graph API, който помага да се скрият данните и да не се показват на страниците във Facebook.
  • 3. Освен това можете да използвате задните програми като MySQL и да съхранявате данните в голямо количество с голяма точност.
  • 4. DRY означава „Не се повтаряйте“ и можете да опитате да автоматизирате редовни задачи с помощта на тази техника.

mass gmail