Выскрабанне сайтаў з Python і BeautifulSoup - парады Semalt

У Інтэрнэце ёсць больш чым дастаткова інфармацыі пра тое, як правільна выскрабаць сайты і блогі. Нам патрэбны не толькі доступ да гэтых дадзеных, але маштабуемыя спосабы збору, аналізу і арганізацыі іх. Python і BeautifulSoup - гэта два дзівосных інструмента для выскрабання сайтаў і атрымання дадзеных. Пры выскрабанні Інтэрнэту дадзеныя можна лёгка здабыць і прадставіць у патрэбным вам фармаце. Калі вы заўзяты інвестар, які шануе свой час і грошы, вам абавязкова трэба паскорыць працэс выскрабання ў Інтэрнэце і зрабіць яго максімальна аптымізаваным.

Пачатак

Мы будзем выкарыстоўваць як Python і BeautifulSoup ў якасці асноўнай мовы выскрабання.

  • 1. Для карыстальнікаў Mac Python папярэдне ўсталяваны ў OS X. Яны проста павінны адкрыць Terminal і ўвесці python -version . Такім чынам яны змогуць убачыць версію Python 2.7.
  • 2. Для карыстальнікаў Windows, мы рэкамендуем усталяваць Python праз яго афіцыйны сайт.
  • 3. Далей вы павінны атрымаць доступ да бібліятэкі BeautifulSoup з дапамогай pip. Гэты інструмент кіравання пакетамі быў зроблены спецыяльна для Python.

У тэрмінале вы павінны ўставіць наступны код:

easy_install pip

ўсталяваць Pip BeautifulSoup4

Правілы выскрабання:

Асноўныя правілы выскрабання, пра якія вы павінны паклапаціцца:

  • 1. Вы павінны праверыць Правілы і правілы сайта, перш чым пачаць яго вычышчэнне. Таму будзьце вельмі ўважлівыя!
  • 2. Не варта патрабаваць дадзеных з сайтаў занадта агрэсіўна. Пераканайцеся, што інструмент, які вы выкарыстоўваеце, паводзіць сябе разумна. У адваротным выпадку вы можаце зламаць сайт.
  • 3. Адзін запыт у секунду - правільная практыка.
  • 4. Планіроўку блога ці сайта можна змяніць у любы час, і вам, магчыма, прыйдзецца перагледзець гэты сайт і перапісаць уласны код па меры неабходнасці.

Агледзіце старонку

Навядзіце курсор на старонку Цана, каб зразумець, што трэба зрабіць. Прачытайце тэкст, звязаны як з HTML, так і з Python, і з вынікаў вы ўбачыце цэны ў тэгах HTML.

Экспарт у CSV Excel

Пасля таго як вы здабылі дадзеныя, наступным крокам будзе захаванне іх у аўтаномным рэжыме. Найлепшы выбар у гэтым плане фармат для коскі Excel - вы можаце лёгка адкрыць яго ў лісце Excel. Але спачатку вам прыйдзецца імпартаваць модулі CSV Python і модулі даты, каб правільна запісаць вашы дадзеныя. У раздзел імпарту можна ўставіць наступны код:

імпартаваць CSV

ад імпарту даты да даты

Пашыраны метад выскрабання

BeautifulSoup - гэта адзін з самых простых і вычарпальных інструментаў для выскрабання Інтэрнэту. Аднак, калі вам трэба сабраць вялікія аб'ёмы дадзеных, разгледзьце некаторыя іншыя варыянты:

  • 1. Скрапія - гэта магутная і дзіўная структура выскрабання пітона.
  • 2. Вы таксама можаце інтэграваць код з адкрытым API. Эфектыўнасць вашых дадзеных будзе мець вялікае значэнне. Напрыклад, вы можаце паспрабаваць Facebook Graph API, які дапамагае схаваць дадзеныя і не паказваць іх на старонках Facebook.
  • 3. Акрамя таго, вы можаце карыстацца бэкэнд-праграмамі, такімі як MySQL і захоўваць дадзеныя ў вялікай колькасці з вялікай дакладнасцю.
  • 4. DRY расшыфроўваецца як «Не паўтарайце сябе», і вы можаце паспрабаваць аўтаматызаваць звычайныя задачы, выкарыстоўваючы гэтую тэхніку.

mass gmail