Semalt: Kako koristiti proširenje za Chrome Chrome

Preko mreže je dostupna ogromna količina podataka. Pokušaj kopiranja podataka u upotrebljivu bazu podataka izravno s web stranice može biti zahtjevan proces. Stoga, pomoću metode web scraping za izvlačenje podataka s web stranica možete uštedjeti vaše vrijeme, energiju i novac.

Web scraping, također poznat kao Web Extraction Data ili Web Harvesting, proces je korištenja botova za vađenje podataka s web mjesta. Web strugači kreću se po web mjestu, procjenjuju njen sadržaj, a zatim ih povuku i smjeste u proračunsku tablicu ili bazu podataka.

Na tržištu je dostupno mnoštvo alata za krpanje weba , ali oni su prilično skupi i nisu jednostavni za korištenje neistomišljenika. Međutim, proširenje za Chrome Web Scraper besplatno je i jednostavno za korištenje. Pomoću ovog proširenja čak možete zaustaviti proces usred njegovog rada.

Softver Web Scraper Chrome Extension možete preuzeti iz Google Chrome web trgovine. Jedina mana je da ručno poškropite mjesto, a to nije lak proces. Također, struganje ne možete izvoditi u pravilnim intervalima.

Instalacija proširenja Chromea za Web Scraper

  • Otvorite preglednik Google Chrome;
  • Posjetite Chrome web-trgovinu i potražite proširenje web scraper-a;
  • Dodajte alat u Chrome;
  • Sada ste spremni započeti struganje web stranica pomoću preglednika Chrome.

Nakon instaliranja strugača pritisnite F12 da biste otvorili alate za razvojne programere Google Chrome. Alternativno, možete kliknuti desnim klikom na zaslon i odabrati "pregledati element". Nakon što otvorite Alate za razvojne programere, vidjet ćete karticu pod nazivom "Web Scraper".

Sada naučimo kako to koristiti na web stranici uživo. Zamislimo da želimo skenirati web stranicu Awesomegifs i iz nje izvući neki sadržaj i podatke. Otvori stranicu. Što je prvo što vidite? Slike su lijeno učitane, zar ne?

Jednom kada otvorite web stranicu, morate izdvojiti URL-ove GIF slika. To znači da trebate identificirati CSS selektor koji odgovara slikama. Web stranica ima oko 130 stranica sa slikama; i za prebacivanje između stranica morate promijeniti broj stranice koji je trenutno 125. Najlakši način za to je stvaranje novog Sitemapa i dodavanje polja Start URL. Na ovaj način će se od Web Scrapera tražiti da neprestano otvara URL, čime se povećava konačna vrijednost u postupku. Otvorit će prvu stranicu, drugu stranicu, treću stranicu ... dok ne dosegne stranicu 125.

Da biste započeli postupak struganja, otvorite karticu Sitemapa i kliknite "Scrape". Alat će započeti brisanje potrebnih podataka. U slučaju da želite zaustaviti proces struganja u sredini, samo zatvorite Prozor i idite na karticu mape da biste izvezli izvučene podatke u CSV datoteku.