Chrome Web Skrabervejledning fra Semalt Expert

Hvis du bruger Google Chrome, er der en udvidelse til din browser, der kan hjælpe med at skrabe websider. Det er kendt som '' Skraber '', og det kan bruges uden problemer. Scrapper hjælper med at skrabe et webstedsindhold og uploade resultaterne til Google-dokumenter.

Sådan skrabes et websted ved hjælp af Scraper-udvidelse?

1. Vælg Chrome Web Store i Google Chrome;

2. Foretag en søgning efter '' Scrapper '' i udvidelser;

3. Det første søgeresultat er udvidelsen kendt som '' Scrapper '';

4. Vælg knappen, der er opført som '' Føj til Chrome ';

5. Gå tilbage til listen over de britiske parlamentsmedlemmer;

6. Klik på følgende link ;

7. Se nu efter en MP, og sørg for, at posten er markeret.

8. Højreklik for at vælge indstillingen "Skrabe lignende ...";

9. Konsollen til scrapper dukker op i et andet vindue;

10. Se det skrabede indhold i skraberkonsollen;

11. For at sikre, at indholdet gemmes som et Google-regneark, skal du vælge "Gem i Google Dokumenter ..."

Udvidet skrabning

Før du holder sig til denne opskrift, er det nyttigt at forstå det grundlæggende i HTML. For eksempel kan du læse en kort introduktion til HTML via dette link

Lad os forestille os, at vi er interesseret i alle film, der spillede Asia Argento, en berømt italiensk skuespillerinde.

1. Der er et meget detaljeret arkiv over skuespillere i IMDB. Asia Argento-webstedet er: http://www.imdb.com/name/nm0000782/;

2. Her kan du se alle roller, som skuespilleren spiller. Lad os begynde at skrabe de oplysninger, vi er interesseret i;

3. Prøv at skrabe det på den måde, som det blev beskrevet ovenfor;

4. Du vil se, at listen er en smule forvrænget. Dette skyldes, at listen her kan struktureres forskelligt;

5. Gå til skraberkonsollen. Øverst til venstre ser du den lille boks der siger XPath;

6. Xpath er en slags forespørgselssprog, der fungerer til XML og HTML;

7. XPath kan hjælpe med at finde de dele af den side, du er interesseret i. Den næste ting er at finde et passende element og skrive XPath til det;

8. Lad os arrangere vores bord;

9. Du vil se, at vores eksisterende XPath, der har alle nødvendige data, er "// div [3] / div [3] / div [2] / div";

10. XPath informerer systemet om at se HTML-dokumentet og vælge det tredje element, derefter det andet element og derefter alle dem;

11. Men vi vil gerne have, at vores data adskilles;

12. Brug kolonnesektionen i konsollen til scrapper for at få dette gjort.

13. Lad os først finde vores titel РЂњР‚“ Brug Inspect Element til at se titlen;

14. Kontroller titlen inden for et mærke. Føj tagget til XPath;

15. Udtrykket ser ud til at fungere korrekt, så gør det til vores første kolonne;

16. I afsnittet "Kolonner" skal du erstatte den første kolonnes navn til "titel";

17. Føj XPath til den;

18. I kolonnesektionen er XPaths relative, og det betyder, at "./b" vælger <b> elementet

19. I XPath til titelsøjlen skal du tilføje "./b" og vælge "skrabe";

20. Lad os nu fortsætte i et år. År kan findes inden for et tidsrum;

21. Opret en ny kolonne ved at vælge det lille plus ved siden af kolonnen til din titel;

22. Brug af XPath "./span" Opret en kolonne for "år";

23. Klik på skrabe og se, hvordan året blev tilføjet;

24. Udført!