A Chrome Web Scraper bemutatója a Semalt Experttől

Ha a Google Chrome-ot használja, a böngésző számára van egy kiterjesztés, amely segíthet a weboldalak lekaparásában. Scrapper néven ismert, és problémamentesen használható. A scrapper segítséget nyújt a weboldal tartalmának lekaparásához és az eredmények feltöltéséhez a Google dokumentumaiba.

Hogyan lehet leírni egy webhelyet a Scraper kiterjesztés segítségével?

1. Válassza a Chrome Internetes áruház lehetőséget a Google Chrome-ban;

2. A kiterjesztésekben hajtsa végre a '' Scrapper '' keresést;

3. Az első keresési eredmény a '' Scrapper '' néven ismert kiterjesztés.

4. Válassza ki a '' Hozzáadás a Chrome-hoz '' feliratú gombot;

5. térjen vissza az Egyesült Királyság képviselőinek listájához;

6. Kattintson a következő linkre ;

7. Most keressen egy MP-t, és ellenőrizze, hogy a bejegyzés meg van-e jelölve;

8. Kattintson a jobb gombbal a "Scrape Similar ..." lehetőség kiválasztására;

9. Egy másik ablakban felbukkan a scrapper konzolja;

10. Tekintse meg a lekaparott tartalmat a kaparókonzolban;

11. Annak biztosítása érdekében, hogy a tartalmat Google Spreadsheet-ként mentse el, válassza a "Mentés a Google Dokumentumokba ..." lehetőséget.

Bővített kaparás

Mielőtt ragaszkodna ehhez a recepthez, hasznos megérteni a HTML alapjait. Például ezen a linken keresztül elolvashatja a HTML rövid bevezetését

Képzeljük el, hogy minden olyan film iránt érdeklődünk, amelyben Asia Argento, a híres olasz színésznő szerepelt.

1. Az IMDB szereplőinek nagyon részletes archívuma található. Az Asia Argento webhelye: http://www.imdb.com/name/nm0000782/;

2. Itt megtekintheti a színésznő összes szerepét. Kezdjük az érdeklődésre kerülő információk selejtezésével;

3. Próbáld meg kaparni a fent leírt módon;

4. Látni fogja, hogy a lista kissé torz. Ennek oka az a tény, hogy az itt szereplő lista eltérően felépíthető;

5. Menjen a kaparópulthoz. Bal felső sarokban látni fogja azt a kis dobozt, amelyben az XPath van;

6. Az Xpath egyfajta lekérdezési nyelv, amely XML-re és HTML-re működik;

7. Az XPath segít megtalálni az érdeklődő oldal azon részeit. A következő dolog az, hogy megtalálja a megfelelő elemet, és megírja az XPath-t ehhez;

8. Most rendezzük az asztalunkat;

9. Látni fogja, hogy a meglévő XPath, amely rendelkezik az összes szükséges adattal, a "// div [3] / div [3] / div [2] / div";

10. Az XPath tájékoztatja a rendszert a HTML-dokumentum megtekintéséről, és válassza ki a harmadik elemet, majd a második elemet, majd mindegyiket;

11. De szeretnénk, ha adatainkat elválasztanánk;

12. Használja ki a konzol oszlopok szakaszát a selejtező készítéséhez;

13. Először keressük meg a címünket: Használja az Ellenőrző elemet a cím megtekintéséhez;

14. Ellenőrizze a címkét egy címkén belül. Adja hozzá a címkét az XPath-hez;

15. Úgy tűnik, hogy a kifejezés megfelelően működik, tehát tegye első oszlopunkká;

16. Az "Oszlopok" szakaszban az első oszlop nevét cserélje "címre";

17. Adja hozzá az XPath-ot;

18. Az oszloprészben az XPath-k relatívak, és ez azt jelenti, hogy a "./b" az <b> elemet választja

19. A cím oszlopának XPath részében adjon hozzá "./b" és válassza a "scrape" lehetőséget;

20. Most folytatjuk egy évet. Az évek egy szakaszon belül találhatók;

21. Hozzon létre egy új oszlopot úgy, hogy kiválasztja a címsor oszlop melletti kis pluszt;

22. Az XPath "./span" használatával hozzon létre egy oszlopot az "év" -re;

23. Kattintson a kaparásra és nézze meg, hogyan adták hozzá az évet;

24. Kész!

mass gmail