סמלט: כיצד להשתמש בתוסף Chrome של מגרד האינטרנט

קיימת כמות עצומה של נתונים דרך הרשת. ניסיון להעתיק נתונים למסד נתונים שמיש ישירות מאתר זה יכול להיות תהליך עתיר עבודה. לפיכך, שימוש בשיטת גירוד אתרים לחילוץ נתונים מאתרי אינטרנט יכול לחסוך זמן, אנרגיה וכסף.

גרידת אתרים, הידועה גם בשם חילוץ נתוני אינטרנט או קציר אינטרנט היא תהליך של שימוש בבוטים להפקת נתונים מאתרים. מגרדי רשת מנווטים באתר, מעריכים את תוכנו ואז מושכים ומכניסים אותו לגיליון אלקטרוני או למסד נתונים.

יש בשוק שפע של כלי גירוד באינטרנט , אך הם יקרים למדי ולא קלים לשימוש עבור אנשים שאינם מומחים בתחום הטכנולוגי. עם זאת, הרחבת Chrome של Web Scraper היא חינמית וקלה לשימוש. בעזרת סיומת זו תוכלו אפילו לעצור את התהליך באמצע העבודה שלו.

אתה יכול להוריד תוכנת הרחבת Chrome Scraper Chrome מחנות האינטרנט של Chrome. החיסרון היחיד הוא שצריך לגרד את האתר ידנית וזה תהליך לא קל. כמו כן, אינך יכול לבצע גירוד בפרקי זמן קבועים באופן תכנותי.

התקנת הרחבת Chrome מגרד אינטרנט

  • פתח את דפדפן Google Chrome;
  • בקר בחנות האינטרנט של Chrome וחפש הרחבת מגרד רשת;
  • הוסף את הכלי ל- Chrome;
  • כעת אתה מוכן להתחיל לגרד אתרים באמצעות דפדפן Chrome שלך.

לאחר התקנת המגרד, לחץ על F12 כדי לפתוח את כלי המפתחים של Google Chrome. לחלופין, אתה יכול ללחוץ באמצעות לחצן העכבר הימני על המסך ולבחור "לבדוק אלמנט". לאחר שתפתח את כלי המפתחים תראה כרטיסייה בשם "מגרד רשת".

כעת בואו ללמוד כיצד להשתמש בדף אינטרנט חי. בואו נדמיין שאנחנו רוצים לגרוט את אתר Awesomegifs ולחלץ ממנו תוכן ונתונים. פתח את האתר. מה הדבר הראשון שאתה רואה? תמונות נטענות בעצלתיים, נכון?

לאחר פתיחת דף אינטרנט, עליכם לחלץ את כתובות האתר לתמונות gif. פירוש הדבר שעליך לזהות את בורר ה- CSS התואם את התמונות. האתר מכיל כ -130 עמודים עם תמונות; וכדי לעבור בין עמודים אתה צריך לשנות את מספר העמוד שהוא כרגע 125. הדרך הקלה ביותר לעשות זאת היא ליצור מפת אתר חדשה ולהוסיף את השדה URL URL. באופן זה, מגרד הרשת יתבקש לפתוח URL ברציפות, ובכך יגדל את הערך הסופי בתהליך. זה יפתח את העמוד הראשון, את הדף השני, את הדף השלישי ... עד שהוא יגיע לעמוד 125.

כדי להתחיל בתהליך הגריטה, פתח את לשונית ה- Sitemap ולחץ על "גרד". הכלי יתחיל לגרד את הנתונים הנדרשים. במקרה שתרצה להפסיק את תהליך הגריטה באמצע, פשוט סגור את החלון ועבור ללשונית ה- Sitemap כדי לייצא את הנתונים שחולצו לקובץ CSV.