Semalt: Gözəl bir şorba ilə veb səhifələrdən URL çıxarış

Gözəl şorba XML və HTML sənədlərini təhlil etmək üçün istifadə olunan yüksək səviyyəli Python paketidir. Gözəl şorba Python kitabxanası, HyperText Markup Dilindən (HTML) faydalı məlumat çıxarmaq üçün istifadə olunan bir analiz ağacı yaradır. Bu kitabxana həm Python 2, həm də Python 3 versiyaları üçün mövcuddur.

Əksər hallarda hədəf hədəflərinizə yalnız veb səhifənin bir hissəsi kimi daxil olmaq və istifadə etmək mümkün olduğunu görürsünüz. Bu vəziyyətdə, analiz edilə bilən formatlarda məlumat çıxara biləcək bu cür veb kazıma texnikasından istifadə etməlisiniz . Gözəl Şorba kitabxanasının girdiyi yer budur.

Tələblər

Gözəl Şorba kitabxanasından istifadə etmək üçün düzgün modullara ehtiyacınız var. Başlamaq üçün Python 2.7 proqramlaşdırma dilini maşınınıza quraşdırmalısınız. Bu yazıda bir veb saytını qaşıqlamağı və bütün URL-lərdən İstəkləri və Gözəl Şorba 4- ni necə çıxarmağı öyrənəcəksiniz. HTML təhlil etmək, xüsusən də Gözəl Şorbanın texniki köməyi ilə ediləcək bir işdir.

Gözəl şorba niyə istifadə olunur?

Gözəl şorba 2004-cü ildən bəri veb-saytları cırmaq və HTML etiketlərini təhlil etmək üçün istifadə olunan Python paketidir. Bu yaxınlarda, Gözəl Şorba 4 sənayedə Gözəl Şorba 3-ü əvəz etdi. Qeyd edək ki, BS4 həm Python, həm də BS3 yalnız Python 2.7 üzərində işləyir. Kitabxana aşağıdakı daxili xüsusiyyətlərdən ibarətdir:

  • Kodlaşdırma qabiliyyəti - Maşınınıza lazımlı gözəl şorba modullarını quraşdırdıqdan sonra kodlamalardan vahiməyə düşməyəcəksiniz. Kitabxana girişləri Unicode və UTF-8-ə çevirmək üçün avtomatlaşdırılmışdır.
  • Naviqasiya qabiliyyəti - Gözəl şorba bir analiz ağacının axtarışı, naviqasiyası və dəyişdirilməsi üçün asan istifadə üsullarını təklif edir.

Gözəl şorba kitabxanasından necə istifadə etmək olar?

Gözəl şorbanı maşınınıza quraşdırdıqdan sonra kitabxanadan istifadə etməyə başlaya bilərsiniz. Başlamaq üçün, Python kodunuzun əvvəlində bs4 kitabxanasını idxal edin. Bir şorba obyekti yaratmaq üçün məzmunu və ya URL-ni Gözəl Şorba ötürün. Bununla birlikdə kitabxana hədəf veb səhifəni özünə gətirmir. Budur, bu işi əllə başa çatdırmalısınız. Ayrıca Python və Gözəl Şorbanın birləşməsindən istifadə edərək üstünlük verilən veb səhifələri asanlıqla əldə edə bilərsiniz.

İstək kitabxanasının rolları

Bir səhifəni qırmaq üçün əvvəlcə onu yükləməlisiniz. İstək kitabxanasından istifadə edərək veb səhifələri yükləyə bilərsiniz. İstək kitabxanası, öz növbəsində üstünlük verilmiş veb səhifənin HTML məzmununu yükləyəcək veb serverlərinə "GET" sorğusu etməklə işləyir.

Veb səhifələrdən URL-lər çıxarılır

İndi Gözəl Şorba kitabxanası ilə bağlı ətraflı məlumatınız var. BS4 kitabxanası və Pythonun birləşməsi veb səhifəni çox tez əldə etməyə kömək edəcəkdir. Bütün URLləri hədəf veb səhifənizdən çıxarmaq üçün "hamısını tap" metodundan istifadə edin. Bu üsul etiket ilə elementlərin birləşməsini təmin edəcəkdir. Bs4-dən həm Gözəl Şorba, həm də istəkləri idxal edin. Kodunuzu işə salın və URL-ləri çıxarmaq üçün veb sayt və ya veb səhifəyə daxil olun.

mass gmail