Neler yeni

Bu Python Kütüphanesi ile Siteleri Tarayabileceksiniz

zirveder

New member
Katılım
25 Ara 2023
Mesajlar
4
Tepkime puanı
1
Puanları
3
Link: https://github.com/lorey/mlscraper

MLScraper, web sayfalarından yapılandırılmış verileri çıkarmak için kullanılan güçlü bir Python kütüphanesidir. Web sayfalarını otomatik olarak ayrıştırmak ve çıkarmak için makine öğrenimi ve doğal dil işleme tekniklerini kullanır. MLScraper, web içeriği çıkarma, veri madenciliği ve duygu analizi dahil olmak üzere çeşitli veri kazıma ve analiz görevleri için kullanılabilir.
Özellikler
MLScraper aşağıdaki özelliklere sahiptir:
Otomatik ayrıştırma: MLScraper, web sayfalarının yapısını otomatik olarak analiz edebilir ve yararlı verileri çıkarabilir. Statik ve dinamik sayfalar da dahil olmak üzere çeşitli web sayfası türlerini işleyebilir.
Güçlü seçiciler: MLScraper, HTML etiketlerine, CSS seçicilere, XPath ve diğer yöntemlere dayalı olarak verileri bulmak ve çıkarmak için esnek ve güçlü seçiciler sağlar.
Akıllı tanıma: MLScraper, metin, sayılar, tarihler vb. gibi veri türlerini otomatik olarak tanımlayabilen yerleşik akıllı tanıma algoritmalarına sahiptir.
Verimli performans: MLScraper, büyük miktarda web sayfası verisini hızlı bir şekilde işlemek için verimli paralel işleme tekniklerini kullanır.
Kurulum ve Kullanım
MLScraper'ı kurmak çok basittir, sadece pip komutunu kullanın:

Kod
1pip install mlscraper
MLScraper'ı kullanmanın temel adımları aşağıdaki gibidir:
1. Adım: MLScraper kitaplığını içe aktarın

Kod
1
2
3
from mlscraper.html import Page
from mlscraper.samples import Sample, TrainingSet
from mlscraper.training import train_scraper
Site Verilerini Alın
Kod
1
2
3
4
5
6
7
8
9
url = 'https://www.r10.net'
resp = requests.get(url)

training_set = TrainingSet()
page = Page(resp.content)

# Mark the desired data content
sample = Sample(page, {'page_home': '12345', 'creation': 'May 24, 2019'})
training_set.add_sample(sample)
3. Adım: Eğitin

Kod
1scraper = train_scraper(training_set)
Adım 4: Scraperlenecej web sayfasının URL'sini belirtin ve scraperi gerçekleştirin
Kod
1
2
3
resp = requests.get(' örn ')
result = scraper.get(Page(resp.content))
print(result)
Artıları ve Eksileri

MLScraper'ın avantajları şunları içerir:
  1. Çeşitli web sayfası türlerini işlemek için güçlü otomatik ayrıştırma yeteneği.
  2. Kolay veri bulma ve çıkarma için esnek ve güçlü seçiciler sağlar.
  3. Veri türlerini otomatik olarak tanımlamak için yerleşik akıllı tanıma algoritmaları.
  4. Paralel işleme teknolojisi verimli performans sağlar.
MLScraper'ın dezavantajları şunlardır:

  1. Karmaşık web sayfası yapıları için seçicilerin manuel olarak ayarlanması gerekebilir.
  2. Dinamik web sayfaları için ek yapılandırma ve işleme gerekebilir.
 
Geri
Üst Alt