Scrappy ditulis 100% dengan Python dan dapat dimanfaatkan untuk data sederhana pertambangan, untuk pemantauan halaman, mesin pencari Web dan bahkan untuk pengujian kode.
Scrapy bukan mesin pencari dalam arti sebenarnya dari kata tersebut, tetapi bertindak seperti satu (tanpa bagian pengindeksan). Namun demikian Scrapy dapat menjadi alat yang hebat untuk membangun mesin pencari logika Anda.
Kekuatan sebenarnya dari kerangka ini bergantung pada fleksibilitas intinya itu, Scrapy menjadi sistem untuk membangun laba-laba pencarian generik atau khusus (crawler) di.
Sementara ini mungkin terdengar sangat rumit untuk pengguna non-teknis, dengan melihat sekilas ke dokumentasi dan tutorial yang tersedia, itu cukup sederhana untuk melihat bagaimana Scrapy telah berhasil mengambil semua kerja keras dari ini dan mengurangi seluruh proses hanya beberapa baris kode (untuk lebih mudah, crawler kecil)
Apa yang baru dalam rilis ini :.
- path permintaan Unquote sebelum diteruskan ke FTPClient, itu sudah melarikan diri jalan.
- Sertakan tes / sumber distribusi di MANIFEST.in.
Apa yang baru di versi 1.0.1:
- Unquote jalan permintaan sebelum diteruskan ke FTPClient, itu sudah melarikan diri jalan.
- Sertakan tes / sumber distribusi di MANIFEST.in.
Apa yang baru dalam versi 0.24.6:
- Add UTF8 encoding header template
- Telnet konsol sekarang mengikat 127.0.0.1 secara default
- Update debian / ubuntu install
- Nonaktifkan string cerdas dalam evaluasi lxml XPath
- Kembalikan Cache berdasarkan filesystem sebagai default untuk HTTP Cache middleware
- Paparan crawler saat di Scrapy shell
- Meningkatkan testsuite membandingkan CSV dan eksportir XML
- offsite Baru / disaring dan offsite / domain statistik
- Dukungan process_links sebagai generator di CrawlSpider
Apa yang baru dalam versi 0.24.5:
- Add UTF8 encoding header template
- Telnet konsol sekarang mengikat 127.0.0.1 secara default
- Update debian / ubuntu install
- Nonaktifkan string cerdas dalam evaluasi lxml XPath
- Kembalikan Cache berdasarkan filesystem sebagai default untuk HTTP Cache middleware
- Paparan crawler saat di Scrapy shell
- Meningkatkan testsuite membandingkan CSV dan eksportir XML
- offsite Baru / disaring dan offsite / domain statistik
- Dukungan process_links sebagai generator di CrawlSpider
Apa yang baru dalam versi 0.22.0:
- Ubah nama scrapy.spider.BaseSpider ke scrapy.spider .Spider
- Promosikan Info startup pada pengaturan dan middleware untuk tingkat INFO
- parsial Dukungan di get_func_args util
- Izinkan menjalankan tes indiviual melalui tox
- ekstensi Perbarui diabaikan oleh extractors
- Penyeleksi mendaftar ruang nama EXSLT secara default
- Menyatukan barang loader mirip dengan pemilih mengubah nama
- Membuat kelas RFPDupeFilter mudah subclassable
- Meningkatkan cakupan uji dan akan datang dukungan Python 3
Apa yang baru dalam versi 0.20.1:
- include_package_data diperlukan untuk membangun roda dari sumber diterbitkan.
Apa yang baru dalam versi 0.18.4.
- Tetap AlreadyCalledError mengganti permintaan dalam perintah shell
- Tetap start_requests lazyness dan hang awal.
Apa yang baru dalam versi 0.18.1.
- impor tambahan Dihapus ditambahkan oleh cherry memilih perubahan
- Tetap merangkak tes di bawah bengkok pra 11.0.0.
- py26 tidak dapat memformat nol panjang bidang {}.
- kesalahan Uji PotentiaDataLoss tanggapan terikat.
- Perlakukan tanggapan tanpa konten-panjang atau Transfer-Encoding sebagai tanggapan yang baik.
- Apakah ada termasuk ResponseFailed jika http11 handler tidak diaktifkan.
Persyaratan :
- Python 2.7 atau lebih tinggi
- twisted 2.5.0 atau lebih tinggi
- libxml2 2.6.28 atau lebih tinggi
- pyOpenSSL
Komentar tidak ditemukan