proyek Soup Indah adalah parser Python HTML / XML dirancang untuk proyek perputaran cepat seperti layar-gesekan. Tiga fitur membuatnya kuat:
Indah Soup tidak akan tersedak jika Anda memberikan markup buruk. Ini menghasilkan pohon parsing yang membuat sekitar sebagai akal sebanyak dokumen asli Anda. Hal ini biasanya cukup baik untuk mengumpulkan data yang Anda butuhkan dan melarikan diri.
Indah Soup menyediakan metode sederhana dan idiom Pythonic untuk menavigasi, mencari, dan memodifikasi pohon parse: toolkit untuk membedah dokumen dan penggalian apa yang Anda butuhkan. Anda tidak harus membuat parser kustom untuk setiap aplikasi.
Indah Soup secara otomatis mengkonversi dokumen masuk ke Unicode dan dokumen keluar ke UTF-8. Anda tidak harus berpikir tentang pengkodean, kecuali dokumen tidak menentukan encoding dan Indah Soup tidak bisa autodetect satu. Kemudian Anda hanya perlu menentukan encoding asli.
Indah Soup mem-parsing apa pun yang Anda berikan, dan melakukan hal-hal pohon traversal untuk Anda. Anda dapat mengatakan itu "Cari semua link", atau "Cari semua link dari kelas externalLink", atau "Cari semua link url yang cocok" foo.com ", atau" Cari meja pos yang punya teks tebal, kemudian memberikan saya bahwa teks. "
Data berharga yang pernah terkunci di dalam website buruk dirancang sekarang dalam jangkauan Anda. . Proyek-proyek yang akan mengambil jam mengambil hanya beberapa menit dengan Indah Soup
Persyaratan :
- Python
Komentar tidak ditemukan