PDFMiner bekerja dengan terlebih dahulu mengambil isi dari file PDF dan mengubahnya menjadi format yang lebih lunak seperti HTML.
Dari sana, teks dan data diekstraksi dan dianalisis, dan berdasarkan aturan yang telah ditetapkan terpisah dan disajikan kepada pengguna atau dikirim ke lebih kuat alat analisis data lainnya.
Jika analisis teks tidak apa yang ingin Anda lakukan, Anda dapat dengan mudah mengkonfigurasi PDFMiner untuk hanya mengambil atau hanya mengkonversi data PDF juga.
Fungsinya dapat bekerja secara terpisah dari satu sama lain dan memungkinkan spektrum penggunaan yang lebih luas berkat itu
Fitur :.
- 100% Python kode, tidak ada C atau C ++
- Parse PDF
- Menganalisis PDF
- Convert PDF ke format lain
- TOC extractor
- Dapatkan hanya menandai konten
- Dukungan untuk sejumlah besar fitur text PDF
- Dukungan untuk sejumlah besar jenis huruf dalam PDF
- Dasar enkripsi (RC4) dukungan
Apa yang baru dalam rilis ini:
- metode PDFDocument.initialize () dihapus dan tidak lagi diperlukan . Sandi diberikan sebagai argumen dari konstruktor PDFDocument.
Apa yang baru dalam versi 20110515:.
- perubahan API
- kelas LTPolygon berganti nama sebagai LTCurve.
Apa yang baru dalam versi 20110227:.
- Perbaikan bug dan analisis tata letak perbaikan
Apa yang baru dalam versi 20101226:.
- Beberapa perbaikan bug dan perbaikan kecil
Apa yang baru dalam versi 20101017:
- Beberapa perbaikan bug dan perbaikan kecil
Apa yang baru dalam versi 20100424:.
- Perbaikan bug dan perbaikan kecil pada ekstraksi TOC
Persyaratan :
- Python 2,4 hingga 3
Keterbatasan :.
- PDFMiner dapat 20 kali lebih lambat dari C / C ++ - perangkat lunak berbasis
Komentar tidak ditemukan