PDF Extractor SDK untuk pengembang perangkat lunak Windows: PDF ke Teks, PDF ke XML, Gambar dari PDF, Baca informasi PDF, PDF ke CSV untuk Excel.
Bytescout PDF Extractor SDK memungkinkan untuk mengonversi PDF menjadi teks, PDF ke XML, PDF ke CSV, mengekstrak gambar dari PDF, mengekstrak informasi tentang file PDF di antarmuka .NET dan ActiveX tanpa memerlukan perangkat lunak tambahan.
Manfaat:
mengkonversi PDF ke teks biasa (dan dapat mengikuti kolom jika Anda mengonversi koran dalam format PDF) - termasuk ekstraksi teks tak terlihat;
mengonversi tabel dalam PDF ke Excel (CSV) dengan membaca sel dari persegi panjang yang diberikan;
mengkonversi tabel dalam file PDF ke XML;
mengekstrak metadata file PDF (judul, penulis, deskripsi) dan mendapatkan informasi lain tentang file (jumlah halaman, dienkripsi atau tidak);
mengekstraksi gambar yang disematkan dari dokumen PDF (dalam ASP.NET, VB.NET, C #, VB6, dan VBScript);
Antarmuka DocumentMerger dan DocumentSplitter dan kelas untuk menggabungkan dan membagi dokumen PDF;
tidak memerlukan Adobe Reader atau perangkat lunak pembaca PDF lainnya untuk diinstal;
menyediakan .NET dan antarmuka ActiveX;
dibuat dengan 100% kode C # terkelola.
Apa yang baru dalam rilis ini:
Versi 9.0.0.3079: Menambahkan penyaringan konten yang diekstraksi berdasarkan nama font, ukuran dan warna font.
Memperbarui mesin OCR ke versi terbaru. Perbarui file bahasa dari folder 'tessdata'.
Peningkatan ekstraksi teks, pengelompokan garis dalam data tabular, kinerja, ekstraksi formulir XFA, TableDetector, masalah penguraian PDF tetap.
Apa yang baru di versi 8.7.0.2980:
Menambahkan pemfilteran konten yang diekstraksi berdasarkan nama font, ukuran dan warna font.
Memperbarui mesin OCR ke versi terbaru. Perbarui file bahasa dari folder 'tessdata'.
Peningkatan ekstraksi teks, pengelompokan garis dalam data tabular, kinerja, ekstraksi formulir XFA, TableDetector, masalah penguraian PDF tetap.
Apa yang baru di versi 8.6.0.2911:
Menambahkan pemfilteran konten yang diekstraksi berdasarkan nama font, ukuran dan warna font.
Memperbarui mesin OCR ke versi terbaru. Perbarui file bahasa dari folder 'tessdata'.
Peningkatan ekstraksi teks, pengelompokan garis dalam data tabular, kinerja, ekstraksi formulir XFA, TableDetector, masalah penguraian PDF tetap.
Apa yang baru di versi 8.2.0.2699:
Versi 8.2.0.2699 mungkin termasuk pembaruan yang tidak ditentukan, penyempurnaan, atau perbaikan bug.
Apa yang baru di versi 8.0.0.2528:
Apa yang baru di versi 7.0.0.2474:
Versi 7.0.0.2474:
- menambahkan kelas utilitas DocumentPrinter baru yang memungkinkan untuk mencetak dokumen PDF secara diam-diam (tanpa dialog pengguna apa pun)
- menambahkan kelas JSONExtractor baru
- override ditambahkan untuk DocumentSplitter.Split () metode yang memungkinkan untuk menentukan folder output untuk file yang dihasilkan
- bug multi-threading tetap di DocumentSplitter
- tableDetector sekarang menghargai area ekstraksi yang ditetapkan dengan metode SetExtractionArea ()
- properti baru dalam kelas ekstraksi: ExtractionColumns - berisi koordinat kolom yang terdeteksi; CustomExtractionColumns - memungkinkan untuk mengganti deteksi kolom
Metode - GetPageRect * tidak memperhitungkan rotasi halaman.
Memperbaiki bug di installer menyebabkan beberapa file dari instalasi sebelumnya mengganggu pembaruan - mengerjakan ulang pemeriksaan pendaftaran. Sekarang perpustakaan tidak akan melempar pengecualian, tetapi bekerja dalam mode demo jika Anda melewatkan atau memasukkan Nama Pendaftaran dan PendaftaranKey salah
- PDF Multitool: Menambahkan daftar dokumen terbaru ke tombol "Buka Dokumen PDF"
- PDF Multitool: Seleksi dapat diubah ukurannya sekarang
- PDF Multitool: Menambahkan Ekstrak fitur JSON
- PDF Multitool: Peningkatan UI Detektor Tabel
- PDF Multitool: Kualitas rendering font yang jauh lebih baik
- PDF Multitool: Menambahkan opsi debug "Tampilkan Kolom Ekstraksi Terdeteksi" ke menu konteks untuk menampilkan kolom yang terdeteksi di halaman saat ini. Hanya dapat dilihat setelah menjalankan ekstraksi apa pun terhadap halaman yang ditampilkan saat ini
- PDF Multitool: Memperbaiki masalah render font pada Windows 32-bit
- perbaikan kecil dan perbaikan bug lainnya
Apa yang baru di versi 6.30.0.2421:
Versi 6.30.0.2421:
- Menambahkan kelas utilitas TextComparer (tersedia dalam .NET 4.0 assemblies only) memungkinkan untuk membandingkan teks dalam dua dokumen PDF dan menghasilkan laporan.
- Peningkatan dukungan profil warna ICC.
- Penanganan font tertanam yang diimpor.
- Improved AttachmentExtractor.
- Tetap XMLExtractor.SaveXMLToStream () metode.
- Memperbaiki penggandaan teks saat menggunakan opsi OCRCacheMode.WholePage.
- Perbaikan dan perbaikan bug lainnya.
Apa yang baru di versi 6.20.2354:
Versi 6.20.2354:
- PDF Ke Teks, PDF Ke CSV, PDF Ke fungsi XML ditingkatkan
- Ekstrak Video Baru, Ekstrak contoh Audio
- CSV dan ekstraktor XML meningkatkan dukungan untuk tabel dengan kolom kosong di dalam
- MultimediaExtractor baru untuk mengekstrak video dan audio dari PDF
- properti baru PageDataCaching
- contoh "MemoryCareProcessingOfHugeFiles" baru
- exception null tetap ketika mencoba untuk membuang halaman yang sudah dibuang
- XLSExtractor: meningkatkan dukungan font
- SkipInvisibleText sekarang melompati teks terpotong (yang tidak terlihat)
- render output teks ditingkatkan
- XFDF Extractor: menambahkan dukungan untuk checkbox
- Output gambar ditingkatkan untuk mendukung lebih banyak sub-format
- Penanganan teks Unicode ditingkatkan
Apa yang baru di versi 6.11.2149:
Versi 6.11.2149:
- Batch Processing samples diperbarui untuk menunjukkan penggunaan metode Reset ()
- C ++ contoh kode sumber ditambahkan untuk Ekstraksi Laman
- DocumentMerger menambahkan metode Merge2 (inputfile1, inputfile2, outputfile) untuk menggabungkan 2 file
- XLS Extractor minor bug-fixes
- PDF Multitool sekarang memungkinkan untuk mengaktifkan / menonaktifkan teks, gambar, lapisan vektor, menambahkan pengaturan lanjutan untuk ekstraksi teks
- XML, CSV, Ekstraksi tabel meningkatkan dukungan untuk tabel dengan sel emtpry di dalam kolom
- .ExtractShadowLikeText meningkatkan properti: penyaringan lebih baik untuk teks seperti bayangan
Apa yang baru di versi 6.10.2136:
Versi 6.10.2136:
- PDF ke XML, PDF Ke CSV, PDF Ke fungsionalitas Teks ditingkatkan
- PDF Untuk sampel baris perintah XLS ditambahkan (berdasarkan vbscript)
- PDF Ke HTML SDK menambahkan properti .DetectHyperLinks baru (BENAR secara default) untuk mengaktifkan / menonaktifkan deteksi tautan otomatis dalam teks
- SearchablePDFMaker baru (tersedia untuk lisensi PRO) untuk mengonversi PDF menjadi file PDF yang dapat dicari
- properti baru di extractor: PertimbangkanFontNames, PertimbangkanFontSize, PertimbangkanFontColors, PertimbangkanVerticalBorders dalam file CFG
- deteksi kolom header (ketika AutoAlighHeaderToColumns = true) ditingkatkan
- .DetectLinesInsteadOfParagraphs diganti dengan .LineGroupingMode baru untuk mengontrol bagaimana garis digabung menjadi paragraf
- PENTING! PDF Untuk memperbaiki XML masalah lama dengan koordinat Y yang salah untuk objek teks (menunjuk ke kiri bawah bukan kiri atas)
- .TableXMinIntersectionRequiredInPercents dan properti .TableYMinIntersectionRequiredInPercents ditambahkan
- Contoh kode sumber C ++ ditambahkan
- Perbaikan XML Extractor hilang kolom kosong di PreserveFormatting = true mode
- perbaikan kecil dalam warna di beberapa file PDF
- mendukung beberapa bahasa OCR ditambahkan
- PDF GUI Multitool: menambahkan tombol Salin ke Papan Klip ke dialog TXT, CSV, XML dan rasterer raster
- XLSExtractor: menambahkan properti PageToWorksheet untuk mengaktifkan / menonaktifkan pembuatan lembar kerja terpisah per halaman
- properti .TextEncodingCodePage baru
- PDFViewerControl: menambahkan ValidateContextMenu memungkinkan pengguna menambahkan item kustom ke menu konteks
- Kontrol penampil PDF: menambahkan properti ShowTextObjects, ShowImageObjects, ShowVectorObjects
- XMLExtractor sekarang menambahkan atribut "OCRConfidence" untuk teks yang dikenal
- PDF / Fungsi pemeriksaan (dalam versi beta)
- meningkatkan kontrol dan pengecekan teks dan pelurusan sesuai dengan tata letak asli. Masalah ini disebabkan oleh pergeseran koordinat Y dalam kontrol sementara parsing: itu tidak benar. Cara yang benar adalah dengan shif ...
- XML Extractor diperbarui: sekarang menghasilkan tag KONTROL untuk kotak centang dan bidang teks
- mengubah penggunaan direktori saat ini menjadi direktori temp
- kotak centang, radiobox, kotak edit, kotak kombo didukung dengan lebih baik
- sekarang memungkinkan penelepon tepercaya sebagian
Apa yang baru di versi 5.80.1781:
Versi 5.80.1781:
- PDF ke XML, PDF ke CSV, PDF ke fungsi Teks diperbarui
- OCRMode sekarang menyediakan 9 mode
- .DetectLineInsteadOfParagraph kini bekerja jauh lebih baik. Setel ke False untuk menangkap teks multiline di sel tabel!
- dukungan kontrol PDF ditingkatkan
- Pengambilan data FDF dan XFDF
Apa yang baru di versi 5.10.1747:
Versi 5.10.1747:
- PDF ke XML, PDF ke CSV, PDF ke fungsi Teks ditingkatkan
- sekarang mendukung ekstraksi teks dari kontrol teks
- XML extractor sekarang menambahkan gaya font, ukuran, nama, koordinat teks ke dalam tag
- Contoh ASP.NET untuk penggunaan OCR ditambahkan
- properti baru OCRLanguageDataFolder untuk menentukan lokasi folder "tessdata"
- meningkatkan dukungan file PDF
- meningkatkan dukungan untuk teks yang diputar
- contoh kode sumber diperbarui
- dokumentasi terbaru
- perbaikan kecil dan perbaikan
Apa yang baru di versi 5.00.1626:
Versi 5.00.1626:
- Fungsi OCR (teks dari gambar) ditambahkan: sekarang Anda dapat mengekstrak teks dari gambar yang disematkan dan memperbaiki teks yang rusak
- masalah diperbaiki dengan CSV dan XML extractor yang tidak memiliki kolom terakhir dengan beberapa pengaturan
- meningkatkan dukungan untuk file PDF yang rusak
- pencarian teks pencarian multiline dengan mode pencocokan kata sekarang didukung
- sekarang dapat mencari teks dengan tanda hubung dan pada baris yang berbeda: lihat contoh kode sumber baru Temukan Teks Dengan Tanda Hubung
- properti baru .RTLTextAutoDetectionEnabled (false by default) untuk mendeteksi RTL bahasa secara otomatis
- Demo GUI Penampil PDF meningkat
- perbaikan kecil dan perbaikan
Persyaratan :
.NET Framework 2.0 atau lebih tinggi
Keterbatasan :
layar Nag, tanda air pada output
Komentar tidak ditemukan