Proyek cpdetector adalah kerangka belum pintar kecil untuk deteksi codepage.
cpdetector adalah kerangka kecil namun cerdas untuk deteksi codepage yang mengintegrasikan strategi yang berbeda. Ini dapat digunakan sebagai perpustakaan untuk perangkat lunak pihak ketiga yang mengakses data tekstual melalui jaringan.
Ini juga termasuk implementasi praktek terbaik dalam bentuk alat baris perintah yang memungkinkan pemilahan dan mengubah koleksi besar dokumen berdasarkan codepage mereka.
Strategi yang tersedia antara lain: jchardet (pengecualian, analisis frekuensi, dan menebak), deteksi properti HTML charset, dan deteksi XML encoding deklarasi.
Apa yang dimaksud dengan kode halaman?
Pada awalnya, dokumen tekstual tidak lebih dari urutan bit. Sebuah komputer harus memutuskan, bagaimana ia dapat menampilkan data ini dalam bentuk karakter (yang diidentifikasi oleh komputer sebagai nomor).
Sebuah halaman kode - yang juga dikenal sebagai charset encoding - memetakan data mentah dari dokumen tekstual untuk karakter. Asli halaman kode ASCII misalnya hanya menggunakan 7 bit oktet (byte) untuk menentukan karakter yang diwakili sehingga memungkinkan hanya untuk memetakan 128 karakter yang berbeda. Dalam memori masa lalu itu mahal dan komputer paling sering hanya memiliki register dan bus untuk 8 bit.
Ketika mainframe dikandung itu harus diputuskan, yang karakter itu harus mendukung. Dokter dan ahli matematika misalnya diperlukan karakter khusus untuk persamaan. Akibatnya, komputer sering dikirim dengan codepage khusus
Apa yang baru dalam rilis ini:.
- bugfix utama ini Versi perbaikan dua isu dalam modus batch command-line.
- Saklar untuk melewati bergerak dokumen terdeteksi bekerja sekarang lagi.
- Tidak ada upaya akan dilakukan untuk transcode dokumen terdeteksi (yang terakhir menyebabkan aliran program biasa).
Apa yang baru dalam versi 1.0.8:
- Rilis ini adalah rilis stabilitas dan perbaikan byte memesan deteksi tanda dan ketidakcocokan dengan OpenJDK. Hal ini juga membutuhkan Java 1.5 sekarang.
Komentar tidak ditemukan