uni2ascii dan ascii2uni mengkonversi antara UTF-8 Unicode dan setiap dari berbagai 7-bit setara ASCII termasuk: heksadesimal dan HTML desimal karakter numerik referensi, u-lolos, heksadesimal standar, dan heksadesimal baku.
Setara ASCII tersebut berguna ketika termasuk teks Unicode di sumber program, ketika memasukkan teks ke dalam program Web yang dapat menangani set karakter Unicode tetapi tidak 8-bit yang aman, dan saat debugging.
Unicode lolos tersedia adalah:
- HTML heksadesimal referensi karakter numerik (misalnya)
- HTML desimal referensi karakter numerik (misalnya ȳ)
- U-lolos, seperti yang digunakan dalam Python (misalnya u00E9)
- U-lolos dalam BMP dan U-lolos luar BMP, misalnya u00E9 tapi U00010024.
- U -escapes (misalnya U 00E9)
- U-lolos (misalnya U00E9)
- U-lolos (misalnya u00E9)
- U-lolos dalam kurung sudut (mis)
- X-lolos (misalnya x00E9)
- X-lolos dengan kawat gigi (misalnya x {} 00E9)
- Standard heksadesimal (misalnya 0x00E9)
- Heksadesimal baku (misalnya 00E9)
uni2ascii menerima bendera baris perintah menentukan apakah untuk menghasilkan huruf besar AF atau huruf kecil af sebagai digit heksadesimal karena beberapa beberapa program hanya menerima satu atau yang lain. ascii2uni menerima baik.
Dalam kasus uni2ascii secara default, hanya karakter di luar rentang ASCII dikonversi. Bahkan jika karakter ASCII juga diubah, baris yang diawetkan kecuali konversi mereka secara eksplisit diminta. Karakter ruang juga diawetkan kecuali konversi secara eksplisit diminta. Dalam kasus tiga karakter ruang non-ASCII (ruang Ethiopia kata, ruang Ogham, dan ruang ideografik), jika karakter ruang tidak dikonversi, ini diganti dengan ruang ASCII (0x20) sehingga tetap output dalam 7- bit kisaran ASCII.
Paket ini berisi empat program. Program utama adalah uni2ascii. Hal ini ditulis dalam C dan harus disusun. uni2html.py adalah pendahulu uni2ascii. Seperti yang ditulis dengan Python, tidak perlu dikompilasi dan harus dijalankan pada hampir semua komputer saat ini. uni2ascii dinyatakan unggul dalam bahwa:
- Ini menghasilkan jangkauan yang lebih luas dari format output.
- Ini adalah sekitar 20 kali lebih cepat.
- Ini menangani masukan dalam penuh 32 bit kisaran Unicode. Sebaliknya, uni2html hanya menangani
Dasar Multilingual Plane (Pesawat 0) karena saat ini Python merupakan Unicode teks dikodekan internal menggunakan 16-bit bilangan bulat. Jika Anda punya teks dalam, katakanlah, B Linear atau Ugarit, Anda perlu uni2ascii.
Ia melakukan pekerjaan yang lebih baik dari pelaporan kesalahan. Jika menemukan kesalahan dalam input, seperti mal-membentuk UTF-8, itu laporan lokasi kesalahan baik dari segi jumlah karakter dari awal file (mulai dari 0), dan dalam hal jumlah byte dari awal file (juga mulai 0). (Jumlah karakter dan jumlah byte umumnya tidak sama sejak UTF-8 karakter dikodekan menempati dari satu sampai empat byte.) Laporan versi Python hanya jumlah karakter. uni2ascii juga menyediakan informasi tentang sifat kesalahan.
Program ketiga, ascii2uni, adalah kebalikan dari uni2ascii. Ia menerima teks yang berisi berbagai representasi ASCII dari karakter Unicode dan menghasilkan UTF-8 Unicode.
Program keempat, ascii2uni.py, membaca 7-bit ASCII yang mengandung u-lolos Unicode, seperti yang digunakan dalam Python dan Tcl, dan mengkonversi ke UTF-8 Unicode. Ini adalah program asli yang ascii2uni adalah generalisasi
Apa yang baru dalam rilis ini:.
- Fixed bug di uni2ascii di mana dalam kasus-kasus tertentu hitungan substitusi terlalu tinggi, memperbaiki bug Debian # 626268.
- Ditambal untuk menangani situasi di NetBSD yang tidak memiliki getline.
- Klarifikasi semantik pilihan murni seperti mengkonversi karakter dalam kisaran ascii selain ruang dan baris baru. Fixed bug di mana ini tidak diterapkan dengan benar untuk jenis UTF8.
Apa yang baru di versi 4.17:
- Ditambahkan ke uni2ascii konversi berikut untuk ascii terdekat setara: U 2022 peluru 'o', U + 00B7 dot tengah periode, U + 0085 baris berikutnya untuk baris baru, U + 2028 garis pemisah untuk baris baru.
Apa yang baru di versi 4.16:
- Q Format bekerja lagi di ascii2uni .
- Ditambahkan U + 2033 DOUBLE PRIME dengan karakter dikonversi ke ascii setara terdekat mereka di bawah menggunakan format e di uni2ascii.
Apa yang baru di versi 4.15:
- Berganti nama endian.h untuk u2a_endian.h untuk menghilangkan konflik dengan endian.h eksternal.
- copy Dihapus dari GNU getline dari ascii2uni.c karena standar seperti dari POSIX2008.
Apa yang baru di versi 4.14:
- Fixed bug yang mengganggu penggunaan format Q di uni2ascii.
- Fixed bug di mana ascification U + 2502 dan U + 2503 menambahkan kutipan ganda untuk output.
- Fixed bug di mana -suatu pilihan S menghasilkan & quot; Dikonversi begitu banyak karakter & quot; line untuk masing-masing karakter karena meninggalkan dalam kode debug.
Apa yang baru di versi 4.13:
- Fixed bug yang menyebabkan jumlah berlebihan karakter berubah menjadi ASCII untuk dilaporkan.
Apa yang baru di versi 4.12:
- Kedua program sekarang memungkinkan nama file input yang akan ditentukan pada baris perintah tanpa redirection.
Apa yang baru di versi 4.11:
- Rilis ini menambahkan dukungan untuk & lt; XX & gt; & lt; XX & gt; dan format% uxxxx.
Apa yang baru di versi 4.10:
- Rilis ini memperbaiki bug yang membuat argumen Y ke Bendera -a dari ascii2uni no-op, dan memperbaiki halaman manual dan membantu untuk Y dan Q argumen untuk bendera -a untuk kedua program.
- Y Argumen sekarang kesalahan untuk uni2ascii.
- Informasi versi dan tindakan ringkasan yang lebih informatif.
Komentar tidak ditemukan