Jericho HTML Parser

Software screenshot:
Jericho HTML Parser
Rincian Software:
Versi: 3.4
Tanggal Upload: 10 Dec 15
Pengembang: Martin Jericho
Lisensi: Gratis
Popularitas: 12

Rating: nan/5 (Total Votes: 0)

Hal ini dapat mengedit server-side dan client-side tag, sementara mereproduksi verbatim HTML tidak diakui atau tidak valid.

Ini juga menyediakan tingkat tinggi fungsi bentuk HTML manipulasi

Fitur :.

  • Kehadiran buruk diformat HTML tidak mengganggu parsing dari sisa dokumen, yang membuat ideal perpustakaan untuk digunakan dengan & quot; dunia nyata & quot; HTML yang tersedak parser lainnya.
  • ASP, JSP, PSP, PHP dan Mason tag Server secara eksplisit diakui oleh parser. Ini berarti bahwa HTML biasa masih diurai dengan baik bahkan jika ada tag server yang di dalamnya, yang umum misalnya ketika dinamis menetapkan atribut elemen.
  • Sebuah pilihan parsing aliran berdasarkan baru menggunakan kelas StreamedSource, yang memungkinkan memori proses yang efisien dari file besar menggunakan iterator acara. Ini pada dasarnya adalah sebuah alternatif Stax dengan kemampuan untuk memproses HTML dan non-memvalidasi XML, serta beberapa fitur lain yang tidak tersedia di parser streaming lainnya.
  • Dalam bentuk standarnya ini bukan sebuah acara atau pohon parser berbasis, melainkan menggunakan kombinasi pencarian teks sederhana, tag pengakuan efisien dan cache posisi tag. Teks dokumen seluruh sumber pertama dimuat ke memori, dan kemudian hanya segmen yang relevan mencari karakter yang relevan dari setiap operasi pencarian.
  • Dibandingkan dengan parser berbasis pohon seperti DOM, memori dan kebutuhan sumber daya dapat jauh lebih baik jika hanya bagian kecil dari dokumen perlu dipecah atau dimodifikasi. Salah atau buruk diformat HTML dapat dengan mudah diabaikan, tidak seperti parser berbasis pohon yang harus mengidentifikasi setiap node dalam dokumen dari atas ke bawah.
  • Dibandingkan dengan parser berbasis peristiwa seperti SAX, antarmuka pada tingkat yang jauh lebih tinggi dan lebih intuitif, dan representasi pohon hirarki elemen dokumen mudah dibuat jika diperlukan.
  • mulai dan posisi akhir dalam dokumen sumber dari semua segmen diurai dapat diakses, memungkinkan modifikasi segmen hanya dipilih dari dokumen tanpa harus merekonstruksi seluruh dokumen dari pohon.
  • baris dan kolom jumlah setiap posisi dalam dokumen sumber yang mudah diakses.
  • Menyediakan antarmuka yang sederhana namun komprehensif untuk analisis dan manipulasi HTML bentuk kontrol, termasuk ekstraksi dan populasi nilai awal, dan konversi ke read-only atau tampilan data mode. Analisis bentuk kontrol juga memungkinkan data yang diterima dari bentuk yang akan disimpan dan disajikan dengan cara yang tepat.
  • Built-in fungsi untuk mengekstrak semua teks dari HTML markup, cocok untuk makan ke mesin pencari teks seperti Apache Lucene.
  • Built-in fungsi untuk membuat markup HTML dengan format teks sederhana.
  • Built-in fungsi untuk memformat kode sumber HTML yang indentasi elemen menurut kedalaman mereka dalam hirarki elemen dokumen. (Klik di sini untuk demonstrasi online)
  • Built-in fungsi untuk kode sumber HTML kompak dengan menghapus semua spasi yang tidak perlu.
  • jenis tag kustom dapat dengan mudah didefinisikan dan terdaftar untuk pengakuan oleh parser.

Apa yang baru dalam rilis ini:.

  • Ditambahkan Sumber (File) konstruktor
  • metode Ditambahkan OutputDocument.getSegment ()
  • .
  • Ditambahkan OutputDocument.remove (int mulai, int end) metode.
  • metode Ditambahkan Renderer.setHRLineLength ()
  • .
  • Ditambahkan RenderToText.jsp sampel webapp
  • .
  • metode Ditambahkan Segment.getRowColumnVector ()
  • .
  • deteksi Encoding sekarang mengabaikan pengkodean umum ditentukan dalam meta tag yang memiliki ukuran unit kode yang tidak kompatibel dengan pengkodean awal.

Apa yang baru di versi 3.1:

  • Perbaikan Bug:
  • lingkaran tak terbatas pada Segment.getAllStartTags ()
  • lingkaran tak terbatas pada Segment.getAllElements ()
  • Segment.getFirst * metode kembali segmen luar segmen bounding.

  • metode
  • Segment.getAllElements tidak mengembalikan semua elemen tertutup dalam beberapa keadaan.
  • kesalahan dokumentasi Tetap dalam metode Segment.getAllElements
  • .
  • kelas Ditambahkan StreamedSource
  • .
  • Perubahan yang dapat mempengaruhi perilaku program yang ada:
  • Berubah ParseText dari kelas antarmuka.
  • Segment.getNodeIterator () sekarang kembali referensi karakter sebagai node terpisah.
  • metode pencarian Ditambahkan tag berdasarkan nilai atribut ekspresi reguler.
  • metode pencarian Ditambahkan tag berdasarkan kelas HTML atribut.
  • Ditambahkan statis properti Source.LegacyNodeIteratorCompatabilityMode sementara untuk mengembalikan Segment.getNodeIterator () fungsi dengan yang versi sebelumnya.
  • Dihapus [char] metode pencarian berbasis di ParseText.
  • Ditambahkan CharacterReference.appendCharTo (Appendable) metode.
  • Ditambahkan OutputDocument (Segmen) konstruktor.
  • contoh program Ditambahkan StreamedSourceCopy.

Software yang serupa

Embed Responsively
Embed Responsively

12 Apr 15

VisSense.js
VisSense.js

10 Dec 15

store
store

4 Jun 15

uCSS
uCSS

10 Dec 15

Perangkat lunak lain dari pengembang Martin Jericho

Komentar untuk Jericho HTML Parser

Komentar tidak ditemukan
Tambahkan komentar
Aktifkan gambar!