Apache Tika merupakan toolkit open source yang dirancang untuk mendeteksi dan ekstrak metadata, serta isi teks terstruktur dari beberapa dokumen, menggunakan apa-apa selain yang ada parser perpustakaan.
Apache Tika mendukung format dokumen berikut: HyperText Markup Language (HTTP), XML dan berasal format, format dokumen Microsoft Office, Format OpenDocument (ODF), Portable Document Format (PDF), Publikasi Format Elektronik (EPF), Rich Text Format (RTF ), kompresi dan kemasan format, format teks / audio / gambar / video, format mbox, dan file kelas Java dan arsip.
Sebelumnya, Apache Tika merupakan sub-proyek perpustakaan software Apache Lucene. Sekarang didistribusikan sebagai paket mandiri oleh Apache Software Foundation
Apa yang baru dalam rilis ini:.
- Dihapus sebuah file tes HTML dengan teks GPL buruk dipilih di dalamnya (TIKA-1129).
- Perbaikan tika-server untuk memungkinkan untuk menghasilkan teks / html dan teks / konten xml (TIKA-1126, TIKA-1127).
- Perbaikan dilakukan dengan Compressor Parser untuk menangani file g'zipped yang membutuhkan opsi decompressConcatenated diatur ke benar (TIKA-1096).
- Ditujukan kesalahan tipografi yang mencegah dari deteksi file awk (TIKA-1081).
- Ditambahkan titik akhir baru untuk JAX-RS SISA Server Tika yang hanya mendeteksi jenis media yang didasarkan pada sebagian kecil dari dokumen yang disampaikan (TIKA-1047).
- RTF:. Memerintahkan dan daftar unordered sekarang diekstraksi (TIKA-1062)
- MP3: Durasi Audio kini diekstraksi (TIKA-991)
- Jawa .class file:. Upgrade dari ASM 3.1 ASM 4.1 untuk parsing bytecode Java (TIKA-1053)
- Jenis Mime: Definisi diperluas untuk mencakup opsional Link (URL) dan ISK, bersama dengan rincian untuk beberapa format umum (TIKA-1012 / TIKA-1083)
- Pengecualian ketika parsing dokumen OLE10 tertanam, ketika parsing ringkasan informasi dari dokumen Office, dan saat menyimpan documennts tertanam di TikaCLI sekarang login bukannya batal ekstraksi (TIKA-1074)
- MS Word: karakter baris tabel kini diganti dengan baris baru (TIKA-1128)
- XML: ElementMetadataHandlers dapat sekarang opsional menerima nilai-nilai duplikat dan kosong (TIKA-1133) .
Persyaratan :
- 2 Runtime Environment Standard Edition Jawa
Komentar tidak ditemukan