Apache Tika

Software screenshot:
Apache Tika
Rincian Software:
Versi: 1.4
Tanggal Upload: 20 Feb 15
Lisensi: Gratis
Popularitas: 102

Rating: nan/5 (Total Votes: 0)

Apache Tika merupakan toolkit open source yang dirancang untuk mendeteksi dan ekstrak metadata, serta isi teks terstruktur dari beberapa dokumen, menggunakan apa-apa selain yang ada parser perpustakaan.
Apache Tika mendukung format dokumen berikut: HyperText Markup Language (HTTP), XML dan berasal format, format dokumen Microsoft Office, Format OpenDocument (ODF), Portable Document Format (PDF), Publikasi Format Elektronik (EPF), Rich Text Format (RTF ), kompresi dan kemasan format, format teks / audio / gambar / video, format mbox, dan file kelas Java dan arsip.
Sebelumnya, Apache Tika merupakan sub-proyek perpustakaan software Apache Lucene. Sekarang didistribusikan sebagai paket mandiri oleh Apache Software Foundation

Apa yang baru dalam rilis ini:.

  • Dihapus sebuah file tes HTML dengan teks GPL buruk dipilih di dalamnya (TIKA-1129).
  • Perbaikan tika-server untuk memungkinkan untuk menghasilkan teks / html dan teks / konten xml (TIKA-1126, TIKA-1127).
  • Perbaikan dilakukan dengan Compressor Parser untuk menangani file g'zipped yang membutuhkan opsi decompressConcatenated diatur ke benar (TIKA-1096).
  • Ditujukan kesalahan tipografi yang mencegah dari deteksi file awk (TIKA-1081).
  • Ditambahkan titik akhir baru untuk JAX-RS SISA Server Tika yang hanya mendeteksi jenis media yang didasarkan pada sebagian kecil dari dokumen yang disampaikan (TIKA-1047).
  • RTF:. Memerintahkan dan daftar unordered sekarang diekstraksi (TIKA-1062)
  • MP3: Durasi Audio kini diekstraksi (TIKA-991)
  • Jawa .class file:. Upgrade dari ASM 3.1 ASM 4.1 untuk parsing bytecode Java (TIKA-1053)
  • Jenis Mime: Definisi diperluas untuk mencakup opsional Link (URL) dan ISK, bersama dengan rincian untuk beberapa format umum (TIKA-1012 / TIKA-1083)
  • Pengecualian ketika parsing dokumen OLE10 tertanam, ketika parsing ringkasan informasi dari dokumen Office, dan saat menyimpan documennts tertanam di TikaCLI sekarang login bukannya batal ekstraksi (TIKA-1074)
  • MS Word: karakter baris tabel kini diganti dengan baris baru (TIKA-1128)
  • XML: ElementMetadataHandlers dapat sekarang opsional menerima nilai-nilai duplikat dan kosong (TIKA-1133)
  • .

Persyaratan :

  • 2 Runtime Environment Standard Edition Jawa

Perangkat lunak lain dari pengembang The Apache Software Foundation

Apache Avro
Apache Avro

18 Jul 15

Apache Cassandra
Apache Cassandra

19 Feb 15

Apache ZooKeeper
Apache ZooKeeper

20 Feb 15

Apache Solr
Apache Solr

23 Jan 15

Komentar untuk Apache Tika

Komentar tidak ditemukan
Tambahkan komentar
Aktifkan gambar!