Apache Tika

Software screenshot:
Apache Tika
Rincian Software:
Versi: 1.9 Diperbarui
Tanggal Upload: 20 Jul 15
Lisensi: Gratis
Popularitas: 89

Rating: 5.0/5 (Total Votes: 1)

Apache Tika dikembangkan sebagai toolkit tingkat rendah untuk mencari konten dalam file lainnya.
Tika tidak melakukan banyak sendiri menjadi sebuah perpustakaan sederhana, tetapi dapat diintegrasikan dalam alat yang lebih kuat seperti mesin pencari, sistem manajemen aset digital atau CMSS untuk menyediakan sistem pencarian fungsi-lengkap di-file.
Perpustakaan dapat mengakses sundulan file untuk informasi file cepat secara keseluruhan, atau dapat pergi benar-benar mendalam dan mencari bahkan dalam tubuh file untuk berbagai jenis data, dalam teks atau format binary.
Berbagai macam jenis file yang didukung dan Tika juga dapat digunakan dengan bahasa pemrograman lain berkat serangkaian binding pihak ketiga dan pembungkus.

Apa yang baru dalam rilis ini :

  • Rilis ini meliputi perbaikan bug dan fitur baru termasuk Tesseract baru OCR Parser; sebuah Parser GDAL baru; format, dan perbaikan secara keseluruhan lebih didukung stabilitas Tika.

Apa yang baru di versi 1.8:

  • Rilis ini meliputi perbaikan bug dan fitur baru termasuk Tesseract baru OCR Parser; sebuah Parser GDAL baru; format, dan perbaikan secara keseluruhan lebih didukung stabilitas Tika.

Apa yang baru di versi 1.7:

  • Rilis ini meliputi perbaikan bug dan fitur baru termasuk Tesseract baru OCR Parser; sebuah Parser GDAL baru; format, dan perbaikan secara keseluruhan lebih didukung stabilitas Tika.

Apa yang baru di versi 1.6:

  • Rilis ini meliputi perbaikan bug dan fitur baru termasuk Translation baru API, format yang lebih didukung, dan perbaikan keseluruhan stabilitas Tika
  • .

Apa yang baru di versi 1.5:.

  • Fixed bug dalam penanganan pemrosesan file tertanam dalam PDF
  • Ditambahkan SourceCodeParser untuk mendukung java, Groovy, C ++ file.
  • Diperbarui Tika Server untuk mendukung muatan multipart / form-data.
  • Diperbarui Tika Server untuk CXF 2.7.8.
  • Diperbarui Tika Server menerima permintaan lebih alamat wildcard.
  • option Ditambahkan menggunakan NonSequentialPDFParser alternatif.
  • Konten dari AcroForms PDF kini diekstrak.
  • Tetap tanda bintang yang tidak valid dari slide master di PPT
  • .
  • kasus Ditambahkan tes untuk mengkonfirmasi penanganan auto-date di PPT dan PPTX.

Apa yang baru di versi 1.4:

  • Dihapus file tes HTML dengan teks GPL buruk dipilih di itu.
  • Perbaikan tika-server untuk memungkinkan untuk menghasilkan teks / html dan teks / konten xml.
  • Perbaikan dilakukan dengan Compressor Parser untuk menangani file g'zipped yang membutuhkan opsi decompressConcatenated diatur ke benar.
  • Ditujukan kesalahan tipografi yang mencegah dari deteksi file awk.

Apa yang baru di versi 1.2:

  • Apache Tika 1.2 berisi sejumlah perbaikan dan perbaikan bug.

Apa yang baru di versi 1.0:

  • Apache Tika 1.0 berisi sejumlah perbaikan dan perbaikan bug.

Apa yang baru di versi 0.9:.

  • Rilis ini mencakup beberapa perbaikan bug penting dan fitur baru

Apa yang baru di versi 0.8:

  • identifikasi Bahasa sekarang dinamis dikonfigurasi, dikelola melalui file konfigurasi diambil dari classpath.
  • Tika sekarang mendukung parsing Feed dengan membungkus perpustakaan Roma yang mendasari.
  • Sebuah panduan cepat-start untuk Tika parsing disumbangkan.
  • Pendekatan untuk pipa melalui atribut XHTML ditambahkan.
  • Jenis Media informasi hirarki kini diperhitungkan ketika memilih parser terbaik untuk dokumen masukan yang diberikan.
  • Dukungan untuk parsing format data ilmiah yang umum termasuk netCDF dan HDF4 / 5 ditambahkan.
  • Unit test untuk Windows telah diperbaiki, sehingga TestParsers untuk menyelesaikan.

Apa yang baru di versi 0.7:

  • File MP3 parsing ditingkatkan, termasuk Channel dan samplerate ekstraksi dan dukungan ID3v2. Selanjutnya, deteksi audio yang parsing mime juga ditingkatkan untuk format MIDI.
  • Tika tidak lagi bergantung pada X11 untuk perusahaan fungsi RTF parsing.
  • A-Thread aman bug di AutoDetectParser ditemukan dan ditangani.
  • Upgrade ke PDFBox 1.0.0. Versi PDFBox baru meningkatkan kinerja parsing PDF dan perbaikan sejumlah isu ekstraksi teks.

Persyaratan :

  • Jawa 6 atau lebih tinggi

Software yang serupa

Runt
Runt

13 May 15

Java Excel API
Java Excel API

6 Jun 15

Common Node
Common Node

28 Feb 15

Perangkat lunak lain dari pengembang Apache Software Foundation

Apache FOP
Apache FOP

13 May 15

Apache Xalan Java
Apache Xalan Java

13 Apr 15

Apache UIMA
Apache UIMA

17 Feb 15

Apache UIMA
Apache UIMA

1 Oct 15

Komentar untuk Apache Tika

Komentar tidak ditemukan
Tambahkan komentar
Aktifkan gambar!