Apache Nutch

Software screenshot:
Apache Nutch
Rincian Software:
Versi: 2.3
Tanggal Upload: 1 Mar 15
Lisensi: Gratis
Popularitas: 36

Rating: 3.0/5 (Total Votes: 1)

Apache Nutch dibangun di atas Apache Lucene , mesin pencari Java kuat.
Pengembang Nutch memodifikasi basis kode Lucene, mengubah data-agnostic Lucene basis kode menjadi proyek yang didedikasikan untuk pencarian data di Web khusus.
Teknologi ini dapat digunakan untuk mencari pada halaman Web Anda sendiri sebagai built-in server pencarian, atau menjelajah Web untuk mencari data untuk mengurai dan mengikis ke dalam database Anda.
Nutch dapat berjalan pada satu mesin, tapi bekerja lebih baik di Hadoop cluster.
Berbagai plugin yang tersedia untuk memperluas spektrum penggunaannya

Apa yang baru dalam rilis ini:.

  • Pastikan duplikat tag tidak ada dalam microformat-reltag tag set.
  • A lebih baik jatuh kembali nilai field tanggal.
  • Singkirkan ditakuti.
  • Upgrade ke Hadoop 1.2.0.
  • Upgrade ke Tika 1.3.

Apa yang baru di versi 2.0:.

  • Berganti nama HTMLParseFilter ke ParseFilter
  • Hapus sisa robot / IP kode memblokir di lib-http.
  • Pelabuhan logging untuk slf4j.
  • parser eksternal mendukung encoding atribut.
  • pengaturan konfigurasi Ivy tidak termasuk Gora.
  • Injector harus menambahkan metadata sebelum memanggil injectedScore.
  • Pelabuhan Nutch patokan untuk Nutchbase
  • .
  • Tambahkan mengurai-html kembali.
  • MoreIndexingFilter hilang format tanggal.
  • Timeout untuk Parser
  • .
  • Coba lagi interval pada tanggal merangkak diatur ke 0.
  • Hasilkan log output untuk solr pengindeks dan dedup.
  • Peningkatan NutchConfiguration.
  • SolrDeleteDuplicates perlu untuk mengkloning objek SolrRecord.
  • asli libs Hadoop tidak tersedia melalui maven.
  • Pisahkan membangun dan runtime lingkungan
  • .

Apa yang baru di versi 1.5:

  • Rilis ini meliputi beberapa perbaikan termasuk upgrade beberapa komponen utama termasuk tika 1.1 dan Hadoop 1.0.0, perbaikan LinkRank dan elemen WebGraph serta beberapa plugin baru yang meliputi daftar hitam, penyaringan dan parsing untuk beberapa nama.

Apa yang baru di versi 1.4:

  • Ditambahkan Solr 4x (trunk) contoh skema
  • Ditambahkan '/ runtime' untuk svn mengabaikan.
  • Aplikasi / xhtml + xml harus diaktifkan pada plugin.xml dari parse-html; memungkinkan beberapa mimetypes untuk plugin.xml.
  • Tetap mengurai-tika dan mengurai-html untuk menggunakan resolusi URL relatif per RFC-3986.
  • Upgrade ke Tika 0.10. CATATAN:. Tika baru RTF parser dapat mengabaikan lebih teks dalam dokumen cacat dari sebelumnya - lihat TIKA-748 untuk rincian
  • Ditambahkan Sonar menargetkan build.xml Ant
  • .
  • Upgrade ke versi 3.4.0 SolrJ.
  • Target Ant PMD rusak.
  • Upgrade Solr skema ke versi 1.4.

Apa yang baru di versi 1.3:

  • Rilis ini meliputi beberapa perbaikan (dukungan peningkatan RSS parsing, ketat integrasi dengan Apache Tika, dukungan parsing eksternal, meningkatkan identifikasi bahasa dan urutan besarnya sumber yang lebih kecil rilis tarball -!. hanya sekitar 2MB)

Apa yang baru dalam versi 1.2:.

  • Membuat indeks-lebih plug-in dapat dikonfigurasi
  • Dikonfigurasi protokol direktori file induk merangkak.
  • Timeout untuk Parser
  • .
  • Situs web masih Lucene bermerek.
  • Coba lagi interval pada tanggal merangkak diatur ke 0.

Apa yang baru di versi 1.0:.

  • Izinkan parser untuk kembali beberapa objek Parse
  • Dihapus berlebihan jar commons-logging dari Plugin ontologi.
  • Bug di SegmentReader menyebabkan loop tak terbatas.
  • Scoring filter harus mendistribusikan skor untuk semua outlinks sekaligus.
  • Mengurangi jumlah peringatan di inti nutch.

Software yang serupa

Lupyne
Lupyne

13 Apr 15

SearchBlox
SearchBlox

10 Dec 15

PHP Search Engine
PHP Search Engine

13 May 15

Perangkat lunak lain dari pengembang Apache Software Foundation

Apache MyFaces
Apache MyFaces

12 May 15

Apache MRQL
Apache MRQL

1 Mar 15

Apache Log4j
Apache Log4j

9 Feb 16

Apache Chukwa
Apache Chukwa

9 Apr 16

Komentar untuk Apache Nutch

Komentar tidak ditemukan
Tambahkan komentar
Aktifkan gambar!