Apache Nutch dibangun di atas Apache Lucene , mesin pencari Java kuat.
Pengembang Nutch memodifikasi basis kode Lucene, mengubah data-agnostic Lucene basis kode menjadi proyek yang didedikasikan untuk pencarian data di Web khusus.
Teknologi ini dapat digunakan untuk mencari pada halaman Web Anda sendiri sebagai built-in server pencarian, atau menjelajah Web untuk mencari data untuk mengurai dan mengikis ke dalam database Anda.
Nutch dapat berjalan pada satu mesin, tapi bekerja lebih baik di Hadoop cluster.
Berbagai plugin yang tersedia untuk memperluas spektrum penggunaannya
Apa yang baru dalam rilis ini:.
- Pastikan duplikat tag tidak ada dalam microformat-reltag tag set.
- A lebih baik jatuh kembali nilai field tanggal.
- Singkirkan ditakuti.
- Upgrade ke Hadoop 1.2.0.
- Upgrade ke Tika 1.3.
Apa yang baru di versi 2.0:.
- Berganti nama HTMLParseFilter ke ParseFilter
- Hapus sisa robot / IP kode memblokir di lib-http.
- Pelabuhan logging untuk slf4j.
- parser eksternal mendukung encoding atribut.
- pengaturan konfigurasi Ivy tidak termasuk Gora.
- Injector harus menambahkan metadata sebelum memanggil injectedScore.
- Pelabuhan Nutch patokan untuk Nutchbase .
- Tambahkan mengurai-html kembali.
- MoreIndexingFilter hilang format tanggal.
- Timeout untuk Parser .
- Coba lagi interval pada tanggal merangkak diatur ke 0.
- Hasilkan log output untuk solr pengindeks dan dedup.
- Peningkatan NutchConfiguration.
- SolrDeleteDuplicates perlu untuk mengkloning objek SolrRecord.
- asli libs Hadoop tidak tersedia melalui maven.
- Pisahkan membangun dan runtime lingkungan .
Apa yang baru di versi 1.5:
- Rilis ini meliputi beberapa perbaikan termasuk upgrade beberapa komponen utama termasuk tika 1.1 dan Hadoop 1.0.0, perbaikan LinkRank dan elemen WebGraph serta beberapa plugin baru yang meliputi daftar hitam, penyaringan dan parsing untuk beberapa nama.
Apa yang baru di versi 1.4:
- Ditambahkan Solr 4x (trunk) contoh skema
- Ditambahkan '/ runtime' untuk svn mengabaikan.
- Aplikasi / xhtml + xml harus diaktifkan pada plugin.xml dari parse-html; memungkinkan beberapa mimetypes untuk plugin.xml.
- Tetap mengurai-tika dan mengurai-html untuk menggunakan resolusi URL relatif per RFC-3986.
- Upgrade ke Tika 0.10. CATATAN:. Tika baru RTF parser dapat mengabaikan lebih teks dalam dokumen cacat dari sebelumnya - lihat TIKA-748 untuk rincian
- Ditambahkan Sonar menargetkan build.xml Ant .
- Upgrade ke versi 3.4.0 SolrJ.
- Target Ant PMD rusak.
- Upgrade Solr skema ke versi 1.4.
Apa yang baru di versi 1.3:
- Rilis ini meliputi beberapa perbaikan (dukungan peningkatan RSS parsing, ketat integrasi dengan Apache Tika, dukungan parsing eksternal, meningkatkan identifikasi bahasa dan urutan besarnya sumber yang lebih kecil rilis tarball -!. hanya sekitar 2MB)
Apa yang baru dalam versi 1.2:.
- Membuat indeks-lebih plug-in dapat dikonfigurasi
- Dikonfigurasi protokol direktori file induk merangkak.
- Timeout untuk Parser .
- Situs web masih Lucene bermerek.
- Coba lagi interval pada tanggal merangkak diatur ke 0.
Apa yang baru di versi 1.0:.
- Izinkan parser untuk kembali beberapa objek Parse
- Dihapus berlebihan jar commons-logging dari Plugin ontologi.
- Bug di SegmentReader menyebabkan loop tak terbatas.
- Scoring filter harus mendistribusikan skor untuk semua outlinks sekaligus.
- Mengurangi jumlah peringatan di inti nutch.
Komentar tidak ditemukan