Apache Nutch

Software screenshot:
Apache Nutch
Rincian Software:
Versi: 2.3 Diperbarui
Tanggal Upload: 17 Jul 15
Pengembang: Sami Siren
Lisensi: Gratis
Popularitas: 12

Rating: 1.0/5 (Total Votes: 2)

proyek Apache Nutch merupakan open source, scalable, sangat extensible dan bebas perangkat lunak berbasis web web crawler yang dibangun pada Apache Lucene (versi Jawa) perpustakaan.
Ia menambahkan Web spesifik, seperti crawler, database link-grafik, parser untuk HTML dan format dokumen lainnya, dll Hal ini dikembangkan dan didistribusikan oleh Apache Foundation, itu dua cabang yang terpisah.
Menjadi modular dan pluggable, Apache Nutch memiliki manfaat, dengan menyediakan antarmuka extensible seperti Parse, Indeks dan ScoringFilter untuk implementasi kustom, seperti Apache Tika untuk parsing.
Selain itu, Apache Nutch dirancang untuk berjalan pada mesin tunggal, tetapi lebih kuat ketika berjalan di cluster Hadoop. Pengindeksan pluggable ada untuk elastis Cari, Apache Solr, dll

Apa yang baru dalam rilis ini:.

  • Nutch-1779 Terapkan format untuk kode (lewismc)
  • Nutch-1907 keluaran salah dari outlinks untuk Host dalam HostDbUpdateReducer (lewismc)
  • Nutch-1856 Dokumen webpage.avsc dan host.avsc (lewismc)
  • Nutch-1834 perilaku GeneratorMapper tergantung pada tingkat log (Gerhard Gossen melalui snagel)
  • Nutch-1899 Upgrade Restlet lib untuk mencegah kegagalan membangun (talat)
  • Nutch-1797 menghapus paket yang tidak terpakai oanhtml (Saurabh Chhajed melalui snagel)
  • Nutch-1888 Tentukan HTMLMapper untuk digunakan dalam TikaParser (Halil Simsek melalui jnioche)
  • Nutch-1897 Mudah debugging kesalahan Plugin XML (markus)
  • Nutch-1823 upgrade ke elasticsearch 1.4.1 (Phu Kieu, markus, lewismc)
  • Nutch-1829 Generator: tidak dapat membedakan kesalahan nyata (Mathieu Bouchard, jnioche, snagel)
  • Generator Nutch-1778 tidak masuk jumlah URL dalam batch dengan benar (jnioche melalui snagel)
  • Nutch-1877 URL Suffix penyaring untuk mengabaikan string kueri secara default (markus melalui snagel)
  • Nutch-1825 protokol-http mungkin menggantung untuk halaman web tertentu (Phu Kieu melalui snagel)
  • Nutch-1483 Tidak bisa merangkak filesystem dengan plugin protokol-berkas (Rogerio Pereira Araujo, Mengying Wang, snagel)
  • Nutch-1885 Protokol-file yang harus memperlakukan link simbolik sebagai pengalihan (Mengying Wang, snagel)
  • Nutch-1880 URLUtil tidak harus menambahkan garis miring tambahan untuk URL berkas (snagel)
  • Nutch-1879 Regex URL normalizer harus menghapus beberapa garis miring setelah berkas: protocol (snagel)
  • Nutch-1820 bidang remove & quot; orig & quot; yang duplikat & quot; id & quot; (lewismc, snagel)
  • Nutch-1843 upgrade ke Gora 0,5 (talat, lewismc, Kiril Menshikov, drazzib)
  • Nutch-1883 bin / merangkak: fungsi penggunaan untuk menjalankan bin / nutch dan memeriksa nilai exit (snagel)
  • Target gerhana ant Nutch-1882 untuk menambah jalur output ke src / test (snagel)
  • Nutch-1827 Pelabuhan Nutch-1467 dan Nutch-1561 ke 2.x (snagel)
  • Nutch-1876 upgrade ke Crawler Commons 0.5 (jnioche)
  • Target gerhana ant Nutch-1866 tidak harus menghapus runtime (nimafl melalui lewismc)
  • Nutch-1859 Membuat Nutch pelabuhan webapp dikonfigurasi (Nima Falaki melalui lewismc)
  • Bug Nutch-1848 di DashboardPage.html contoh counter (Nima Falaki melalui lewismc)
  • Nutch-841 Buat Aplikasi Web berbasis gawang untuk Nutch (Fjodor Vershinin melalui lewismc)
  • Nutch-1832 Membuat Nutch bekerja tanpa pengindeks (mattmann melalui lewismc)
  • Nutch-1840 menjelaskan fungsi di SolrIndexWriter tidak benar (Kaveh minooie melalui jnioche)
  • Nutch-1837 upgrade ke Tika 1,6 (lewismc)
  • Nutch-1829 Generator: tidak dapat membedakan kesalahan nyata (Mathieu Bouchard melalui jnioche)
  • Nutch-1828 bin / merangkak: penanganan yang salah dari kesalahan nutch (Mathieu Bouchard melalui jnioche)
  • Nutch-1693 TextMD5Signature dihitung pada konten tekstual (Tien Nguyen Manh, markus melalui snagel)
  • Nutch-1409 menghapus usang sifat db. {default, max} .fetch.interval, generate.max.per.host.by.ip (Matthias Agethle melalui snagel)
  • Nutch-1819 batchId di GeneratorJob (Fjodor Vershinin melalui lewismc)
  • Nutch-1708 menggunakan id yang sama ketika indeks dan menghapus pengalihan (snagel)
  • Nutch-1817 Hapus pom.xml dari sumber (jnioche)
  • Nutch-1811 bin / junit nutch menggunakan JUnit 4 runner tes (snagel)
  • Nutch-1776 jalur Log berkas plugin.folder salah (Diaa melalui snagel)
  • Nutch-1566 bin / nutch untuk memungkinkan spasi di jalan (tejasp, snagel)
  • Nutch-1605 tipe MIME detektor mengakui xlsx sebagai file zip (snagel)
  • Nutch-385 Meningkatkan deskripsi konfigurasi benang terkait untuk Fetcher (jnioche, Lufeng)
  • Nutch-1798 naskah Crawl tidak memanggil perintah indeks dengan benar (Aaron Bedward melalui jnioche)
  • Nutch-1769 SISA refactoring API (Fjodor Vershinin melalui lewismc)
  • Nutch-1633 slf4j disediakan oleh Hadoop dan tidak boleh disertakan dalam file pekerjaan (Kaveh minooie melalui jnioche)
  • Nutch-1787 update dan lengkap halaman API doc gambaran (snagel)
  • Nutch-1767 menghapus perlakuan khusus dari & quot; params & quot; di link relatif (snagel)
  • Nutch-1718 mendefinisikan http.robots.agent sebagai & quot; nama agen tambahan & quot; (snagel, Tejas Patil, Daniel Kugel)
  • Nutch-1796 Pastikan Gora objek pembangun digunakan sebagai menentang untuk konstruktor kosong (snagel melalui lewismc)
  • Nutch-1590 [SECURITY] Bingkai kerentanan injeksi di diterbitkan Javadoc (jnioche)
  • Nutch-1736 Tidak dapat mengambil halaman jika respon header http mengandung Transfer-Encoding: chunked (YSC via jnioche)
  • Nutch-1782 NodeWalker untuk kembali node saat (markus)
  • Nutch-1781 Perbarui gora - * - mapping.xml dan gora.proeprties untuk mencerminkan Gora 0.4 (lewismc)
  • Nutch-1768 upgrade ke ElasticSearch 1.1.0 (jnioche)
  • -stats readdb Nutch-1634 menunjukkan hasil dua kali (Kaveh minooie melalui jnioche)
  • Nutch-1780 TTL dan gc_grace_seconds atribut yang hilang dari file gora-cassandra-mapping.xml (Kaveh minooie melalui lewismc)
  • Nutch-1676 Tambahkan dukungan SSL dasar untuk protokol-http (jnioche, markus)
  • Nutch-1674 Gunakan batchId penyaring untuk mengaktifkan scan (GORA-119) untuk Fetch, Parse, Update, Indeks (Tien Nguyen Manh dan Alparslan Avci melalui jnioche)
  • Nutch-1714 upgrade ke Gora 0.4 (Alparslan Avci melalui jnioche)
  • Nutch-1752 aturan Cache robots.txt per protokol: host: port (snagel)
  • Nutch-1613 Timeout dalam protokol-httpclient ketika merangkak host yang sama dengan & gt; 2 benang (brian44 melalui jnioche)
  • fetcher Nutch-1182 untuk login benang hung (snagel)
  • Nutch-1618 Aktifkan eksekusi spekulatif off untuk Mengambil (talat)
  • Nutch-1657 ORIGINAL_CHAR_ENCODING dan CHAR_ENCODING_FOR_CONVERSION pernah diatur dalam HTMLParser (talat)
  • peredam Nutch-1725 CleaningJob ini tidak melakukan dihapus docs. (ilhamikalkan melalui talat)
  • Nutch-1728 Plugin pengindeks-solr tidak menghapus docs dari Solr (ilhamikalkan melalui talat)
  • Nutch-1753 Eclipse masalah dependecy untuk 2.x (talat)
  • Nutch-1720 jalur Duplikat di HttpBase.java (Walter Tietze melalui jnioche)
  • Nutch-797 URL tidak benar dibangun ketika link target dimulai dengan & quot;? & quot; (Doug Cook, Robert Hohman, Stondet, ab melalui snagel)
  • Nutch-1759 upgrade ke Crawler Commons 0.4 (jnioche)
  • Nutch-1700 Hapus kode usang dalam src / plugin / Creativecommons / build.xml (lewismc)
  • Nutch-1761 naskah Crawl gagal untuk mencari file pekerjaan jika tidak dimulai dari dalam bin dir (David Hosking, jnioche)
  • Nutch-1603 ZIP parser mengeluh file PDF tentang terpotong (snagel melalui lewismc)
  • Nutch-1743 parsechecker menunjukkan outlinks (snagel)
  • Nutch-1732 baris cmd baik parsing untuk NutchServer (Fjodor Vershinin melalui lewismc)
  • Nutch-1751 jangkar Kosong seharusnya tidak indeks (Sertac Turkel melalui lewismc)
  • Nutch-1733 parse-html untuk mendukung HTML5 definisi charset (snagel)
  • Nutch-1727 panjang Dikonfigurasi untuk TLDs (Sertac Turkel melalui lewismc)
  • Nutch-1738 Paparan jumlah URL yang dihasilkan per batch di GeneratorJob (Talat UYARER melalui ewismc)
  • indexchecker Nutch-1671 untuk menambah lapangan (snagel, Lufeng) mencerna
  • Nutch-1645 Junit Kasus Uji untuk Adaptive Fetch kelas Jadwal (Yasin Kilinc, Lufeng, Sertac URKEL melalui snagel)
  • Nutch-1478 Parse-metatag dan Plugin indeks-metadata untuk Nutch seri 2.x (kiran, Nguyen Tien anh, Talat UYARER, Vangelis Karvounis melalui lewismc)
  • Nutch-1729 upgrade ke Tika 1,5 (jnioche)
  • Nutch-1721 Upgrade ke crawler umum 0,3 (tejasp)
  • Nutch-1719 DomainStatistics gagal dalam 2.x karena URL tidak unreversed (Gerhard Gossen melalui lewismc)
  • Nutch-1253 tidak kompatibel neko dan xerces versi (snagel, lewismc, Talat UYARER)
  • Nutch-1715 RobotRulesParser menambahkan tambahan '*' untuk nama robot (tejasp)
  • Nutch-356 Plugin repositori Cache dapat menyebabkan kebocoran memori (Enrico Triolo, Dogacan Guney melalui markus)
  • Nutch-1164 tes Write JUnit untuk protokol-http (Sertac Turkel melalui tejasp)
  • Nutch-1710 Tambah gora paket logging ke log4j.properties (lewismc)
  • Nutch 1655-Indexer Plugin untuk elastis Cari (Talat UYARER melalui lewismc)
  • Nutch-1699 Tika Parser - Gambar Parse Bug (Mehmet Zahid Yuzuguldu, snagel melalui lewismc)
  • Nutch-1568 pelabuhan arsitektur pengindeksan pluggable untuk 2.x (Talat UYARER melalui lewismc)
  • inlinks Nutch-1672 ditambahkan dua kali dalam DbUpdateReducer (Tien Nguyen Manh melalui lewismc)
  • Nutch-1667 updatedb selalu mengabaikan batchId (Tien Nguyen Manh melalui lewismc)
  • Nutch-1695 NutchDocument.toString () (markus melalui lewismc)
  • Nutch-1696 Aktifkan penggunaan (Gora) dependensi SNAPSHOT (lewismc)
  • Nutch-1681 Dalam URLUtil.java, metode toUNICODE tidak bekerja dengan benar (A

Komentar untuk Apache Nutch

Komentar tidak ditemukan
Tambahkan komentar
Aktifkan gambar!