Apache Spark

Software screenshot:
Apache Spark
Rincian Software:
Versi: 1.6.0 Diperbarui
Tanggal Upload: 6 Mar 16
Lisensi: Gratis
Popularitas: 70

Rating: nan/5 (Total Votes: 0)

Apache Spark dirancang untuk meningkatkan kecepatan pemrosesan untuk analisis data dan manipulasi program.

Ini ditulis di Jawa dan Scala dan menyediakan fitur yang tidak ditemukan dalam sistem lain, terutama karena mereka tidak mainstream atau yang berguna untuk aplikasi pengolahan non-data.

Spark pertama kali dibuat di UC Berkeley AMP Lab dan kemudian disumbangkan ke Apache Software Foundation

Apa yang baru dalam rilis ini:.

  • Bersatu Manajemen memory -. memori bersama untuk eksekusi dan caching bukan divisi eksklusif dari daerah
  • Parket Kinerja - Meningkatkan Parket kinerja pemindaian ketika menggunakan skema datar
  • .
  • Peningkatan permintaan perencana untuk query memiliki agregasi yang berbeda -. Rencana Query agregasi yang berbeda yang lebih kuat ketika kolom yang berbeda memiliki kardinalitas tinggi
  • Adaptive eksekusi query -. Dukungan awal untuk secara otomatis memilih jumlah pengecil untuk bergabung dan agregasi
  • Menghindari filter ganda di Sumber Data API -. Ketika menerapkan sumber data dengan filter pushdown, pengembang sekarang dapat memberitahu Spark SQL untuk menghindari double mengevaluasi filter mendorong-down
  • Cepat nol-aman bergabung - Bergabung dengan menggunakan null-aman kesetaraan (& # x3c; = & # x3e;) sekarang akan mengeksekusi menggunakan SortMergeJoin bukannya komputasi produk cartisian
  • .
  • dalam memori Kinerja Columnar Cache - Signifikan (hingga 14x) mempercepat ketika caching data yang berisi jenis kompleks di DataFrames atau SQL
  • .
  • SQL Eksekusi Menggunakan Off-Heap Memory - Dukungan untuk mengkonfigurasi eksekusi query terjadi menggunakan memori off-tumpukan untuk menghindari GC biaya overhead

Apa yang baru di versi 1.5.2:

  • Inti API sekarang mendukung pohon agregasi multi-level untuk membantu mempercepat mahal mengurangi operasi.
  • Peningkatan pelaporan kesalahan telah ditambahkan untuk operasi Gotcha tertentu.
  • Spark ini Jetty ketergantungan sekarang berbayang untuk membantu menghindari konflik dengan program pengguna.
  • Spark sekarang mendukung enkripsi SSL untuk beberapa titik akhir komunikasi.
  • metrik Realtime GC dan merekam jumlah telah ditambahkan ke UI.

Apa yang baru di versi 1.4.0:

  • Inti API sekarang mendukung pohon agregasi multi-level untuk membantu mempercepat mahal mengurangi operasi.
  • Peningkatan pelaporan kesalahan telah ditambahkan untuk operasi Gotcha tertentu.
  • Spark ini Jetty ketergantungan sekarang berbayang untuk membantu menghindari konflik dengan program pengguna.
  • Spark sekarang mendukung enkripsi SSL untuk beberapa titik akhir komunikasi.
  • metrik Realtime GC dan merekam jumlah telah ditambahkan ke UI.

Apa yang baru di versi 1.2.0:

  • operator semacam PySpark sekarang mendukung pertumpahan eksternal untuk dataset yang besar .
  • PySpark sekarang mendukung variabel siaran yang lebih besar dari 2GB dan melakukan pertumpahan eksternal selama macam.
  • Spark menambahkan halaman pekerjaan tingkat kemajuan dalam UI Spark, API stabil untuk pelaporan kemajuan, dan memperbarui dinamis metrik output sebagai pekerjaan selesai.
  • Spark sekarang memiliki dukungan untuk membaca file biner untuk gambar dan format biner lainnya.

Apa yang baru di versi 1.0.0:

  • Rilis ini memperluas perpustakaan standar Spark ini, memperkenalkan baru paket SQL (Spark SQL) yang memungkinkan pengguna mengintegrasikan SQL query ke dalam alur kerja Spark yang ada.
  • MLlib, perpustakaan pembelajaran mesin Spark ini, diperluas dengan dukungan vektor jarang dan beberapa algoritma baru.

Apa yang baru di versi 0.9.1:

  • Fixed hash tabrakan bug di pertumpahan eksternal
  • Tetap konflik dengan log4j Spark untuk pengguna mengandalkan backends logging lainnya
  • Tetap Graphx hilang dari jar Spark perakitan di maven membangun
  • Tetap kegagalan diam karena memetakan Status keluaran melebihi ukuran frame Akka
  • tidak perlu ketergantungan langsung Dihapus Spark pada ASM
  • Dihapus metrik-ganglia dari default membangun karena konflik lisensi LGPL
  • Fixed bug di tarball distribusi tidak mengandung percikan perakitan jar

Apa yang baru di versi 0.8.0:

  • Pengembangan telah pindah ke Apache Sowftware Yayasan sebagai proyek inkubator.

Apa yang baru di versi 0.7.3:

  • Python kinerja: Mekanisme Spark untuk pemijahan Python VMS memiliki telah diperbaiki untuk melakukannya lebih cepat ketika JVM memiliki ukuran tumpukan besar, mempercepat Python API.
  • Mesos perbaikan: guci ditambahkan ke pekerjaan Anda sekarang akan di classpath ketika deserializing hasil tugas di Mesos
  • .
  • Kesalahan pelaporan:. Pelaporan kesalahan yang lebih baik untuk pengecualian non-serializable dan hasil tugas terlalu besar
  • Contoh:. Ditambahkan contoh pengolahan aliran stateful dengan updateStateByKey
  • Build:. Spark Streaming tidak lagi tergantung pada repo Twitter4J, yang seharusnya memungkinkan untuk membangun di Cina
  • Perbaikan bug di foldByKey, streaming count, statistik metode, dokumentasi, dan web UI.

Apa yang baru di versi 0.7.2:.

  • versi Scala diperbarui untuk 2.9.3
  • Beberapa perbaikan Bagel, termasuk perbaikan kinerja dan tingkat penyimpanan dikonfigurasi.
  • metode API New:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition, dan lain-lain
  • Sebuah metrik baru melaporkan antarmuka, SparkListener, untuk mengumpulkan informasi tentang setiap tahap perhitungan. Panjang tugas, byte dikocok, dll
  • Beberapa contoh baru menggunakan API Java, termasuk K-sarana dan komputasi pi.

Apa yang baru di versi 0.7.0:

  • Spark 0.7 menambahkan API Python disebut PySpark <. / li>
  • pekerjaan Spark sekarang meluncurkan dashboard web untuk memantau penggunaan memori masing-masing dataset didistribusikan (RDD) dalam program.
  • Spark sekarang dapat dibangun menggunakan Maven selain SBT.

Apa yang baru di versi 0.6.1:

  • Tetap pesan terlalu agresif timeout yang dapat menyebabkan pekerja untuk lepaskan dari cluster.
  • Fixed bug dalam modus menyebarkan mandiri yang tidak mengekspos nama host ke scheduler, mempengaruhi HDFS wilayah.
  • Peningkatan penggunaan kembali koneksi di shuffle, yang dapat sangat mempercepat mengocok kecil.
  • Tetap beberapa kebuntuan potensial di manajer blok.
  • Fixed bug mendapatkan ID dari host gagal dari Mesos.
  • Beberapa perbaikan naskah EC2, seperti penanganan yang lebih baik dari contoh spot.
  • Membuat alamat IP lokal yang Spark mengikat disesuaikan.
  • Dukungan untuk Hadoop 2 distribusi.
  • Dukungan untuk mencari Scala pada distribusi Debian.

Apa yang baru di versi 0.6.0:.

  • Sederhana penyebaran
  • dokumentasi Spark telah diperluas dengan panduan baru mulai cepat, petunjuk penyebaran tambahan, panduan konfigurasi, panduan tuning, dan peningkatan dokumentasi Scaladoc API.
  • Seorang manajer komunikasi baru menggunakan asynchronous Java NIO memungkinkan operasi mengocok berjalan lebih cepat, terutama ketika mengirim data dalam jumlah besar atau ketika pekerjaan memiliki banyak tugas.
  • Seorang manajer penyimpanan baru mendukung per-dataset pengaturan tingkat penyimpanan (misalnya apakah untuk menjaga dataset dalam memori, deserialized, pada disk, dll, atau bahkan direplikasi di node).
  • Peningkatan debugging.

Perangkat lunak lain dari pengembang Apache Software Foundation

Komentar untuk Apache Spark

Komentar tidak ditemukan
Tambahkan komentar
Aktifkan gambar!