mrjob

Software screenshot:
mrjob
Rincian Software:
Versi: 0.4
Tanggal Upload: 20 Feb 15
Pengembang: David Marin
Lisensi: Gratis
Popularitas: 66

Rating: 2.0/5 (Total Votes: 2)

mrjob adalah modul Python yang membantu Anda menulis dan menjalankan pekerjaan Hadoop Streaming.
mrjob sepenuhnya mendukung layanan Amazon Elastic MapReduce (ESDM), yang memungkinkan Anda untuk membeli waktu di cluster Hadoop per jam. Ia juga bekerja dengan kluster Hadoop Anda sendiri.
Instalasi:
python setup.py install
Menyiapkan ESDM di Amazon
& Nbsp; * membuat Amazon Web Services akun: http://aws.amazon.com/
& Nbsp; * mendaftar elastis MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Dapatkan akses dan kunci rahasia (pergi ke http://aws.amazon.com/account/ dan klik pada "Kredensial Security") dan mengatur variabel lingkungan $ AWS_ACCESS_KEY_ID dan $ AWS_SECRET_ACCESS_KEY sesuai

Mencobanya!

# Lokal
python mrjob / contoh / mr_word_freq_count.py README.md> jumlah
# Di ESDM
python mrjob / contoh / mr_word_freq_count.py README.md r EMR> jumlah
# Di cluster Hadoop Anda
python mrjob / contoh / mr_word_freq_count.py README.md r Hadoop> jumlah
Konfigurasi Lanjutan
Untuk menjalankan di daerah lain AWS, meng-upload pohon sumber Anda, jalankan make, dan menggunakan fitur-fitur canggih lainnya mrjob, Anda harus menyiapkan mrjob.conf. mrjob mencari berkas conf di:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf mana saja di $ PYTHONPATH Anda
& Nbsp; * /etc/mrjob.conf
Lihat mrjob.conf.example untuk informasi lebih lanjut

Fitur :.

  • pekerjaan Jalankan pada ESDM, kluster Hadoop Anda sendiri, atau lokal (untuk pengujian).
  • Menulis pekerjaan multi-langkah (satu peta-mengurangi langkah feed ke depan)
  • Gandakan lingkungan produksi Anda di dalam Hadoop
  • Upload pohon sumber Anda dan memasukkannya ke dalam pekerjaan Anda $ PYTHONPATH
  • Jalankan make dan setup lainnya script
  • variabel lingkungan (misalnya $ TZ)
  • Mudah menginstal paket python dari tarball (ESDM saja)
  • Pengaturan ditangani secara transparan oleh berkas mrjob.conf config
  • otomatis menafsirkan error log dari ESDM
  • SSH terowongan tracker pekerjaan Hadoop pada EMR
  • Setup Minimal
  • Untuk berjalan di ESDM, mengatur $ AWS_ACCESS_KEY_ID dan $ AWS_SECRET_ACCESS_KEY
  • Untuk menjalankan cluster Hadoop Anda, mengatur $ HADOOP_HOME

Persyaratan :

  • Python

Software yang serupa

PepperMill
PepperMill

14 Apr 15

Son of Grid Engine
Son of Grid Engine

19 Feb 15

BalanceNG
BalanceNG

22 Jun 18

Perangkat lunak lain dari pengembang David Marin

doloop
doloop

11 May 15

Komentar untuk mrjob

Komentar tidak ditemukan
Tambahkan komentar
Aktifkan gambar!