mrjob adalah modul Python yang membantu Anda menulis dan menjalankan pekerjaan Hadoop Streaming.
mrjob sepenuhnya mendukung layanan Amazon Elastic MapReduce (ESDM), yang memungkinkan Anda untuk membeli waktu di cluster Hadoop per jam. Ia juga bekerja dengan kluster Hadoop Anda sendiri.
Instalasi:
python setup.py install
Menyiapkan ESDM di Amazon
& Nbsp; * membuat Amazon Web Services akun: http://aws.amazon.com/
& Nbsp; * mendaftar elastis MapReduce: http://aws.amazon.com/elasticmapreduce/
& Nbsp; * Dapatkan akses dan kunci rahasia (pergi ke http://aws.amazon.com/account/ dan klik pada "Kredensial Security") dan mengatur variabel lingkungan $ AWS_ACCESS_KEY_ID dan $ AWS_SECRET_ACCESS_KEY sesuai
Mencobanya!
# Lokal
python mrjob / contoh / mr_word_freq_count.py README.md> jumlah
# Di ESDM
python mrjob / contoh / mr_word_freq_count.py README.md r EMR> jumlah
# Di cluster Hadoop Anda
python mrjob / contoh / mr_word_freq_count.py README.md r Hadoop> jumlah
Konfigurasi Lanjutan
Untuk menjalankan di daerah lain AWS, meng-upload pohon sumber Anda, jalankan make, dan menggunakan fitur-fitur canggih lainnya mrjob, Anda harus menyiapkan mrjob.conf. mrjob mencari berkas conf di:
& Nbsp; * ~ / .mrjob
& Nbsp; * mrjob.conf mana saja di $ PYTHONPATH Anda
& Nbsp; * /etc/mrjob.conf
Lihat mrjob.conf.example untuk informasi lebih lanjut
Fitur :.
- pekerjaan Jalankan pada ESDM, kluster Hadoop Anda sendiri, atau lokal (untuk pengujian).
- Menulis pekerjaan multi-langkah (satu peta-mengurangi langkah feed ke depan)
- Gandakan lingkungan produksi Anda di dalam Hadoop
- Upload pohon sumber Anda dan memasukkannya ke dalam pekerjaan Anda $ PYTHONPATH
- Jalankan make dan setup lainnya script
- variabel lingkungan (misalnya $ TZ)
- Mudah menginstal paket python dari tarball (ESDM saja)
- Pengaturan ditangani secara transparan oleh berkas mrjob.conf config
- otomatis menafsirkan error log dari ESDM
- SSH terowongan tracker pekerjaan Hadoop pada EMR
- Setup Minimal
- Untuk berjalan di ESDM, mengatur $ AWS_ACCESS_KEY_ID dan $ AWS_SECRET_ACCESS_KEY
- Untuk menjalankan cluster Hadoop Anda, mengatur $ HADOOP_HOME
Persyaratan :
- Python
Komentar tidak ditemukan