DataCleaner merupakan open source dan solusi benar-benar gratis untuk organisasi dan bisnis yang ingin meningkatkan dan mengukur kualitas data mereka.
Dengan DataCleaner, pengguna akan dapat profile, membandingkan, memvalidasi data terhadap aturan bisnis, dan memantau perkembangan pengukuran ini dari waktu ke waktu.
Di antara fitur-fiturnya, kita bisa menyebut pemantauan data, data yang profiling dan analisis DQ, pembersihan data dan pengayaan, mendeteksi dan menggabungkan duplikat, kualitas data pelanggan, serta ETLightweight super cepat (Extract-Transform-Load).
Untuk mempelajari lebih lanjut tentang fungsi dan kemampuan DataCleaner ini, serta bagaimana bekerja dengan itu, silakan lihat http://eobjects.dk/docs
What baru di rilis ini:
- Perbaikan dan fitur baru:
- Kami telah memungkinkan untuk membuat dan drop tabel melalui UI desktop DataCleaner. Perhatikan bahwa istilah & quot; table & quot; sini benar-benar mencakup lebih dari tabel database hanya relasional. Hal ini juga termasuk Lembar di datastores MS Excel, Koleksi di MongoDB, jenis Dokumen di CouchDB dan ElasticSearch dan seterusnya ... Pada dasarnya semua jenis datastore yang mendukung write-operasi, kecuali datastores tabel tunggal seperti datastores CSV, mendukung fungsi ini! fungsi terkena melalui:
- & quot; Buat tabel & quot; diaktifkan melalui menu klik kanan skema di pohon di sisi kiri dari aplikasi.
- & quot; Buat tabel & quot; diaktifkan juga melalui input table-pilihan dalam komponen seperti Insert ke dalam tabel, Tabel lookup dan meja Update.
- & quot; Jatuhkan meja & quot; diaktifkan melalui menu klik kanan tabel di pohon di sisi kiri dari aplikasi.
- Kami telah menambahkan (opsional) kemampuan menentukan Anda layanan web Salesforce.com Endpoint URL. Hal ini memungkinkan Anda untuk menggunakan DataCleaner untuk terhubung ke lingkungan sandbox dari Salesforce.com juga untuk endpoint kustom Anda sendiri.
- Dukungan ElasticSearch telah ditingkatkan, memungkinkan pemetaan kustom serta menggunakan kembali definisi datastore ElasticSearch sekarang juga untuk mencari dan pengindeksan.
- Pengambilan sampel catatan dan seleksi duplikat potensial dalam fungsi deteksi Duplikat telah ditingkatkan, yang mengarah ke konfigurasi lebih cepat karena keputusan yang dibuat selama sesi pelatihan yang lebih representatif.
- Deteksi Gandakan Format file model telah diperbarui yang telah menghilangkan kebutuhan untuk terpisah berkas 'referensi' untuk menghemat keputusan pelatihan masa lalu. Kompatibilitas dengan format lama telah dipertahankan, tetapi menggunakan format baru menambahkan banyak manfaat untuk pengalaman pengguna.
- Perbaikan bug:
- Masalah benang kelaparan itu tetap di DataCleaner memantau. Dampak dari masalah ini adalah besar, tapi itu terjadi hanya dalam kasus yang jarang dan sangat disesuaikan. Jika pendengar kustom objek pada monitor DataCleaner akan melempar kesalahan, itu akan menghasilkan sumber daya tidak pernah dibebaskan dan mengambil benang dari Quartz-penjadwalan kolam renang di server. Jika ini akan terjadi banyak kali server akhirnya bisa kehabisan benang di kolam renang itu.
- Menu vertikal pada layar hasil sekarang melakukan pekerjaan yang layak menampilkan label dari komponen yang memiliki hasil. Hal ini membuat lebih mudah untuk mengenali mana item menu poin apa item hasil.
Apa yang baru di versi 3.5.5:
- The 'Sinonim lookup' transformasi sekarang memiliki sebuah pilihan untuk mencari setiap tanda input. Hal ini berguna jika Anda melakukan penggantian sinonim dalam nilai-nilai dari kolom teks panjang.
- Memblokir pelaksanaan pekerjaan DataCleaner melalui layanan web monitor untuk ini kadang-kadang bisa gagal dengan bug yang disebabkan oleh thread pemblokiran. Masalah ini telah diperbaiki.
- Perbaikan dibuat dalam pekerjaan jalan dan urutan komponen ditutup / dibersihkan setelah eksekusi.
- The JNLP / Java WebStart versi DataCleaner terkena oleh bug di Java runtime menyebabkan file JAR tertentu tidak dapat dikenali oleh peluncur WebStart, dalam keadaan tertentu. Masalah ini telah diperbaiki dengan membuat sedikit modifikasi ke file-file JAR.
- Beberapa link mati dalam dokumentasi itu tetap.
Apa yang baru di versi 3.5.4:
- Sekarang mungkin untuk menyembunyikan kolom output transformasi . Bersembunyi tidak akan mempengaruhi aliran pengolahan sama sekali, tetapi hanya menyembunyikan mereka dari antarmuka pengguna, dan dengan demikian berpotensi membuat pengalaman lebih bersih, saat berinteraksi dengan komponen lainnya.
- Sebuah layanan web baru telah ditambahkan ke aplikasi monitoring web, yang menyediakan cara untuk polling status pelaksanaan pekerjaan tertentu.
- Sebuah bug telah diperbaiki, menyebabkan laporan HTML gagal untuk jenis analisis tertentu ketika ada catatan telah diproses.
- Dan 6 bug minor lainnya telah adressed.
Apa yang baru di versi 3.5.1:
- Ambil mengubah data:
- Sebuah filter baru telah ditambahkan untuk memungkinkan pengolahan tambahan dari catatan yang belum diproses sebelumnya, misalnya untuk profil atau menyalin hanya diubah catatan. Nama filter baru adalah Tangkap mengubah data, mengacu pada konsep capture Perubahan data.
- eksekusi Antri pekerjaan:
- Monitor DataCleaner sekarang akan antrian pelaksanaan pekerjaan yang sama, jika dipicu beberapa kali. Hal ini memastikan bahwa Anda tidak sengaja menjalankan pekerjaan yang sama secara bersamaan yang dapat menyebabkan segala macam masalah, tergantung pada apa pekerjaan yang dilakukannya.
- perbaikan bug minor:
- Beberapa perbaikan bug dilaksanakan.
Apa yang baru di versi 3.5:
- Beberapa penyihir yang sekarang tersedia untuk mendaftarkan datastores; termasuk berkas-upload ke server untuk file CSV, entri koneksi database, pendaftaran dipandu kredensial Salesforce.com dan banyak lagi.
- Para penyihir bangunan pekerjaan juga telah diperpanjang dengan beberapa fitur yang disempurnakan; Pemilihan distribusi nilai dan pola menemukan bidang dalam wizard analisis Cepat, wizard yang sama sekali baru untuk menciptakan EasyDQ berdasarkan pelanggan pembersihan pekerjaan dan wizard pekerjaan baru untuk menembak pekerjaan Pentaho Data Integration (baca selengkapnya di bawah).
- Anda dapat sekarang ad-hoc permintaan datastore apapun secara langsung di antarmuka web pengguna. Hal ini membuat mudah untuk mendapatkan wawasan cepat atau sporadis ke dalam data tanpa pengaturan pekerjaan atau pendekatan dikelola lain dari pengolahan data.
- Setelah pekerjaan atau datastores diciptakan, pengguna dipandu untuk mengambil tindakan dengan objek baru dibangun. Misalnya, Anda dapat dengan cepat menjalankan pekerjaan tepat setelah itu dibangun, atau query datastore setelah itu terdaftar.
- Administrator sekarang dapat langsung meng-upload pekerjaan ke repositori, yang terutama berguna jika Anda ingin tangan-mengedit konten XML dari file pekerjaan.
- Banyak cruft teknis sekarang tersembunyi dalam mendukung menunjukkan dialog sederhana. Misalnya, ketika pekerjaan dipicu indikator loading besar yang ditampilkan, dan ketika selesai hasilnya akan ditampilkan. Layar logging maju yang sebelumnya ada masih dapat ditampilkan setelah mengklik link untuk rincian tambahan.
Apa yang baru di versi 3.1.2:
- Kami telah menambahkan layanan web dalam pemantauan aplikasi untuk mendapatkan (daftar) nilai metrik. Hal ini membuat pemantauan bahkan lebih bermanfaat sebagai komponen infrastruktur kunci, sebagai cara untuk memantau data (kualitas) dan mengekspos hasil untuk aplikasi pihak ketiga.
- The 'Table lookup' komponen telah ditingkatkan dengan menambahkan bergabung semantik sebagai properti dikonfigurasi. Menggunakan bergabung semantik Anda dapat men-tweak jika Anda ingin lookup bekerja semantis seperti LEFT JOIN atau INNER JOIN.
- Komponen EasyDQ telah ditingkatkan, menambahkan opsi konfigurasi lebih lanjut dan lebih kaya deduplication hasil antarmuka.
- Kinerja perbaikan telah fokus khusus dari rilis ini. Perbaikan telah dibuat dalam mesin DataCleaner untuk lebih menggunakan pendekatan pengolahan streaming pada kasus sudut tertentu yang tidak tercakup sebelumnya.
Apa yang baru di versi 3.1.1:
- Tanggal dan waktu terkait opsi analisis telah diperluas , menambahkan analisis distribusi untuk jumlah minggu, bulan dan tahun. Semua analisa terkait dengan tanggal dan waktu sekarang dikelompokkan dalam submenu disebut & quot; Tanggal dan waktu & quot; di bawah & quot; Analisis & quot;.
- opsional & quot; & quot statistik deskriptif; pilihan telah ditambahkan ke analyzer Nomor dan Tanggal / waktu analyzer. Opsi ini menambahkan metrik tambahan untuk hasil analisa tersebut, seperti Median, Skewness, persentil dan Kurtosis. Metrik ini opsional karena jejak memori mereka agak lebih besar dari metrik yang ada.
- Garis dalam grafik timeline aplikasi web monitoring sekarang memiliki titik-titik kecil di dalamnya. Hal ini sangat berguna untuk grafik dengan beberapa (atau bahkan hanya satu) pengamatan di dalamnya -. Untuk menunjukkan persis di mana titik-titik pengamatan yang
- Permintaan parser saat menjalankan query ad-hoc juga telah secara substansial ditingkatkan. Sekarang pertanyaan dapat berisi klausul DISTINCT, * -wildcards, subqueries dan kesalahan-toleran terhadap isu-isu teks-kasus.
- Dua trafo baru telah ditambahkan untuk menghasilkan UUIDs dan untuk menghasilkan cap waktu.
Apa yang baru di versi 3.1:
- formula Metric - diuraikan Kualitas Data KPI:
- Sekarang mungkin untuk membangun lebih rumit Kualitas Data KPI dalam aplikasi web monitoring DataCleaner ini. User interface memungkinkan Anda untuk membangun formula kompleks dalam gaya rumus spreadsheet seperti; menggunakan variabel yang dikumpulkan oleh pekerjaan DataCleaner.
- formula Metric dapat menggabungkan sejumlah metrik, konstanta dan operasi, asalkan dapat dinyatakan dalam persamaan matematika.
- Misalnya - mengukur tingkat duplikat catatan dalam persentase dari jumlah total catatan. Atau mengukur jumlah kode produk yang sesuai dengan seperangkat beberapa pola tali.
- Ad-hoc query - dari datastore setiap:
- Dengan DataCleaner 3.1 kini Anda dapat melakukan query ad-hoc untuk datastore apapun! Query dapat dinyatakan dalam SQL polos dan akan diterapkan ke database serta file, database NoSQL dan lebih, menyediakan mekanisme permintaan benar-benar membantu untuk memperpanjang ke dalam pengalaman Anda discovery dan data profil.
- Opsi permintaan juga tersedia melalui layanan web untuk memantau pengguna dengan peran ADMIN. query disediakan sebagai parameter HTTP atau badan POST, dan hasilnya diberikan sebagai meja XHTML.
- Nilai matcher - pilihan analisis baru:
- Sering kali Anda memiliki ide yang kuat yang nilainya harus diperbolehkan dan diharapkan untuk bidang tertentu. Dalam DataCleaner ada selalu pilihan analisis Nilai Distribusi yang akan membantu Anda menegaskan asumsi Anda. Dalam DataCleaner 3.1 meskipun, Anda memiliki penawaran yang lebih tepat - Nilai matcher. Opsi analisis ini memungkinkan Anda untuk menentukan satu set nilai-nilai yang diharapkan dan kemudian melakukan distribusi nilai seperti analisis, khusus untuk memvalidasi dan mengidentifikasi nilai-nilai yang tak terduga.
- Menyalin, menghapus dan manajemen pekerjaan:
- Manajemen pekerjaan dan hasil dalam aplikasi memantau DataCleaner telah meningkat pesat. Sekarang Anda dapat mengklik pekerjaan di halaman Penjadwalan monitor, dan menemukan pilihan manajemen yang tersedia untuk operasi seperti nama, menyalin, menghapus dan banyak lagi. Setiap operasi menghormati hubungan dengan artefak lainnya di monitor, seperti hasil analisis, jadwal dan banyak lagi. Ini berarti bahwa pengelolaan repositori monitoring telah menjadi jauh lebih mudah dan matang.
- Kelola riwayat kualitas data:
- Kadang-kadang Anda menghadapi situasi di mana Anda benar-benar ingin melakukan monitoring dengan data historis! Mungkin saja Anda memiliki pembuangan bersejarah atau backup dari database, yang Anda ingin menunjukkan dan menceritakan kisah. Anda sekarang dapat melakukan analisis data historis ini, meng-upload ke monitor DataCleaner, dan menggunakan layanan web baru, mengatur data bersejarah yang hasil analisis tertentu. Ini berarti bahwa garis waktu Anda benar akan plot hasil menggunakan tanggal yang dimaksudkan, tetapi dengan hasil yang sudah Anda kumpulkan mungkin pada titik kemudian dalam waktu.
- Clustered dukungan scheduler (EE saja):
- The scheduler dari DataCleaner Monitor telah externalized, sehingga bisa diganti dengan sarana konfigurasi yang sederhana. Dalam Enterprise Edition (EE) dari DataCleaner, kami menyediakan scheduler berkerumun, menyediakan kemampuan untuk memuat keseimbangan dan mendistribusikan eksekusi Anda di sekelompok mesin.
- Single-signon (SSO) menggunakan CAS (EE saja):
- Dalam Enterprise Edition (EE) dari DataCleaner kami sekarang menyediakan pilihan tunggal-signon untuk aplikasi memantau. Sekarang DataCleaner dapat menjadi bagian yang terintegrasi dari infrastruktur TI Anda, juga keamanan-bijaksana.
- ... Dan banyak lagi:
- di atas adalah hanya ringkasan. Lebih dari tiga puluh masalah telah diselesaikan dalam rilis ini. Kami telah memecahkan beberapa permintaan yang datang dari forum dan komunitas, dan kami mendorong semua orang untuk menggunakan media ini sebagai kendaraan untuk perubahan. Kami sangat senang untuk membuat pengembangan DataCleaner akan sangat dipengaruhi oleh aliran dalam masyarakat.
Apa yang baru di versi 3.0.3:
- Menambahkan layanan untuk mengubah nama pekerjaan dalam repositori pemantauan .
- Anda dapat mengakses ini sebagai layanan Web tenang atau interaktif di UI.
- Sebuah layanan Web telah ditambahkan untuk mengubah tanggal bersejarah hasil analisis dalam repositori pemantauan.
- Aplikasi Web telah dibuat kompatibel dengan wadah warisan JSF.
- Caching konfigurasi dalam aplikasi Web telah sangat meningkat, menyebabkan lebih cepat buka halaman dan inisialisasi pekerjaan kali.
Apa yang baru di versi 3.0.2:
- Ketika memicu pekerjaan di aplikasi web monitoring, panel auto-refresh setiap detik untuk mendapatkan negara terbaru dari eksekusi.
- berbasis Berkas datastores (seperti CSV atau Excel spreadsheet) dengan path absolut sekarang benar diselesaikan dalam aplikasi monitoring web.
- The & quot; Pilih dari key / peta nilai & quot; transformator sekarang mendukung pilih ekspresi bersarang seperti & quot; Address.Street & quot; atau & quot; OrderLines [0] .product.name & quot;.
- Mekanisme tabel telah dioptimalkan untuk kinerja, menggunakan pernyataan siap ketika menjalankan terhadap database JDBC.
- Administrator sekarang dapat men-download datastores berbasis file langsung dari & quot; Datastores & quot; Halaman.
- Exception handling dalam aplikasi monitoring web telah meningkat sedikit, membuat pesan kesalahan yang lebih tepat dan intuitif.
Apa yang baru di versi 3.0.1:
- The bugfix utama dalam rilis ini adalah tentang pemulihan pemetaan kolom dan kategorisasi enumerable tertentu. Misalnya dalam analisa Kelengkapan baru, kami menemukan bahwa setelah reload pekerjaan disimpan, pemetaan itu tidak selalu benar.
- Selanjutnya sebuah perbaikan internal beberapa telah dibuat, sehingga lebih mudah untuk menyebarkan DataCleaner aplikasi web monitor lingkungan menggunakan Spring Framework.
- Last but not least, pengaturan visualisasi dalam aplikasi desktop telah diperbaiki dengan secara otomatis mengambil melihat pekerjaan yang divisualisasikan dan Toggling ditampilkan artefak berdasarkan ukuran layar dan jumlah rincian yang diperlukan untuk menunjukkan itu baik.
Apa yang baru di versi 3.0:
- Tampilan timeline dan tren metrik kualitas data li >
- repositori terpusat untuk mengelola dan mengandung pekerjaan, hasil, jadwal dll.
- Penjadwalan dan audit dari pekerjaan DataCleaner
- Memberikan layanan web untuk menerapkan transformasi DataCleaner
- Keamanan dan multi-tenancy
- Alarm dan pemberitahuan bila metrik kualitas data keluar dari zona kenyamanan yang diharapkan mereka.
- Ada analyzer Kelengkapan baru yang sangat berguna untuk hanya mengidentifikasi catatan yang memiliki medan yang tidak lengkap.
- Anda sekarang dapat mengekspor DataCleaner hasil untuk tampan HTML melaporkan bahwa Anda dapat memberikan kepada manajer Anda, atau kirim ke parser XML Anda!
- Lingkungan monitoring baru juga terintegrasi erat dengan aplikasi desktop. Dengan demikian, aplikasi desktop sekarang memiliki kemampuan untuk mempublikasikan pekerjaan dan hasil ke repositori memantau, dan akan digunakan sebagai editor interaktif untuk konten yang sudah di repositori.
- New transformasi tanggal berorientasi sekarang tersedia: Tanggal berbagai filter, yang memungkinkan Anda untuk subset dataset berdasarkan rentang tanggal, dan format tanggal, yang memungkinkan untuk memformat tanggal menggunakan masker tanggal .
- The Regex Parser (yang sebelumnya hanya tersedia melalui ExtensionSwap yang) kini telah dimasukkan dalam DataCleaner. Hal ini membuatnya sangat mudah untuk mengurai dan standarisasi bidang teks kaya menggunakan ekspresi reguler.
- Ada Teks baru kasus transformator yang tersedia. Dengan transformasi ini Anda dapat dengan mudah mengkonversi antara atas kasus / bawah dan kapitalisasi yang tepat dari kalimat dan kata-kata.
- Dua pencarian baru / mengganti transformasi telah ditambahkan:. Pencari Plain / mengganti dan Regex pencarian / mengganti
- Pengalaman pengguna dari aplikasi desktop telah diperbaiki. Kami telah menambahkan beberapa di-aplikasi pesan bantuan, membuat warna terlihat lebih cerah dan lebih jelas dan meningkatkan penanganan font.
Apa yang baru di versi 2.5.2:
- dukungan Apache CouchDB:
- Kami telah menambahkan dukungan untuk database NoSQL Apache CouchDB. DataCleaner mendukung kedua membaca dari, menganalisis dan menulis untuk contoh CouchDB Anda.
- penulis Perbarui table:
- Setelah upaya kami sebelumnya untuk membawa fitur ETLightweight-gaya dalam DataCleaner, kami telah menambahkan seorang penulis yang update record dalam sebuah tabel. Anda dapat menggunakan ini misalnya untuk memasukkan atau memperbarui catatan berdasarkan kondisi tertentu.
- Seperti Insert ke penulis meja, penulis DataCleaner Perbarui tabel baru tidak terbatas pada database berbasis SQL, tetapi setiap jenis datastore yang mendukung menulis (saat ini database relasional, file CSV, spreadsheet Excel, database MongoDB dan database MongoDB), tapi semantik yang sama dengan pernyataan UPDATE TABLE tradisional di SQL.
- Bor-to-rinci informasi yang tersimpan dalam file hasil:
- Bila menggunakan fitur hasil bintang dari DataCleaner 2,5, beberapa pengguna mengalami bahwa informasi drill-to-detil mereka hilang. Dalam DataCleaner 2.5.2 sekarang kita juga bertahan informasi ini, membuat arsip DQ Anda jauh lebih berharga ketika menyelidiki insiden data historis.
- Peningkatan EasyDQ kesalahan penanganan:
- Komponen EasyDQ telah diperbaiki dalam hal penanganan error. Jika masalah jaringan sesaat terjadi atau masalah lain yang serupa menyebabkan beberapa catatan untuk gagal, komponen EasyDQ sekarang akan anggun pulih dan yang paling penting -. Pekerjaan batch Anda akan menang bahkan terlepas dari kesalahan
- Tabel pemetaan untuk datastores NoSQL:
- Sejak CouchDB dan MongoDB tidak meja berbasis, namun memiliki struktur yang lebih dinamis kami menyediakan dua pendekatan untuk bekerja dengan mereka: default, yang membiarkan DataCleaner autodetect struktur tabel, dan canggih yang memungkinkan Anda untuk menentukan secara manual Anda struktur tabel yang diinginkan. Sebelumnya opsi canggih hanya tersedia melalui konfigurasi XML, tapi sekarang user interface berisi dialog yang tepat untuk melakukan hal ini secara langsung dalam aplikasi.
Apa yang baru di versi 2.4.1:
- perangkat tambahan Fitur:
- Batch memuat fitur kami sangat meningkat saat menulis data ke tabel database. Mengharapkan untuk melihat banyak berbagai perbaikan di sini.
- Menulis data telah lebih nyaman disediakan dengan menambahkan pilihan untuk menu jendela.
- Anda sekarang dapat dengan mudah mengubah nama komponen dari pekerjaan dengan mengklik ganda tab mereka.
- Javascript transformator sekarang memiliki pewarnaan sintaks, sehingga Javascript Anda lebih mudah untuk memeriksa dan memodifikasi.
- Perbaikan bug:
- Ketika membaca dari dan menulis ke datastore yang sama (misalnya. Area stage DataCleaner) kami sudah memastikan bahwa cache tabel datastore yang segar. Sebelumnya beberapa skenario memungkinkan Anda untuk melihat out-of-date pandangan tabel.
- Sebuah kebuntuan potensial ketika memulai aplikasi ini diselesaikan. kebuntuan ini adalah konsekuensi dari masalah dalam JVM, tapi kami bekerja di sekitar itu dengan sinkronisasi semua panggilan ke API tertentu di Jawa.
Apa yang baru di versi 2.4: (. Alias Deduplication atau pencocokan Fuzzy catatan)
- Gandakan deteksi , yang bebas untuk menggunakan hingga 500.000 nilai.
- validasi Alamat data dan pembersihan. Hal ini memungkinkan Anda untuk memeriksa apakah alamat ada, jika mereka benar diformat dan bahkan menyarankan koreksi jika anda memiliki kesalahan.
- validasi Nama data dan pembersihan. Dengan layanan Nama, EasyDQ tidak hanya memformat nama Anda secara konsisten, tetapi juga memeriksa ejaan dan menafsirkan bagian nama.
- Email dan validasi telepon dan pembersihan. Layanan ini menyediakan pengecekan email dan telepon data, memastikan bahwa domain email ada, bahwa kode negara yang benar dan banyak lagi.
Apa yang baru di versi 2.3:
- dukungan data yang Internasional:
- Jika Anda bekerja dengan data internasional, maka Anda mungkin memiliki set karakter yang berbeda dalam data Anda, misalnya Cina atau Ibrani. Kami menambahkan set Karakter analyzer distribusi, yang merupakan pilihan profiling yang memungkinkan Anda mengetahui yang set karakter yang digunakan dalam data Anda.
- Bekerja dengan data yang berisi set karakter yang berbeda dapat menjadi masalah. Menggunakan trafo transliterasi baru Anda dapat sekarang transliterasi string dari sistem penulisan yang berbeda untuk karakter Latin.
- Ada juga demonstrasi webcast baru, berfokus pada kemampuan data internasional DataCleaner 2.3 di bagian dokumentasi.
- Pengelompokan hasil analisis oleh kolom sekunder:
- Pola analyzer sekarang dapat pola kelompok berdasarkan pada kolom sekunder. Hal ini berguna untuk analisis seperti:
- Dapatkan pola nomor telepon, dikelompokkan berdasarkan negara.
- Dapatkan pola nama pengguna email berdasarkan domain email.
- Hal serupa telah dilakukan untuk analyzer Nilai Distribusi; ini memungkinkan untuk analisis seperti:
- Apakah semua nama kota yang berbeda, ketika dikelompokkan berdasarkan kode pos?
- Apa distribusi gender dalam jenis pelanggan tertentu?
- Peningkatan grafik:
- Hasil Pola finder sekarang dapat ditampilkan dalam tabel. Hal ini membuat distribusi terlihat dan menunjukkan berapa banyak dari & quot; ekor panjang & quot; pola yang ada.
- Output dari analisa distribusi nilai telah ditingkatkan dalam beberapa bidang:
- The pembacaan grafik telah diperbaiki.
- Ini menunjukkan jumlah baris dan jumlah yang berbeda atas baris ini: jumlah nilai yang berbeda yang ada di baris. Hal ini membantu dalam mencari tahu seberapa sering nilai-nilai duplikat ada.
- Jika ada string kosong, kita menggunakan kata kunci untuk itu, sehingga lebih mudah untuk mengenali mereka.
- Output:
- Selanjutnya ke format yang sudah ada keluaran (file CSV dan datastores H2) kami menambahkan menulis output ke spreadsheet Excel.
- Setelah menulis untuk datastore, sekarang mungkin melihat pratinjau output, sehingga Anda dapat memeriksa apakah output sesuai dengan harapan Anda.
- Sekarang juga memungkinkan untuk menambahkan output sebagai datastore baru, sehingga dapat digunakan sebagai masukan untuk pekerjaan baru.
- Perbaikan lainnya:
- Dokumentasi umumnya telah meningkat. Secara khusus, logging dan antarmuka baris perintah deskripsi telah ditambahkan.
- Mekanisme perpanjangan telah diperbaiki oleh modularizing beberapa potong aplikasi dan memperkenalkan Google Guice sebagai kerangka injeksi ketergantungan umumnya tersedia untuk pengembang ekstensi.
- Dan tentu saja kami lakukan lebih dari dua puluh perbaikan kecil dan perbaikan bug.
Apa yang baru di versi 2.2:
- Pendorong utama untuk rilis ini telah menjadi cerita tentang diperpanjang . Saat merilis aplikasi kita simultan merilis website DataCleaner baru yang memiliki area baru yang penting: The ExtensionSwap. Ide dari ExtensionSwap adalah untuk memungkinkan berbagi ekstensi untuk DataCleaner dan instalasi hanya dengan mengklik sebuah tombol pada browser!
- The DataCleaner ekstensi API telah meningkat banyak dalam rilis ini, sehingga memungkinkan untuk membuat transformator Anda sendiri, analisa dan filter. Jika Anda merasa ekstensi bisa menarik bagi pengguna lain, silakan berbagi di ExtensionSwap dan kami menyediakan saluran bagi Anda untuk dengan mudah mendistribusikan ke ribuan pengguna. Extension API dan ExtensionSwap lebih lanjut dijelaskan dalam demonstrasi webcast baru untuk pengembang dan teknisi lain yang berkepentingan.
- Kami juga merilis satu set ekstensi awal pada ExtensionSwap: The Kontak HIquality perpanjangan DataCleaner yang menyediakan Nama canggih, Telepon dan Email pembersihan, berdasarkan Manusia Kesimpulan bahasa alami layanan web pengolahan DQ. Kami juga pengiriman ekstensi sampel yang akan dijadikan contoh bagi pengembang yang ingin mencoba pengembangan ekstensi sendiri. Dalam beberapa bulan mendatang kami akan memastikan untuk memasukkan lebih banyak ekstensi yang berasal dari portofolio internal dari alat yang kami gunakan di pengetahuan mengumpulkan tim Human Inference ini.
- Selain diperpanjang kami juga berfokus pada embeddability. Kami ingin dapat menanamkan DataCleaner mudah ke aplikasi lain untuk membuat profil dan analisis data yang mungkin di mana saja! Kami telah membuat API bootstrap baru yang memungkinkan aplikasi untuk bundel DataCleaner dan bootstrap dengan konfigurasi dinamis atau menjalankannya dalam & quot; modus datastore tunggal & quot ;, di mana aplikasi ini disetel ke arah hanya memeriksa datastore tunggal (biasanya didefinisikan oleh aplikasi yang embeds DataCleaner). Kita sudah memiliki beberapa kasus benar-benar menarik embedding DataCleaner dalam karya -. Baik dalam aplikasi open source lainnya serta aplikasi komersial
- Kami telah menambahkan dukungan untuk menganalisis SAS set data. Ini adalah sesuatu yang kami cukup bangga seperti kita, untuk pengetahuan kita, utama aplikasi open source pertama yang menyediakan fungsi tersebut, akhirnya membebaskan banyak pengguna SAS. SAS bagian interoperabilitas diciptakan sebagai proyek terpisah, SassyReader, jadi kami berharap untuk melihat adopsi dalam komunitas gratis open source DataCleaner segera juga!
- Kami juga menambahkan dukungan untuk jenis lain dari datastore: Tetap file lebar. Tetap file lebar adalah file teks dimana setiap kolom memiliki lebar tetap. Tidak ada pemisah atau kutipan karakter, seperti file CSV, bukan setiap baris yang sama panjang dan setiap baris akan tokenized sesuai dengan seperangkat panjang nilai.
- Sebuah opsi untuk & quot; gagal pada inkonsistensi & quot; ditambahkan ke file CSV dan tetap datastores berkas lebar. Bendera ini menambahkan memeriksa integritas Format bila menggunakan datastores berdasarkan file teks tersebut.
- Sebuah bug telah diperbaiki, yang menyebabkan pengaturan CSV pemisah tidak dipertahankan di antarmuka pengguna, saat mengedit datastore CSV.
- Jepang dan lainnya karakter tidak didukung dalam antarmuka pengguna. Ini & quot; bug & quot; adalah soal menyelidiki font yang tersedia pada sistem dan memilih font yang dapat membuat karakter tertentu. Pada kebanyakan sistem modern akan ada font mampu tersedia, tetapi pada beberapa cabang Unix / Linux mungkin masih ada keterbatasan.
- Bagian Dokumentasi telah diperbarui! Sejak rilis awal 2,0 dokumentasi telah jauh di belakang, tapi kami akhirnya berhasil mendapatkan up to date. Masih ada bagian yang hilang dalam dokumen, tetapi harus pasti akan berguna untuk penggunaan dasar serta acuan bagi sebagian besar topik.
- waktu aplikasi startup ditingkatkan dengan parallelizing pemuatan konfigurasi dan dengan menunda inisialisasi bagian-bagian dari konfigurasi yang tidak diperlukan untuk tampilan jendela awal.
- The fonetik kesamaan finder analyzer telah dihapus dari distribusi utama, karena ini adalah cukup eksperimental dan melayani sebagian besar sebagai bukti konsep dan hidangan pembuka kepada masyarakat untuk membuat analisis pencocokan yang lebih maju. Anda sekarang dapat menemukan dan menginstal kesamaan finder fonetik pada ExtensionSwap.
- Dibatalkan atau penanganan pekerjaan errornous ditingkatkan dan user interface merespon lebih tepat dengan menonaktifkan tombol dan indikator kemajuan, jika pekerjaan telah berhenti.
- Tetap beberapa masalah UI kecil yang berkaitan dengan tabel ukuran dan penggunaan scrollbars.
Apa yang baru di versi 2.1.1:
- Fitur tambahan:
- Ditambahkan kolom teks pencarian / penyaringan pada daftar datastores. Hal ini memungkinkan Anda untuk cepat menemukan datastore Anda jika Anda telah terdaftar lebih datastores dari yang tersedia di layar.
- Data Referensi untuk kode negara telah ditambahkan ke distribusi standar, berkat pergi ke Graham Rhind untuk menyediakan ini.
- Ditambahkan horizontal scroll bar untuk data pratinjau jendela ada lebih dari 10 kolom.
- Kemampuan untuk menambahkan sebuah paket ekstensi dengan fungsi baru pada dialog Options pada saat runtime. Lebih fokus pada ekstensi akan mengikuti rilis mendatang.
- Kami sudah terkena preview awal dari Command-Line kami Interface (CLI) dengan memungkinkan Anda untuk memanggil aplikasi dengan & quot; -usage & quot; parameter yang akan menampilkan pilihan CLI.
- Ditambahkan sejumlah pilihan untuk memformat & quot; Convert ke Nomor & quot; transformator.
- Perbaikan bug:
- Memperbaiki masalah out-of-memori ketika query tabel dengan BANYAK kolom (150 +).
- Memperbaiki masalah yang menyebabkan & quot; analisis Limit & quot; kotak centang untuk tidak diperiksa dengan benar ketika pekerjaan itu kembali dibuka setelah disimpan.
- Tidak benar-benar bugfix seperti itu tidak pernah menjadi fitur resmi, tapi sekarang kami mendukung memulihkan preferensi pengguna (file userpreferences.dat) dari versi sebelumnya dari DataCleaner.
Apa yang baru di versi 2.1:
- Ada banyak pekerjaan yang dilakukan pada user interface ( lihat halaman Media):
- Kami memutuskan untuk menghapus jendela sisi kiri berisi pilihan konfigurasi lingkungan.
- Alih-alih semua pilihan ini kini telah pindah ke jendela bangunan pekerjaan sehingga pengguna hanya fokus pada satu jendela untuk semua interaksi yang dibutuhkan untuk membangun pekerjaan.
- Dialog diterima / login juga telah dihapus demi sebuah panel yang lebih diskrit yang dapat ditarik atau disembunyikan dari jendela utama.
- pilihan Datastore dan manajemen dianggap kegiatan pertama dalam aplikasi, yang mengapa itu juga merupakan langkah pertama untuk menangani di jendela utama.
Komentar tidak ditemukan