Scrape the Web with Node.js + Finding Undocumented APIs and Reversing Engineering Data Formats
Laman web seperti papan kerja menghadapi masalah yang berterusan: data mereka sentiasa dicuri oleh bot automatik.
Data berakhir pada papan pekerjaan yang bersaing, yang telah mencuri kandungan. Ini masalah yang melanda mana-mana laman web yang harta intelektualnya mesti diumumkan secara terbuka secara percuma atau bahkan dengan model langganan.
Tetapi sebuah syarikat keselamatan yang berpangkalan di Atlanta yang mengkhususkan diri dalam mengesan bot telah membangunkan perisian yang dapat mengesan skrin-scraping
[Bacaan lanjut: Bagaimana untuk membuang malware dari PC Windows anda]Produk utama Pramana, HumanPresent, mengesan bot automatik yang, misalnya, masukkan spam ke dalam bentuk berasaskan Web atau mendaftar secara percuma akaun e-mel yang digunakan untuk spam.
Pramana kini telah membangunkan modul yang disebut "pencegahan data dan pencegahan skrin scraping" untuk HumanPresent. Ia berfungsi pada banyak prinsip yang sama seperti produk utamanya tetapi telah diubah suai untuk senario pengambilan data, kata David Crowder, CEO Pramana.
HumanPresent dapat mengesan bot dengan memperhatikan perbezaan dalam cara seseorang biasanya akan berinteraksi dengan Web halaman dan membezakannya dengan bagaimana bot berkelakuan. Ia melihat lebih daripada 30 metrik, seperti pukulan papan kekunci, klik tetikus dan masa tindakan tersebut.
HumanPresent melihat transaksi tunggal, tetapi modul penambangan data telah diubah suai untuk melihat tempoh masa sama ada bot atau manusia ada di laman web itu, kata Crowder.
Bot penambangan data cenderung sepenuhnya memintas antara muka pengguna pelayar. Sebagai contoh, bot boleh meminta halaman web dengan banyak dan banyak data, tetapi tidak pernah menatal atau mengklik pada halaman. Jika satu siri halaman dibuka dan dilihat dengan cara itu, ia mungkin bermaksud bot penambang data telah tiba.
Pramana memberikan ID unik kepada pengunjung, dan setelah menganalisis tingkah laku pengunjung, dapat membuat keputusan apakah label pelawat bot atau tidak. Terdapat beberapa cara yang berbeza bagaimana pengendali laman web kemudian boleh memilih untuk menangani situasi tersebut.
Alamat IP (Internet Protocol) komputer bot boleh dihalang secara kekal. Satu laman web lelongan kereta yang sedang menguji modul perlombongan data Pramana memutuskan untuk memindahkan bot yang disyaki ke dalam "kotak pasir" di mana ia disampaikan sepenuhnya data palsu.
"Mereka memang perlombongan data - ia hanya salah," kata Crowder.
Pilihan lain termasuk mendorong pengunjung laman web dengan cabaran atau tugas, yang mana beberapa bot tidak dapat menyelesaikan.
Data perlombongan menanggung kos syarikat. Syarikat-syarikat yang menjual data premium akan mendapati pesaing mereka akan membeli langganan dan kemudian menggunakan bot automatik untuk mencuri data untuk laman web mereka sendiri. Dalam satu contoh, laman web yang mempunyai data gigabyte mengenai harga kereta terpakai mendapati data mereka telah dikikis dan dijual di eBay.
"Mereka sebenarnya bersaing dengan kandungan mereka sendiri," kata Crowder.
Beberapa Laman web mempunyai reka bentuk yang kurang baik yang membuat data mengikis lebih mudah. Laman web yang digunakan mempunyai URL (Uniform Resource Locator) boleh dimodifikasi secara berurutan untuk mendedahkan lebih banyak data, kata Crowder.
Modul perlombongan data akan dibungkus ke dalam produk HumanPresent sekarang, tetapi awal tahun depan Pramana merencanakan untuk menjualnya secara berasingan, kata Crowder. Pramana menawarkan ManPresent sama ada sebagai perkakas di premis atau sebagai konfigurasi perisian-sebagai-perkhidmatan.
Bagi perisian SaaS (perisian sebagai perkhidmatan), teknologi Pramana diintegrasikan ke dalam aplikasi Web dan maklumat sesi dihantar kembali kepada Pramana untuk analisis. Crowder berkata Pramana telah dapat mengurangkan masa latensi dengan ketara dalam versi terkini. Untuk pelanggan yang memerlukan lebih banyak kelajuan, perkakas tersedia.
Tapak Web Tapak Top China Sertai Perjuangan Olimpik Olimpik
10 Laman web utama China telah bersetuju untuk tidak merakam klip video permainan Olimpik
Tapak-Tapak Web Bekerja di Rumah Menyelesaikan Caj FTC
Dua saudara telah menetap caj AS FTC yang mereka beroperasi di Web kerja palsu di rumah
Syarikat itu telah mengemaskini kedua-dua Discovery Information Oracle Oracle dan Oracle Business Intelligence Foundation Suite, melepaskan versi baru s perisian bersempena dengan Collaborate, persidangan bebas untuk pengguna perisian Oracle minggu ini di Denver. Setiap pakej perisian dilengkapi dengan cara baru untuk mengingini sumber data tambahan untuk analisis.
Oracle Endeca Information Discovery yang baru dikeluarkan 3.0 adalah pembaharuan produk utama pertama untuk perisian sejak Oracle memperoleh Endeca pada Oktober 2011, kata Rodwick. Perisian Endeca membolehkan pengguna menganalisis data tidak terstruktur, atau data yang belum ditangkap dalam pangkalan data atau gudang data.