Laman web

Perisian Baru Mengesan Bots Scraping Data Tapak Web

Scrape the Web with Node.js + Finding Undocumented APIs and Reversing Engineering Data Formats

Scrape the Web with Node.js + Finding Undocumented APIs and Reversing Engineering Data Formats
Anonim

Laman web seperti papan kerja menghadapi masalah yang berterusan: data mereka sentiasa dicuri oleh bot automatik.

Data berakhir pada papan pekerjaan yang bersaing, yang telah mencuri kandungan. Ini masalah yang melanda mana-mana laman web yang harta intelektualnya mesti diumumkan secara terbuka secara percuma atau bahkan dengan model langganan.

Tetapi sebuah syarikat keselamatan yang berpangkalan di Atlanta yang mengkhususkan diri dalam mengesan bot telah membangunkan perisian yang dapat mengesan skrin-scraping

[Bacaan lanjut: Bagaimana untuk membuang malware dari PC Windows anda]

Produk utama Pramana, HumanPresent, mengesan bot automatik yang, misalnya, masukkan spam ke dalam bentuk berasaskan Web atau mendaftar secara percuma akaun e-mel yang digunakan untuk spam.

Pramana kini telah membangunkan modul yang disebut "pencegahan data dan pencegahan skrin scraping" untuk HumanPresent. Ia berfungsi pada banyak prinsip yang sama seperti produk utamanya tetapi telah diubah suai untuk senario pengambilan data, kata David Crowder, CEO Pramana.

HumanPresent dapat mengesan bot dengan memperhatikan perbezaan dalam cara seseorang biasanya akan berinteraksi dengan Web halaman dan membezakannya dengan bagaimana bot berkelakuan. Ia melihat lebih daripada 30 metrik, seperti pukulan papan kekunci, klik tetikus dan masa tindakan tersebut.

HumanPresent melihat transaksi tunggal, tetapi modul penambangan data telah diubah suai untuk melihat tempoh masa sama ada bot atau manusia ada di laman web itu, kata Crowder.

Bot penambangan data cenderung sepenuhnya memintas antara muka pengguna pelayar. Sebagai contoh, bot boleh meminta halaman web dengan banyak dan banyak data, tetapi tidak pernah menatal atau mengklik pada halaman. Jika satu siri halaman dibuka dan dilihat dengan cara itu, ia mungkin bermaksud bot penambang data telah tiba.

Pramana memberikan ID unik kepada pengunjung, dan setelah menganalisis tingkah laku pengunjung, dapat membuat keputusan apakah label pelawat bot atau tidak. Terdapat beberapa cara yang berbeza bagaimana pengendali laman web kemudian boleh memilih untuk menangani situasi tersebut.

Alamat IP (Internet Protocol) komputer bot boleh dihalang secara kekal. Satu laman web lelongan kereta yang sedang menguji modul perlombongan data Pramana memutuskan untuk memindahkan bot yang disyaki ke dalam "kotak pasir" di mana ia disampaikan sepenuhnya data palsu.

"Mereka memang perlombongan data - ia hanya salah," kata Crowder.

Pilihan lain termasuk mendorong pengunjung laman web dengan cabaran atau tugas, yang mana beberapa bot tidak dapat menyelesaikan.

Data perlombongan menanggung kos syarikat. Syarikat-syarikat yang menjual data premium akan mendapati pesaing mereka akan membeli langganan dan kemudian menggunakan bot automatik untuk mencuri data untuk laman web mereka sendiri. Dalam satu contoh, laman web yang mempunyai data gigabyte mengenai harga kereta terpakai mendapati data mereka telah dikikis dan dijual di eBay.

"Mereka sebenarnya bersaing dengan kandungan mereka sendiri," kata Crowder.

Beberapa Laman web mempunyai reka bentuk yang kurang baik yang membuat data mengikis lebih mudah. Laman web yang digunakan mempunyai URL (Uniform Resource Locator) boleh dimodifikasi secara berurutan untuk mendedahkan lebih banyak data, kata Crowder.

Modul perlombongan data akan dibungkus ke dalam produk HumanPresent sekarang, tetapi awal tahun depan Pramana merencanakan untuk menjualnya secara berasingan, kata Crowder. Pramana menawarkan ManPresent sama ada sebagai perkakas di premis atau sebagai konfigurasi perisian-sebagai-perkhidmatan.

Bagi perisian SaaS (perisian sebagai perkhidmatan), teknologi Pramana diintegrasikan ke dalam aplikasi Web dan maklumat sesi dihantar kembali kepada Pramana untuk analisis. Crowder berkata Pramana telah dapat mengurangkan masa latensi dengan ketara dalam versi terkini. Untuk pelanggan yang memerlukan lebih banyak kelajuan, perkakas tersedia.