ウェブサイト

Webサイトデータをスクレイピングするボットを検出する新しいソフトウェア

my history up until being nys emt 1998,(preceded by my run through of emergency room today)

my history up until being nys emt 1998,(preceded by my run through of emergency room today)
Anonim

求人掲示板などのウェブサイトは、自動化されたボットによって絶え間なくデータが盗み出されるという永続的な問題に直面しています。

データは、コンテンツを盗んだ他の競合する求人ボードで終わります。これは、知的財産を無料で公表する必要があるWebサイト、またはサブスクリプションモデルを持つWebサイトを悩ませている問題です。しかし、ボットの検出に特化したアトランタに本拠を置くセキュリティ会社は、これらのスクリーンスクレーピングを検出できるソフトウェアを開発しています

[その他の情報:Windows PCからマルウェアを削除する方法]

Pramanaの主力製品であるHumanPresentは、例えばWebベースのフォームに迷惑メールを入力するか、無料で登録する自動化されたボットを検出します

Pramanaは、HumanPresentのための「データマイニングとスクリーンスクレイピング防止」というモジュールを開発しました。 HumanPresentは、主な製品と同じ原則の多くで動作しますが、データマイニングのシナリオのために変更されていると、Pramana CEOのDavid Crowderは述べています。HumanPresentは、人間が通常Webとやり取りする方法ボットの振る舞いとは対照的です。キーボードストローク、マウスクリック、それらのアクションのタイミングなど、30以上の指標を調べます。

HumanPresentは単一のトランザクションを調べますが、データマイニングモジュールはボットCrowder氏によると、データマイニングロボットは、ブラウザのユーザーインターフェイスを完全に迂回する傾向があります。たとえば、ボットはたくさんのデータを含むWebページを要求しますが、ページをスクロールしたりクリックしたりすることはありません。このように一連のページが開かれている場合、データマイニングボットが到着したことを意味する可能性があります。

Pramanaは訪問者に一意のIDを割り当て、訪問者の行動を分析した後、訪問者はボットかどうか。

ボットのコンピュータのIP(インターネットプロトコル)アドレスは永久にブロックされる可能性があります。 Pramanaのデータマイニングモジュールをテストしている1台のオークションのWebサイトでは、疑わしいボットを完全に誤ったデータを提供する「サンドボックス」に移動することに決めました。

「実際にデータマイニングです。

他のオプションには、ウェブサイトの訪問者にチャレンジやタスクを促すメッセージが含まれていますが、ボットの中には完了できないものもあります。プレミアムデータを販売する企業は、競合他社がサブスクリプションを購入し、自動化されたボットを使用して自社サイトのデータを盗み出すことに気付くでしょう。 1つの例では、中古車価格のデータがギガバイトのウェブサイトで、データが削られ、eBayで販売されていることが判明した。

「彼らは実際に自分のコンテンツと競合している」ウェブサイトは、データスクラップをはるかに簡単にする貧弱なデザインです。 Crowder氏によると、データマイニングモジュールはヒューマンプレゼンス製品に今すぐにラップされるが、来年早々にPramanaが販売を計画している。(Crowder氏によると、中古車サイトにはURL(Uniform Resource Locators)別々に、Crowderは言った。 Pramanaは、社内のアプライアンスとして、またはサービスとしてのソフトウェア構成としてHumanPresentを提供しています。SaaS(サービスとしてのソフトウェア)提供では、Pramanaの技術がWebアプリケーションに統合され、セッション情報が返送されます分析のためにプラマナに。 Crowder氏によると、Pramanaは最新バージョンのレイテンシー時間を大幅に短縮することができました。スピードを必要とするお客様には、アプライアンスをご利用いただけます。