웹 사이트

웹 사이트 데이터를 스크랩하는 봇을 탐지하는 새로운 소프트웨어

아폴론 징글벨락

아폴론 징글벨락
Anonim

데이터는 콘텐츠를 도난 당했던 다른 경쟁 구직 게시판에서 끝납니다. 이는 지적 재산권을 무료로 또는 심지어 구독 모델을 가진 사람들에게 공개해야하는 웹 사이트를 괴롭히는 문제이다.

그러나 봇 탐지를 전문으로하는 애틀랜타 기반의 보안 회사는 스크린 스크래핑을 탐지 할 수있는 소프트웨어를 개발했다

[추가 정보: Windows PC에서 멀웨어를 제거하는 방법]

Pramana의 주요 제품인 HumanPresent는 자동화 된 봇을 탐지하여 예를 들어 스팸을 웹 기반 양식에 입력하거나 무료로 등록합니다

Pramana는 HumanPresent에 대해 "데이터 마이닝 및 화면 긁힘 방지"모듈을 개발했습니다. 휴먼 프레즌스 (HumanPresent)는 인간이 정상적으로 웹과 상호 작용하는 방식의 차이점을 발견함으로써 봇을 탐지 할 수 있다고 말했다. 보봇 (BOT)이 어떻게 행동하는지와 대조를 이룹니다. 키보드 스트로크, 마우스 클릭 및 해당 작업의 타이밍과 같은 30 개 이상의 메트릭을 살펴 봅니다. HumanPresent는 단일 트랜잭션을 조사하지만 데이터 마이닝 모듈이 수정되어 하나의 봇 Crowder는 말했다.

데이터 마이닝 봇은 브라우저의 사용자 인터페이스를 완전히 우회하는 경향이있다. 예를 들어, 로봇은 많은 양의 데이터가있는 웹 페이지를 요청할 수 있지만 페이지를 스크롤하거나 클릭하지 않습니다. 이러한 방식으로 일련의 페이지를 열어 본 경우 데이터 마이닝 로봇이 도착했음을 의미 할 수 있습니다.

Pramana는 방문자에게 고유 한 ID를 할당하고 방문자의 행동을 분석 한 후 레이블링 여부를 결정할 수 있습니다 방문객은 로봇이든 아니든. 웹 사이트 운영자가 상황을 처리 할 수있는 여러 가지 방법이 있습니다.

봇 컴퓨터의 IP (인터넷 프로토콜) 주소가 영구적으로 차단 될 수 있습니다. Pramana의 데이터 마이닝 모듈을 테스트중인 한 자동차 경매 웹 사이트는 의심스러운 봇을 완전히 잘못된 데이터를 제공하는 "샌드 박스"로 이동 시키기로 결정했습니다. "실제로 데이터 마이닝이므로 오류가 발생했습니다."Crowder가 말했습니다.

웹 사이트 방문자에게 봇이 완료 할 수없는 과제 또는 작업을 요구하는 옵션도 있습니다.

데이터 마이닝 비용은 귀중한 기업 비용입니다. 프리미엄 데이터를 판매하는 회사는 경쟁사가 구독을 구입 한 다음 자동 로봇을 사용하여 자신의 사이트에 대한 데이터를 훔칠 것입니다. 한 예로, 중고차 가격에 대한 기가 바이트의 데이터를 가진 웹 사이트는 데이터가 긁어내어 eBay에서 판매되고 있음을 발견했다.

"그들은 실제로 자신의 콘텐츠와 경쟁하고있다"고 Crowder는 말했다.

웹 사이트는 데이터 스크래핑을 훨씬 쉽게 만들어주는 열악한 디자인입니다. Crowder는 중고차 사이트에 URL (Uniform Resource Locators)을 순차적으로 수정하여 더 많은 데이터를 표시 할 수 있다고 전했다.

데이터 마이닝 모듈은 현재 HumanPresent 제품으로 포장 될 예정이지만 내년 초 Pramana는이를 판매 할 계획이다 별도로 Crowder가 말했다. Pramana는 HumanPresent를 사내 구축 형 또는 서비스 형 소프트웨어 구성으로 제공합니다. SaaS (Software as a Service) 오퍼링의 경우 Pramana의 기술이 웹 응용 프로그램에 통합되고 세션 정보가 다시 전송됩니다 분석을 위해 프라 마나에게. Crowder는 Pramana가 최신 버전의 대기 시간을 크게 줄일 수 있었다고 전했다. 더 많은 속도가 필요한 고객의 경우 기기를 사용할 수 있습니다.