기계적 인조 인간

Google 연구원은 웹의 구조화 된 데이터를 목표로합니다

[오픈인터뷰]'가상화 스토리지'(IP SAN)에 관한 5가지 궁금증

[오픈인터뷰]'가상화 스토리지'(IP SAN)에 관한 5가지 궁금증
Anonim

인터넷 검색 엔진에는 웹 페이지의 텍스트 크롤링에 주로 초점을 맞추고 있지만 구조화 된 데이터를 분석하고 체계화하는 방법에 대한 연구는 매우 중요하다고 회사 과학자는 금요일 밝혔다. "913"웹에 많은 구조화 된 데이터가 있으며 헤일리는 매사추세츠 공과 대학 뉴 잉글랜드 데이터베이스 데이 (New England Database Day) 컨퍼런스에서 알리 헤일리 (Alon Halevy)가 말했다.

헤일리는 부분적으로 소위 말하는 "딥 웹"소스를 언급했다. Cars.com 또는 Realtor.com과 같은 양식 기반 웹 사이트 뒤에있는 데이터베이스와 같이 Google은 정보를 유용하게 보일 경우 검색 결과에 웹 페이지를 가져 와서 검색 색인에 포함시키는 등 다양한 방식으로 검색어를 제출했습니다.

[추가 정보: 최고의 TV 스트리밍 서비스]

헤일리 대변인은 많은 웹 사이트에서 구조화 된 테이블에서 발견 된 데이터를 분석하기를 원한다고 Halevy가 말했다. 예를 들어 미국 대통령이 나열된 웹 페이지에 테이블을 제공했다.

수십억 달러를 벌어 들였다. 그는 "이들 중 98 % 이상이 흥미롭지 않다는 것을 매우 빨리 깨달았습니다. 그러나 중요한 필터링을 한 후에도 색인을 생성하는 데 약 1 억 5 천 5 백만 테이블이 남아 있습니다."라고 말했습니다.

Google의 궁극적 인 목표 중 하나는 "측면 Halevy는 "베트남 인구와 같은 특정 사실에 대한 질문과는 대조적으로"베트남 여행 "과 같은 탐구적인 검색어에 대해 검색 쿼리를 사용합니다. 예를 들어, 이전 쿼리는 비자 요구 사항, 날씨 및 여행 패키지에 관한 정보를 생성합니다.

Kosmix가 제공하는 검색 서비스의 아이디어가 있지만 Halevy에 따르면 Google은 더 나아 가고 싶습니다. 그는 "코스 믹스 (Kosmix)는 너에게 '양상 (aspect)'을 줄 것이지만 정보 소스에 붙어있다"고 말했다. 그는 "코스모스에서 베트남 여행"을 검색하면 뉴욕 타임스의 레스토랑 리뷰, 야후와 플리커, 쇼핑 닷컴의 쇼핑 정보 및 구글의 일반적인 웹 결과 등이있다.

"우리의 경우 모든 측면은 웹 검색 결과 일 뿐이지 만 우리는이를 다르게 구성 할 것"이라고 할리비는 말했다.