Car-tech

음성 인식 시스템이 더 스마트 해 져야 함 교수의 의견

대승보살도의 기초교리 07-1

대승보살도의 기초교리 07-1
Anonim

자동화 된 음성 인식 시스템에 전화로 말하는 것은 과학자들이 그러한 시스템을보다 생생하고 덜 귀찮게 사용하려는 사실에서 위안을 얻을 수 있습니다. "소비자 경험을 통해 사람들은 이러한 시스템이 매우 실망 스럽다는 것을 안다" 로체스터 대학 (University of Rochester)의 컴퓨터 과학 학과장 인 알렌 (Allen)은 2010 년 SpeechTEK 학술 대회가 시작되기 전에 뉴욕에서 열렸습니다. 대부분의 컴퓨터 화 음성 인식 시스템은 사람이 98 % 그럼에도 사람들은 여전히 ​​자동화 된 전화 헬프 데스크 시스템을 사용할 때 불안해합니다. 이 시스템을 사용하기에 덜 좌절시키는 열쇠는 언어에 대한 깊은 이해와 상호 작용을 가능하게하는 것입니다.

[추가 정보: 새 PC에 15 개의 무료로 우수한 프로그램이 필요합니다.]

지금까지 대부분의 대규모 조직의 고객 서비스 부서에서는 자동화 된 전화 기반 도움말 시스템을 제공합니다. 사용자가 도움말 번호로 전화를 걸면 인공 음성이 발신자에게 일련의 질문을합니다. 이러한 시스템의 대부분은 기본적으로 큰 의사 결정 트리 인 프레임 워크를 기반으로합니다. 그런 시스템으로 "당신은 사람이 원하는 것을 발견하지 못하고 스크립트를 따르고 있습니다."라고 그는 말했습니다. 시스템은 실제로 여러 가지 기술로 구성되어 있습니다. 하나는 음성 인식이나 컴퓨터가 화자의 말을 이해하거나 텍스트로 성공적으로 번역 할 수있는 능력입니다.

다른 기술인 자연 언어 처리 (NLP)는 화자의 메시지를 명령으로 변환하려고 시도합니다 컴퓨터가 실행될 수 있거나 작업자를 위해 요약 될 수 있습니다.

지난 수십 년 동안 음성 인식과 NLP 모두에서 큰 진보가 있었지만, 사용자에게 거의 좌절감을 가져다주었습니다. 앨런은 "문제가 생겼을 때만 은행에 전화를 걸어 이러한 시스템과 싸워야한다"면서 "최대한 빠른 시일 내에 답을 얻을 수있는 답변을 구할 것"이라고 말했다.

Allen의 학술 연구는 그는 "우리가 사람과 이야기하는 것과 같은 방법으로 기계와 대화 할 수있는 방법을 찾는다"고 말했다.

컴퓨터가 어려움을 겪는 방식으로 두 사람의 대화가 정확해질 수있다. 알렌은 대학원생으로서 일찍 일한 몇몇 일을 지적하면서 기차역 안내소에서 대화를 녹음했습니다. 한 번의 상호 작용에서 승객은 부스까지 걸어 가서 "Windsor에 8:50"이라고 말하면 참석자가 "Gate 10, 20 minutes late"이라고 대답합니다. 참석자가 문의자가 찾은 정보를 정확히 알고있는 동안 전산화 된 시스템은 승객의 첫 번째 발언이 헷갈 린다는 것을 알게됩니다.

Allen이 보는 방식, 현대 시스템에는 두 가지 요소가 빠져 있습니다. 연사와 이야기를 나눌 수있는 능력 "

"많은 상용 NLP가 얕은 경향이 있습니다. 우리는 문장의 의미를 부여하는 기술이 없습니다. " 그는 말했다. WordNet과 같은 통계 처리 도구 및 단어 정의 서비스는 단어를 정의하는 데 도움이 될 수 있으며 단어의 관계를 정의 할 수 있으므로 시스템은 예를 들어 "자회사"가 "회사"의 일부라는 것을 알 수 있습니다.

사용자와 컴퓨터 간의 양방향 통신 또한 필요합니다. 그들의 요구에 대해 이야기 할 때 사람들은 특별한 순서없이 정보를 제공 할 수 있습니다. 이 정보를 수집하고 답변이 이미 제공된 질문으로 사용자에게 부담을주지 않는 것은 컴퓨터에 달려 있어야합니다. "

"이것은 미래이며, 이것은 시스템이하기를 원하는 것이며, 대화 상자를 만들 수 있습니다 이 아이디어를 설명하기 위해 Allen과 연구원 팀은 간호사가 심장병 환자에게 물어볼 질문을 모방 할 수있는 Cardiac이라는 프로그램을 설계했습니다. 이 프로그램은 미국 국립 보건원 (National Institutes of Health)의 지원을 받아 만들어졌습니다. 이 시스템을 사용하면 사용자가 정보를 입력하면 시스템에서 다시 정보를 요청하지 않습니다. 이 시스템은 어떤 자료가 이미 제공되었으며 무엇이 여전히 필요했는지에 대해 이유를 제시합니다.

Plow라는 Allen과 그의 팀이 설계 한 또 다른 프로그램은 컴퓨터에서 일반적인 작업을 수행하는 방법을 배울 수 있습니다. 그는 "예를 들어 대화를 통해 대화를 통해 시스템을 교육하는 시스템"이라고 설명했다.

예를 들어 Allen은 브라우저를 사용하여 인근 식당을 찾는 방법을 배우는 프로그램을 시연했다. 사용자는 브라우저를 열어 레스토랑 찾기 사이트로 이동하고 원하는 레스토랑 유형 및 위치를 입력 한 다음 결과를 잘라내어 빈 페이지에 붙여 넣습니다. 사용자는 수행 된 각 단계를 설명했습니다.

프로세스에서 Plough는 각 단계를 기록하고 단계가 이해되면 청력으로 응답합니다. 나중에 사용자가 다른 레스토랑을 검색하고 싶을 때, 프로그램은 자동으로 동일한 동작을 수행하여 다른 레스토랑 목록을 자동으로 생성합니다. 마이크로 소프트의 수석 과학자 인 래리 헥 (Larry Heck)과의 회의에서 또 다른 강연에서 합의한 바에 따르면 더 많은 데이터가 인간과 유사한 언어 처리 시스템의 핵심이다. 그는 "데이터가 없으면 알고리즘의 복잡성에 상관 없다"며 "검색 엔진 쿼리에 더 많은 데이터를 찾을 수있는 곳이 한 곳있다"고 말했다. 검색 엔진 서비스는 엄청난 수의 쿼리를 생성하며이 모든 쿼리는 답변에 연결됩니다. "나는 검색을 언어 처리 기술에 가까운 사촌이라고 생각한다."요즘 사람들은 검색어를 키워드 세트로 구성하는 법을 배우게된다. 대신 사용자가 필요한 것을 설명하는 전체 문장을 입력하는 경우, 결과 데이터 세트는 시스템이 사람들이 찾고있는 것을 더 잘 이해할 수 있도록 도와 줄 수 있습니다.

Heck은 더 많은 사람들이 음성 인식 검색 서비스를 사용함에 따라 마이크로 소프트와 구글은 시간이 지남에 따라 NLP 시스템이 사용자의 요구를 더 잘 이해할 수 있도록 전체 문장으로 쿼리를 구조화하는 데 좀 더 익숙해 질 것입니다.

Joab Jackson은

IDG 뉴스 서비스

. @Joab_Jackson에서 Twitter의 Joab을 팔로우하십시오. Joab의 전자 메일 주소는 [email protected]입니다.