Một trợ lý ảo là một tác tử phần mềm có khả năng thực hiện các tác vụ hoặc dịch vụ cho cá nhân người sử dụng. Đôi lúc người ta còn sử dụng thuật ngữ "chatbot" để chỉ các trợ lý ảo được truy cập bằng các phần mềm chat online (hoặc để chỉ các chương trình chat online mang tính giải trí và không đem lại nhiều công dụng).
Tính tới 2017, các tính năng và lượng người sử dụng của các trợ lý ảo đang tăng lên nhanh chóng, với các sản phẩm mới luôn được cho ra thị trường. Một khảo sát trực tuyến vào tháng 5 năm 2017 cho thấy những trợ lý ảo được dùng rộng rãi nhất tại Hoa Kỳ là Apple Siri (34%), Google Assistant (19%), Amazon Alexa (6%), và Microsoft Cortana (4%).[1]Trợ lý ảo M của Facebook được dự kiến phát hành tới hàng trăm triệu người dùng trên Facebook Messenger vào năm 2017.[2] Apple và Google có các trợ lý ảo được cài đặt nhiều nhất trên các điện thoại thông minh và Microsoft là trên các máy tính cá nhân chạy hệ điều hành Windows của hãng (trợ lý ảo Cortana của hãng được tích hợp vào hệ điều hành này cùng với các điện thoại và loa thông minh); trong khi đó, Alexa là sản phẩm đầu tiên có khả năng đặt hàng trực tuyến từ Amazon.[2]
Lịch sử
Công cụ đầu tiên có khả năng nhận diện giọng nói kỹ thuật số là IBM Shoebox, được trình diễn trước công chúng trong Hội chợ Thế giới Seattle 1962 sau khi được bán ra năm 1961. Chiếc máy tính thuở đầu này, được phát triển gần 20 năm trước khi chiếc Máy tính cá nhân IBM đầu tiên được giới thiệu năm 1981, có khả năng nhận dạng 16 từ ngữ được nói và các số từ 0 đến 9. Cột mốc tiếp theo trong quá trình phát triển công nghệ nhận diện giọng nói là vào những năm 1970 tại Đại học Carnegie Mellon ở Pittsburgh, Pennsylvania với sự hỗ trợ vững chắc từ Bộ Quốc phòng Hoa Kỳ và cơ quan DARPA của Bộ này. Công cụ "Harpy" của họ có thể nhận dạng khoảng 1000 từ, tương đương vốn từ vựng của một đứa bé 3 tuổi. Khoảng 10 năm sau chính nhóm các nhà khoa học này đã tiếp tục phát triển một hệ thống không chỉ có thể phân tích các từ riêng biệt mà là cả một dãy từ, tức là cả câu, nhờ có Mô hình Markov ẩn.[3] Vì vậy, các trợ lý ảo sớm nhất áp dụng nhận dạng giọng nói là các tổng đài trả lời tự động và phần mềm đọc kỹ thuật số dùng trong y tế.[4] Vào những năm 1990, công nghệ nhận diện giọng nói số trở thành một tính năng của máy tính cá nhân, khiến các nhà sản xuất như Microsoft, IBM, Philips và Lernout & Hauspie thi nhau áp dụng để tranh giành khách hàng. Sự kiện ra mắt chiếc điện thoại thông minh đầu tiên IBM Simon vào năm 1994 đặt nền móng cho các trợ lý ảo thông minh mà ta biết tới ngày nay.[5] Trợ lý ảo số hiện đại đầu tiên được cài đặt trên một điện thoại thông minh là Siri, từng được giới thiệu là một tính năng trên chiếc iPhone 4S vào ngày 4 tháng 10 năm 2011.[6]Apple Inc. phát triển Siri sau khi mua lại Siri Inc., một công ty con của SRI International vào năm 2010, nơi từng là một viện nghiên cứu được tài trợ bởi DARPA và Bộ Quốc phòng Hoa Kỳ.[3]
Các trợ lý ảo sử dụng công nghệ xử lý ngôn ngữ tự nhiên (NLP) để chuyển văn bản hoặc giọng nói của người dùng thành các câu lệnh thực thi có sẵn. Nhiều trợ lý ảo còn có khả năng tiếp tục học thêm nhiều câu lệnh khác bằng công nghệ trí tuệ nhân tạo, trong đó có phương pháp học máy.
Để kích hoạt trợ lý ảo bằng giọng nói, đôi khi ta phải sử dụng các từ khóa. Đây có thể là một từ hoặc cụm từ, ví dụ như "Alexa" or "OK Google".[7]
Các thiết bị và sản phẩm
Các trợ lý ảo có thể được tích hợp vào nhiều loại nền tảng khác nhau hoặc, giống như Amazon Alexa, trên khắp các nền tảng này:
Trong các nền tảng nhắn tin nhanh, các hệ thống trợ giúp từ các tổ chức cụ thể, như Aerobot của Aeromexico trên Facebook Messenger hay Wechat Secretary trên WeChat
Trong các ứng dụng di động của các công ty và tổ chức, như Dom của Domino's Pizza[9]
Các trợ lý ảo có thể cung cấp rất nhiều dịch vụ, trong đó các dịch vụ trên Amazon Alexa và Google Assistant đang tăng lên từng ngày. Các dịch vụ này bao gồm:[16]
Cung cấp thông tin như thời tiết, các thông tin kiến thức lấy từ các nguồn như Wikipedia hoặc IMDB, đặt báo thức, lập danh sách cần làm và danh sách mua sắm
Phát nhạc từ các dịch vụ streaming như Spotify và Pandora; phát các đài radio; đọc sách nói
Phát video, chương trình TV hoặc phim trên truyền hình, streaming từ các dịch vụ như Netflix
Mua sắm trên các dịch vụ như Amazon
Bổ sung và/hoặc thay thế dịch vụ chăm sóc khách hàng do con người.[17] Một báo có ước tính rằng một trợ lý trực tuyến tự động sẽ làm giảm 30% khối lượng công việc so với một trung tâm tổng đài của con người.[18]
Các dịch vụ bên thứ ba
Amazon và Google cho ra mắt hai nền tảng là Alexa "Skills" và Google "Actions", chủ yếu là các ứng dụng chạy trên các nền tảng trợ lý ảo của các hãng.
Các nền tảng cho nhà phát triển
Các nền tảng của các trợ lý ảo được sử dụng rộng rãi nhất cũng được sử dụng cho các giải pháp khác:
Amazon Lex được mở cửa cho các nhà phát triển vào tháng 4 năm 2017. Nền tảng này bao gồm công nghệ hiểu ngôn ngữ tự nhiên kết hợp với nhận diện giọng nói tự động và đã được giới thiệu tháng 11 năm 2016.[19]
Google cung cấp hai nền tảng Actions on Google và API.ai cho các nhà phát triển tạo các "Actions" cho Google Assistant[20]
Apple cung cấp SiriKit để các nhà phát triển tạo các phần mở rộng cho Siri
Watson của IBM, đôi khi được gọi là một trợ lý ảo thực chất là cả một nền tảng và cộng đồng trí tuệ nhân tạo, được sử dụng trong một số trợ lý ảo, chatbot và nhiều loại phần mềm khác.[21]