Roy Choudhury, giáo sư kỹ thuật điện và khoa học máy tính tại Đại học Illinois ở Urbana-Champaign, là một người tin tưởng mạnh mẽ vào tiềm năng chuyển đổi mô hình của thứ mà ông gọi là máy tính có thể nghe được.
Điều đó có nghĩa là bạn có thể tận dụng những khả năng to lớn cho phần cứng và phần mềm chạy bằng hai lỗ tay của bạn. Và để hỗ trợ phát triển mọi thứ, từ các ứng dụng quyền riêng tư và bảo mật đến các công cụ chẩn đoán y tế tập trung vào tương lai của thực tế tăng cường, anh ấy đã tập hợp một nhóm chuyên gia để hỗ trợ anh ấy.
Tai nghe đã là một thị trường rộng lớn. AirPods của Apple, dòng tai nghe không dây, đã bán được 60 triệu chiếc chỉ trong năm 2019. Năm ngoái, con số này đã ước tính tăng lên 85 triệu . Ngày nay, nhiều công ty đang sản xuất tai nghe nhét tai thông minh cung cấp khả năng khử tiếng ồn chủ động, trợ lý thông minh AI, v.v.
Vài thập kỷ trước AirPods, vào những năm 1980, đã có Walkman, có lẽ là công nghệ có thể đeo hiện đại đầu tiên, cho phép người dùng nghe nhạc mọi lúc mọi nơi. Walkman mang lại cho người dùng quyền thống trị không chỉ về những gì họ nghe, mà còn bằng cách không có tai nghe bằng nhựa của nó bịt tai của họ, những gì họ không nghe. Nó cho phép mọi người tạo và kiểm soát nhạc nền trong cuộc sống của họ, mang lại cho chúng ta tất cả các bong bóng ý nghĩa của riêng chúng ta. Walkman khiến việc nghe về cơ bản trở thành một trải nghiệm cá nhân, riêng biệt.

Nhưng Roy Choudhury và đội của anh ấy muốn tiến xa hơn thế. Họ tìm cách biến những chiếc tai nghe nhét tai ngày nay thành một nền tảng điện toán hoàn toàn mới, trong một số trường hợp, có thể thay thế nhu cầu bạn phải tiếp cận với điện thoại thông minh hoặc máy tính của mình. Nếu Walkman phát ra cho mọi người những âm thanh cá nhân của riêng họ để thưởng thức khi họ đi bộ xuống phố, thì trong thời đại công nghệ và cá nhân hóa thông minh hơn, những điều tương tự đó có thể được khai thác theo những cách mới, thú vị và – đôi khi – hơi kỳ lạ.
Tai nghe đọc tâm trí?
Roy Choudhury cho biết: “Hầu hết thị trường máy tính có thể đeo ơcho đến nay] tập trung vào các thiết bị được đeo ở phần dưới của cơ thể, chủ yếu là trong túi hoặc trên cổ tay của bạn, có thể trong giày của bạn. “Điều đó có nghĩa là bạn có thể cảm nhận phần dưới của cơ thể, chẳng hạn như những gì bạn đang làm với tay, cổ tay, chân. Nhưng có rất nhiều thông tin được tạo ra ở phần trên của cơ thể, chủ yếu là đầu của bạn – chẳng hạn như nghe, nói, ăn uống, cảm xúc trên khuôn mặt, những manh mối tiềm năng cho thông tin liên quan đến y tế – có thể là vô giá”
Ý tưởng về việc có thể không chỉ nghe thụ động một thiết bị trong tai mà còn có thể nói chuyện với nó, là cơ sở cho các trợ lý thông minh như Siri. Nhưng lời nói, như được sử dụng trong các trợ lý AI ngày nay, có chủ đích là nông cạn. Ý tưởng về máy tính có thể nghe được là tìm cách giảm tải một số thứ khác mà chúng ta hiện đang phải nhìn chằm chằm vào màn hình và đưa chúng vào tai của chúng ta.

“Mọi thứ bạn đang làm trên màn hình trực quan, bạn đang tập trung toàn bộ sự chú ý vào nhận thức của mình,” ông nói. “Để đọc – ngay cả khi đó là một trò đùa ngớ ngẩn mà bạn đọc trên màn hình – bạn không thể tập trung vào bất cứ điều gì khác. Đọc sách chiếm hoàn toàn sự chú ý nhận thức của bạn. Tôi tin rằng có rất nhiều điều như vậy không xứng đáng nhận được sự quan tâm đầy đủ của bạn. Chúng tôi có thể kéo chúng ra khỏi miền hình ảnh và đẩy chúng đến miền âm thanh chưa được khai thác và chưa được độc quyền hóa, nơi bộ não con người đã phát triển tự nhiên rất tốt để ghép nối giữa các thông tin âm thanh như vậy… Tại sao không lấy những thứ đơn giản này và di chuyển chúng khỏi kênh nhận thức, nhận thức thị giác và vào băng thông âm thanh? ”
Một thử nghiệm gần đây do nhóm thực hiện liên quan đến việc khám phá những cách chúng tôi có thể sử dụng văn bản ở dạng nghe được một cách có ý nghĩa hơn. Nếu bạn đang đọc một bài báo, bạn có thể thấy một từ khóa mà bạn quan tâm và bắt đầu đọc tại thời điểm đó. Tuy nhiên, không có cách nào dễ dàng để thực hiện việc này, chẳng hạn như khi bạn đang nghe một podcast.
“Một trong những điều chúng tôi đang cố gắng làm trong phòng thí nghiệm của mình là tôi có thể tăng tốc độ nghe một bài báo không?” Roy Choudhury nói.
Trong phần trình diễn chứng minh khái niệm của nhóm, người nghe có nhiều đoạn văn trong một bài báo được đọc cho họ nghe đồng thời. Bí quyết để thực hiện công việc này là sử dụng xử lý tín hiệu để làm cho mỗi đoạn văn giống như đang đến từ một hướng khác – hơi giống như đang ngồi trong nhà hàng và có bốn cuộc trò chuyện diễn ra ở các bàn xung quanh, nhưng quay số thành một đoạn vì những người trong cuộc đề cập đến một người mà bạn biết. Để làm cho điều này hoạt động tốt hơn, nhóm đã nhấn vào đơn vị đo lường quán tính (IMU) trong tai nghe để người dùng có thể nói lên một giọng cụ thể (một phần của văn bản) bằng cách hơi quay đầu về hướng đó.
“Tôi gọi dự án này là ‘đọc trong miền âm thanh’, nơi tôi nhìn vào hướng của giọng nói của đoạn thứ ba, và giọng nói đó trở nên to hơn và những giọng nói khác mờ đi,” anh nói.
Nó cũng không phải là tất cả về bài phát biểu. Nhóm nghiên cứu cũng phát hiện ra rằng cả micrô và IMU trong tai nghe đều có thể được sử dụng để thu nhận các rung động cực kỳ tinh vi trên khuôn mặt, nhỏ như một người đang nghiến răng hoặc cơ mặt cau mày hoặc mỉm cười. Không, bạn có thể sẽ không bỏ qua điện thoại thông minh của mình để đọc tin nhắn qua mã Morse bằng răng. Nhưng ý tưởng rằng những đường nét khuôn mặt nhỏ này, chẳng hạn như trượt răng bên phải của bạn, có thể được sử dụng để thực hiện các lệnh – hoặc thậm chí hoạt động như xác nhận danh tính để xác thực hai yếu tố – chắc chắn là thú vị.
“Mọi người đều quen thuộc với Siri, nhưng hãy tưởng tượng Siri có thể mở ra bao nhiêu công dụng tiềm năng nếu nó có một chiều không gian, giống như một người nói tiếng bụng có khả năng ném giọng nói của cô ấy.”
Điều này cũng có thể hữu ích để thu thập dữ liệu dọc cho những thứ như chẩn đoán y tế. Ví dụ, rối loạn lo âu có thể được chẩn đoán từ một số mẫu nhất định được phát hiện trong chuyển động của răng. Roy Choudhury cũng lưu ý rằng có những nhà nghiên cứu đang nghiên cứu các vấn đề như đo lưu lượng máu qua tai để đo nhịp tim, mức glucose, hoạt động của cơ, v.v.
Muốn sử dụng có thể khác? Làm thế nào về thực tế tăng cường âm thanh ? Thực tế tăng cường hiện được biết đến nhiều nhất với việc phủ các đối tượng do máy tính tạo ra trên thế giới thực. Nhưng không có lý do gì tại sao việc tăng cường lại diễn ra hoàn toàn trên quang phổ hình ảnh. Nhóm của Roy Choudhury rất hào hứng với triển vọng sử dụng công nghệ xử lý tín hiệu để ánh xạ một số âm thanh nhất định vào cảnh quan của bạn, để điều hướng đường đi của bạn qua sân bay, viện bảo tàng hoặc bất kỳ không gian công cộng nào khác có thể liên quan đến việc đi tới phát triển công cụ hướng dẫn bằng giọng nói mà dường như đến từ hướng bạn cần phải đi vào.

Mọi người đều quen thuộc với Siri, nhưng hãy tưởng tượng Siri có thể mở ra bao nhiêu công dụng tiềm năng nếu nó có một chiều không gian, giống như một người nói tiếng bụng có khả năng ném giọng nói của cô ấy. Việc tăng cường không gian này cũng có thể giúp cải thiện các cuộc họp ảo lớn, với giọng nói của mỗi người được ánh xạ tới một vị trí cụ thể, giúp bạn dễ dàng biết ngay ai đang nói.
Định luật Dormehl
Đây là một lý do khác khiến Roy Choudhury rất say mê về tiềm năng của máy tính tiếp tục có thể so sánh được – và cơ hội thành công trong thế giới thực của nó. Các phản ứng của xã hội quyết định nhiều hơn về công nghệ nào bắt kịp hơn là các nhà công nghệ nhất thiết phải thích. Các công nghệ mới, theo định nghĩa, là mới. Mới có thể tương đương với kỳ lạ. Để sử dụng một công thức của riêng tôi (hãy gọi nó là Định luật Dormehl), tiện ích vượt trội của bất kỳ công nghệ mới nào phải bù đắp gấp đôi sự nhàm chán vốn có của việc sử dụng nó.
“Đây là một vấn đề vì rất ít công nghệ xuất hiện được hình thành hoàn chỉnh.”
Máy tính cá nhân, mà mọi người sử dụng trong nhà của họ, có thể không được sử dụng trong vài năm đầu tiên xuất hiện trên thị trường vì cổ phần xã hội của việc sử dụng nó quá thấp. Một máy tính xách tay, được sử dụng ở nơi công cộng, có giá cao hơn một chút. Các thiết bị đeo được, đặc biệt nổi bật do được đeo trên người, trông kỳ lạ hơn hầu hết các thiết bị công nghệ. Một phần công nghệ sẽ bị mắc kẹt trên đầu, trông giống như thiết bị cấy ghép từ tính điều khiển học trên máy bay không người lái Borg, phải trở nên hữu ích ngay lập tức nếu người dùng xem xét nó đáng bị tác động xã hội bất lợi khi được nhìn thấy đeo nó.

Đây là một vấn đề vì rất ít công nghệ xuất hiện được hình thành đầy đủ. Trong hầu hết các trường hợp, một vài thế hệ đầu tiên của sản phẩm được xây dựng dựa trên lời hứa thiếu sót, trước khi một sản phẩm hấp dẫn hơn xuất hiện ở đâu đó xung quanh lần lặp thứ ba. Nếu một sản phẩm dễ nhìn thấy không được phân phối ngay từ ngày đầu tiên, thì cơ hội thành công về lâu dài của nó có thể bị hủy hoại, ngay cả khi cuối cùng nó trở thành một sản phẩm tốt. Đối với những người hâm mộ nhỏ tuổi, Luật của Dormehl có thể giải thích sự thất bại của Google Glass, vốn đi kèm với sự kỳ thị và phán xét của xã hội và hoạt động … gần như ổn.
Như Roy Choudhury đã lưu ý, Earbuds thì khác. Bất cứ trận chiến nào có thể đã từng tồn tại về họ, ít nhiều đã có phần thắng. Ông nói: “Xã hội đã chấp nhận những người đeo tai nghe. “… Theo một nghĩa nào đó, đó chỉ là các thuật toán, cảm biến và phần cứng bây giờ phải được nâng cấp. Nó chỉ là một nút thắt công nghệ, và không còn là một nút thắt tâm lý, xã hội nữa ”.
Lời hứa về thiết bị đeo được
Thực tế là tai nghe đã được chấp nhận làm giảm rủi ro. Ngay cả khi các mục tiêu cao nhất mà Roy Choudhury mô tả không đạt được trong một thời gian dài, sự cải tiến gia tăng sẽ bổ sung tiện ích cho một hệ số hình thức đã được chứng minh.
Roy Choudhury tin rằng tiềm năng cho máy tính có thể so sánh được là gần như vô hạn. “Tôi nghĩ con đường phía trước còn vượt xa lời nói,” anh nói. “Tôi có thể nói rằng bài phát biểu là vòng tròn trong cùng, là cốt lõi [của công nghệ này]. Bên ngoài sự tương tác đó là âm học nói chung. Và bên ngoài âm học là tất cả các loại cảm biến và khả năng khác. Nếu bạn nghĩ về cách chúng tôi sẽ bắt đầu xây dựng nền tảng này, thì thành quả thấp là tương tác dựa trên giọng nói: ‘Đặt hẹn giờ’, ‘Này Siri, thời tiết hôm nay thế nào?’ Nhưng nó có thể tiến xa, vượt xa hơn thế nữa”.
Sáng tạo có phương pháp sẽ giúp chúng ta vượt qua các lối mòn tư duy. Liệu có nơi nào giảng dạy bạn cách sáng tạo? Khoá học ngắn hạn “PHƯƠNG PHÁP LUẬN SÁNG TẠO và ĐỔI MỚI” được giảng dạy uy tín, chất lượng tại Trung tâm Sáng tạo Khoa học–kỹ thuật (TSK) thuộc trường Khoa Học Tự Nhiên sẽ lời đáp hữu ích cho bạn. Bạn có thể điền thông tin tại đây hoặc liên hệ số điện thoại: (028) 38 301 743; 089 668 36 31 để thực hiện đăng ký.
Nguồn: DigitalTrends
