Lớn lên, nhiều người trong chúng ta được cho rằng chơi máy tính hoặc trò chơi điện tử là lãng phí thời gian. Tuy nhiên, khi nói đến việc đào tạo trí tuệ nhân tạo, không những không lãng phí thời gian mà còn có thể là chìa khóa để phát triển các tác nhân thông minh của tương lai.
Vài năm trước, các nhà nghiên cứu từ Google DeepMind đã chứng minh một cách ấn tượng rằng AI tiên tiến có thể được sử dụng để làm chủ một số trò chơi Atari cổ điển mà không cần được dạy cách chơi chúng một cách rõ ràng. Kể từ đó, nhiều nhà nghiên cứu đã thử nghiệm các hệ thống học tập củng cố sử dụng phương pháp thử và sai để học cách làm chủ trò chơi.
Giờ đây, các nhà nghiên cứu từ Uber AI Labs và OpenAI đã tìm ra cách để tinh chỉnh các công cụ này hơn nữa để cho phép chúng thể hiện mức hiệu suất cao ở các trò chơi phức tạp hơn mà các nhân viên AI chơi game trước đây đã phải vật lộn.
“Các thuật toán mới mà chúng tôi phát triển, Go-Khám phá, nhanh hơn so với thuật toán học máy trước trên nhiều trò chơi Atari, bao gồm các trò chơi thám hiểm nổi tiếng là cứng Revenge Montezuma của và Pitfall ,” Joost Huizinga , một nhà khoa học nghiên cứu tại OpenA.I., Nói với Digital Trends.
Nó không chỉ “vượt trội” các hệ thống trước đó, mà Go-Explore là thuật toán đầu tiên đánh bại tất cả các cấp độ của cực kỳ khó Montezuma’s Revenge và giành được điểm số gần như hoàn hảo trên Pitfall .
Uber AI Labs / OpenAI
Nó thực hiện điều này bằng cách ghi nhớ những cách tiếp cận thành công trước đây mà nó đã thử và quay lại những khoảnh khắc ghi điểm cao này, thay vì luôn bắt đầu từ đầu trò chơi. Vì các trò chơi Atari thường không cho phép điều này (những người lớn lên với các trò chơi cho phép điểm lưu thông thường không nhận ra họ may mắn như thế nào!), Các nhà nghiên cứu đã sử dụng một trình giả lập cho phép họ lưu số liệu thống kê và tải lại chúng bất cứ lúc nào.
Chơi qua bộ sưu tập 55 trò chơi Atari – đại diện cho một tiêu chuẩn ngày càng tiêu chuẩn cho các thuật toán học tăng cường – Go-Explore có thể đánh bại các hệ thống hiện đại khác ở những tựa game này 85,5% thời gian.
Đó là một minh chứng ấn tượng về trí tuệ nhân tạo đang hoạt động. Và, mặc dù chỉ là một trò chơi, nó có thể có các ứng dụng thú vị trong thế giới thực.
Người kiểm tra và lãnh chúa robot
Ngay từ khi bắt đầu – trước khi trí tuệ nhân tạo thậm chí còn được đặt làm tên chính thức của ngành học – các nhà nghiên cứu trong lĩnh vực này đã quan tâm đến trò chơi. Năm 1949, Claude Shannon, một trong những nhân vật sáng lập AI, đã đưa ra lời giải thích của mình về lý do tại sao việc tạo ra một chiếc máy tính chơi cờ vua lại là một nỗ lực xứng đáng.
Các trò chơi như cờ vua, Shannon viết, đưa ra một vấn đề được xác định rõ ràng, có cả hoạt động được phép và mục tiêu cuối cùng. Chúng không phải là một thách thức quá khó để giải quyết một cách khả thi, nhưng vẫn đòi hỏi trí thông minh để vượt trội, đồng thời sở hữu cấu trúc rời rạc (có nghĩa là không liên tục) theo cách thức từng bước trong đó máy tính giải quyết vấn đề.
Trong khi công nghệ thúc đẩy các hệ thống này đã thay đổi rất nhiều trong hơn 70 năm qua, nhiều ý tưởng trong số đó vẫn là điều thúc đẩy việc sử dụng trò chơi để phát triển và thử nghiệm trí tuệ nhân tạo. Trò chơi cung cấp một phiên bản trừu tượng, đơn giản hóa của thế giới thực, trong đó sự phức tạp của các vấn đề được chắt lọc thành các hành động, trạng thái, phần thưởng và kẻ thắng người thua rõ ràng.
Mặc dù Shannon, Alan Turing và nhiều nhà sáng tạo AI ban đầu khác đã làm việc với thách thức của cờ máy tính, và đã có một số thành công đáng chú ý trong suốt chặng đường – chẳng hạn như của nhà lập trình của Viện Công nghệ Massachusetts Richard Greenblatt MacHack vào những năm 1960 – thì không thực sự cho đến tháng 5 năm 1997 rằng cờ vua máy tính thực sự thu hút sự chú ý của thế giới.
Đó là tháng và năm mà hệ thống “Deep Blue” của IBM đã đánh bại nhà vô địch cờ vua thế giới Garry Kasparov trong một trận đấu sáu ván. Deep Blue là một ví dụ đáng kinh ngạc về tính toán bạo lực trong hoạt động. Nó sử dụng phần cứng song song khổng lồ, bao gồm 30 bộ vi xử lý cao cấp nhất, để kiểm tra sự phân nhánh của 200 triệu vị trí bo mạch mỗi giây. Siêu máy tính chơi cờ của IBM được trang bị một ngân hàng bộ nhớ, bao gồm hàng trăm nghìn trò chơi cấp bậc thầy trước đó mà nó có thể vẽ. (Trớ trêu thay, nước đi chiến thắng Deep Blue trong trận đấu đầu tiên thực sự là một thất bại trong một phần của hệ thống, trong đó nó mặc định chọn một nước đi một cách ngẫu nhiên, mà Kasparov đã nhầm với sự sáng tạo.)
Gần 15 năm sau, vào tháng 2 năm 2011, IBM có chiến thắng tiếp theo trong trò chơi AI chinh phục tiêu đề khi IBM Watson AI của họ đối đầu với các nhà cựu vô địch Ken Jennings và Brad Rutter trong một chương trình truyền hình đặc biệt của chương trình trò chơi Jeopardy. Jennings nói với tôi trong cuốn sách của tôi: “Tôi đã từng tham gia các lớp học về AI và biết rằng loại công nghệ có thể đánh bại con người ở Jeopardy vẫn còn cách xa hàng thập kỷ Máy tư duy . “Hoặc ít nhất tôi nghĩ rằng nó là.”
IBM / Youtube
Trong sự kiện này, Watson đã xóa sổ cặp đôi này, trên đường giành giải thưởng 1 triệu đô la. Jennings, người đang giữ kỷ lục về chuỗi trận thắng dài nhất trong lịch sử của trò chơi, nói: “Thật sự rất đau khi để thua đến mức đó. Khi trò chơi kết thúc, anh ấy viết nguệch ngoạc một cụm từ trên bảng trả lời của mình và giơ nó lên trước máy quay: “Tôi vì một người mà chào mừng các chúa tể người máy mới của chúng ta”.
Chơi game và học máy
Các cuộc trình diễn AI về cách chơi gần đây phần lớn là công việc của DeepMind, tập trung vào các trò chơi như một phần của mục tiêu đã nêu là “giải quyết trí thông minh”. Có lẽ thành tích đáng chú ý nhất là đã AlphaGo cờ vây , một bot chơi đánh bại nhà vô địch thế giới Lee Sedol – bốn ván đấu một – trong một loạt trận năm 2016 được 60 triệu người theo dõi. Ngoài ra còn có AI chơi Atari nói trên và AlphaStar , vốn đang tìm cách làm chủ trò chơi chiến lược thời gian thực StarCraft II .
So với những nỗ lực tính toán thô bạo của Deep Blue, thay vào đó, đây là những minh chứng của các kỹ thuật máy học. Điều này một phần là do sự cần thiết. Ví dụ, cờ vây có nhiều vị trí trên bàn cờ hơn nhiều so với cờ vua, khiến việc sử dụng bạo lực trở nên khó khăn hơn. Nước đi mở đầu trong trò chơi cờ vua cho phép có 20 nước đi. Người chơi đầu tiên trong cờ vây có 361 khả năng . Về tổng thể, cờ vây có nhiều vị trí bảng cho phép hơn tổng số nguyên tử trong vũ trụ đã biết. Đó là một thứ tự cao đối với tính toán brute-force, thậm chí còn cho phép gia tăng phần cứng kể từ năm 1997.
DeepMind / YouTube
Khi các phương pháp tiếp cận như học tăng cường sâu đã có, các hệ thống AI chơi trò chơi hiện đại, giống như AI nói chung, phần lớn chuyển từ việc tuân theo các quy tắc được thiết lập trước sang tự học. Điều này cũng đã mở ra một lợi thế mới cho việc sử dụng trò chơi như một châm ngôn cho các hệ thống AI: Dữ liệu miễn phí.
Khi AI mang tính biểu tượng nhường chỗ cho các công cụ học máy ngày nay, các trò chơi cung cấp cho các nhà nghiên cứu một nguồn dữ liệu dồi dào hơn mà họ cần để thực hiện các cuộc trình diễn của mình. Demis Hassabis, CEO và đồng sáng lập của DeepMind, đã đưa ra quan điểm này trong một cuộc phỏng vấn vào tháng 11 năm 2020 với Azeem Azhar của bản tin Exponential View . “Chúng tôi là một công ty khởi nghiệp nhỏ, chúng tôi không có quyền truy cập vào nhiều dữ liệu từ các ứng dụng… và vì vậy chúng tôi phải tổng hợp dữ liệu của riêng mình,” Hassabis nói. “Nếu bạn sử dụng trò chơi, cho dù đó là trò chơi trên bàn cờ như cờ vây hay trò chơi mô phỏng, như trò chơi máy tính, trò chơi điện tử, bạn có thể chạy chúng bao lâu tùy thích và tạo ra nhiều dữ liệu tổng hợp như bạn muốn.”
Trường hợp điển hình: AlphaGo đã tự chơi hơn 10 triệu lần để đạt được khả năng chơi cờ vây của mình. Trong các tình huống không chơi trò chơi, khối lượng dữ liệu này sẽ phải được thu thập từ nơi khác. Trong trường hợp AI chơi trò chơi, nó có thể được tạo ra bởi chính hệ thống.
Sử dụng trong thế giới thực
Cần phải nói rõ, một yếu tố của PT Barnum là “cuộn lên, cuộn lại, xem chiếc máy tính thông minh đáng kinh ngạc” để trình diễn lối chơi công khai về AI. Nó biến nghiên cứu máy học thành một thứ gì đó tiếp cận một môn thể thao Olympic. Nhiều người đã xem Watson của IBM giành chiến thắng tại Jeopardy! hơn bao giờ hết trích dẫn các tài liệu nghiên cứu mô tả backpropagation , các thuật toán nổi tiếng nhất trong học máy hiện đại. của IBM Cổ phiếu tăng mạnh vào năm 1997 , sau ván cờ Kasparov, và một lần nữa vào năm 2011 sau chiến thắng Jeopardy của Watson.
Nhưng AI chơi trò chơi không chỉ là một chiêu trò thu hút sự chú ý. : “Tất nhiên, mục tiêu cuối cùng không chỉ đơn thuần là giải quyết các trò chơi Adrien Ecoffet , một nhà khoa học nghiên cứu tại OpenAI, nói với Digital Trends . “Bản thân vấn đề đóng khung là rất chung chung, do đó các thuật toán có thể giải quyết tốt các trò chơi cũng có thể hữu ích trong các ứng dụng thực tế. Trong công việc của mình, chúng tôi cho thấy rằng thuật toán tương tự mà chúng tôi đã sử dụng để giải các trò chơi Atari cũng có thể được sử dụng để giải một bài toán người máy đầy thử thách. Ngoài robot, Go-Explore cũng đã có một số nghiên cứu thử nghiệm về học ngôn ngữ, nơi một nhân viên học ý nghĩa của các từ bằng cách khám phá một trò chơi dựa trên văn bản và để phát hiện ra những lỗi tiềm ẩn trong hoạt động của một chiếc xe tự lái để để tránh những thất bại đó trong tương lai. ”
Jeff Clune, trưởng nhóm nghiên cứu tại OpenAI, nói với Digital Trends rằng DeepMind đã áp dụng thành công học tăng cường và học máy vào các vấn đề thực tế, trong thế giới thực như điều khiển khí cầu tầng bình lưu và thực hiện làm mát trung tâm dữ liệu .
Trong khi đó, Huizinga chỉ ra rằng các công cụ học tập củng cố phổ biến rộng rãi trong các hệ thống đề xuất nhằm xác định video hoặc quảng cáo nào sẽ hiển thị cho người dùng trực tuyến. Tương tự, các thuật toán tìm kiếm được sử dụng để cho phép các tác nhân AI tìm đường trong trò chơi điện tử cũng tạo thành “thuật toán xương sống” để lập kế hoạch tuyến đường tự động trong hệ thống định vị.
“Theo hiểu biết tốt nhất của chúng tôi, vẫn chưa có phiên bản Go-Explore nào được áp dụng thương mại, nhưng có thể không lâu nữa chúng tôi sẽ bắt đầu thấy các ứng dụng thực tế,” Huizinga nói. Và, cùng với nó, rất có thể là rất nhiều hệ thống AI chơi game khác
Sau hơn 20 năm giảng dạy “PHƯƠNG PHÁP LUẬN SÁNG TẠO và ĐỔI MỚI” tại Trung tâm Sáng tạo Khoa học–kỹ thuật (TSK) thuộc trường Khoa Học Tự Nhiên, khoá học thu được rất nhiều phản hồi tốt của học viên về các lợi ích nhận được. Nếu bạn có quan tâm đến khả năng sáng tạo, mong muốn cải thiện chất lượng cuộc sống, bộ công cụ của khoá học này sẽ thực sự hữu ích và ý nghĩa. Bạn có thể điền thông tin tại đây hoặc liên hệ số điện thoại: (028) 38 301 743; 089 668 36 31 để thực hiện đăng ký.
Nguồn: DigitalTrends
