Nguyễn Thành An và Nguyễn Phát Tài, sinh viên Khoa Công nghệ Thông tin Trường ĐH Khoa học tự nhiên – ĐH Quốc gia TP.HCM đã giành giải Nhất lĩnh vực công nghệ thông tin Giải thưởng sinh viên nghiên cứu khoa học Euréka 2017 với đề tài “Tổng hợp và tìm kiếm trên video dựa vào phát hiện và nhận biết mặt người”.
Sản phẩm là hệ thống xác định, ghi nhớ diện mạo con người, có thể ứng dụng trong an ninh, giám sát, nhà thông minh, tối ưu công cụ tìm kiếm từ kho dữ liệu hình ảnh…
Thành An, Phát Tài (từ trái qua) trong lễ trao Giải Euréka 2017 – Ảnh: H.T.
Quét mặt người trong hàng ngàn thước phim
Để dễ hình dung, Phát Tài lấy ví dụ: “Nếu khán giả thích xem nhân vật bà nội Dadisa trong phim Cô dâu 8 tuổi dài hơn 2.100 tập, hệ thống sẽ tự động tìm kiếm và tổng hợp những phân cảnh có đối tượng này.
Tương tự, các clip tường thuật kỳ họp Quốc hội dài hơn hai tiếng, người dùng có thể ra lệnh cho hệ thống nhận diện một số đại biểu mà họ quan tâm và tách phần phát biểu đó để tiện theo dõi”.
Hiện tại, các trang web hầu hết tìm kiếm video dựa theo tiêu đề, mô tả bằng chữ. Tuy nhiên, hệ thống này tìm kiếm dựa trên nội dung hình ảnh, quét toàn bộ thước phim, nhận diện từng người lạ, người quen (so với bộ dữ liệu đã được huấn luyện) và ghi nhớ thời gian họ xuất hiện.
Nhóm đã chạy chương trình trên kho video “ngốn” khoảng 16GB về 500 người nổi tiếng như chính trị gia, nghệ sĩ trong và ngoài nước.
Về bản chất, nhóm sinh viên đã xây dựng mô hình mạng neuron học sâu (deep learning) trong trí tuệ nhân tạo, có khả năng học cách phân loại hình ảnh, thậm chí tốt hơn con người trong một số trường hợp.
Thành An cho biết một số ứng dụng khác của hệ thống như: trên nền tảng di động giúp mở khóa điện thoại bằng nhận diện khuôn mặt (face ID) của iPhoneX; tích hợp vào camera an ninh tại văn phòng, trường học để nhận biết ai bước qua cửa vào thời gian nào; tích hợp vào hệ thống nhà thông minh, giúp truyền hình, máy lạnh biết cách “ứng xử” phù hợp với từng thành viên trong gia đình, thậm chí thiết lập cơ chế cảnh báo nếu có người lạ vào nhà…
Thuê máy chủ ở Singapore, Hoa Kỳ
Để phục vụ công tác nghiên cứu, nhóm đã thuê khoảng bốn máy chủ (server) ở Singapore với mức 5-10 USD/tháng. Riêng hai ngày thi Euréka, nhóm tốn hơn 200 USD để thuê server tốt hơn tại Hoa Kỳ.
Mặc dù trong nước có cung cấp dịch vụ này nhưng phương thức thanh toán rườm rà, lắp đặt tốn thời gian nên nhóm chọn cách thuê máy từ xa “tốn kém nhưng tiện hơn”.
“Điều kiện máy móc trong nước cũng còn hạn chế, sinh viên chủ yếu tự lực cánh sinh”, An cho biết khi đang nghiên cứu thạc sĩ năm đầu.
“Mỗi lần xử lý bộ dữ liệu 16GB cần siêu máy tính trong 4-8 tiếng. Nhưng không phải lúc nào cũng có tiền thuê nên nhóm chủ yếu sử dụng máy tính cá nhân mất 12-24 tiếng. Với nghiên cứu lớn hơn có khi phải chạy hai tuần, một tháng”.
Cho rằng cuộc sống là người thầy thứ hai, An và Tài từng xách balô sang Google và Viện JAIST (Nhật) thực tập theo đúng hướng nghiên cứu. Khi trở về các bạn đủ “cứng cáp” để hoàn thiện đề tài tham dự Euréka.
“Nhóm theo đuổi đề tài này từ cuối năm hai vì tin vào xu thế ứng dụng và khả năng thương mại cao của công nghệ nhận diện gương mặt ở hiện tại và tương lai” – Thành An chia sẻ.
Theo Tuổi Trẻ Online
“Nhóm tiếp tục phát triển thành hệ thống trực tuyến đầy đủ hơn để mỗi người có thể đăng ký tài khoản, tạo bộ dữ liệu, mô hình nhận diện riêng cho gia đình mà không cần thông qua kỹ sư lập trình. Nhận diện khuôn mặt đang là xu thế, chúng tôi tin tiềm năng của sản phẩm về mặt xã hội và thương mại” – Nguyễn Thành An |
Tiềm năng ứng dụng cao PGS.TS Trần Minh Triết – Phó Trưởng PTN Trí tuệ Nhân tạo (AILab), Trường ĐH Khoa học Tự nhiên (ĐH Quốc gia TP.HCM), giảng viên hướng dẫn đề tài – nhận xét: “Tôi đánh giá cao việc sinh viên phát triển các thuật toán của mình thành hệ thống dịch vụ web với kiến trúc linh hoạt và hiệu quả, cung cấp tính năng phát hiện và nhận diện mặt người cho cộng đồng qua ứng dụng công nghệ thông tin. Với tiềm năng ứng dụng cao, tôi hi vọng hệ thống mà các em xây dựng sẽ tiếp tục được phát triển, tích hợp vào các ứng dụng thực tế khác trong cuộc sống”. |