MẠNG NORON NHÂN TẠO

Não người hoạt động nhờ mạng lưới khoảng 86 tỷ tế bào thần kinh kết nối với nhau, truyền tín hiệu điện hóa để xử lý thông tin hay đưa ra quyết định. Mạng thần kinh nhân tạo (tiếng Anh: Artificial neural network hay chỉ đơn giản là Neural network, viết tắt ANN) là một mô hình học máy lấy cảm hứng từ cấu trúc đó: nó được cấu tạo thành từ các đơn vị xử lý đơn giản, kết nối với nhau theo lớp, cùng nhau học cách biểu diễn thông tin phức tạp từ dữ liệu.^[1] Nhờ vậy, mạng thần kinh nhân tạo có thể thực hiện các nhiệm vụ mà lập trình thủ công theo quy tắc gặp nhiều khó khăn, như nhận diện hình ảnh, dịch ngôn ngữ, hay tổng hợp giọng nói.

Về mặt kỹ thuật, một mạng thần kinh nhân tạo gồm các neuron nhân tạo (các nút) được tổ chức thành nhiều lớp: lớp đầu vào (input layer) nhận dữ liệu thô, một hoặc nhiều lớp ẩn (hidden layer) thực hiện các phép biến đổi phi tuyến, và lớp đầu ra (output layer) trả về kết quả.^[2] Mỗi kết nối giữa hai neuron mang một trọng số (weight), một con số xác định mức độ ảnh hưởng của tín hiệu đầu vào có thể được điều chỉnh trong quá trình huấn luyện. Đầu ra của mỗi neuron được tính bằng tổng có trọng số của các đầu vào, sau đó đưa qua một hàm kích hoạt (activation function) phi tuyến để tạo ra tín hiệu truyền sang lớp tiếp theo. Khi mạng có từ hai lớp ẩn trở lên, nó thường được gọi là mạng thần kinh sâu (deep neural network), là nền tảng của học sâu hiện đại.

NỀN TẢNG LÝ THUYẾT

Ý tưởng mô hình hóa tế bào thần kinh bằng toán học xuất hiện từ năm 1943, khi nhà thần kinh học Warren McCulloch và nhà logic học Walter Pitts đề xuất mô hình neuron nhị phân đầu tiên: một đơn vị tính toán nhận đầu vào nhị phân và cho ra đầu ra nhị phân dựa trên ngưỡng kích hoạt.^[3] Năm 1958, nhà tâm lý học Frank Rosenblatt hiện thực hóa ý tưởng này thành mô hình perceptron, một mạng thần kinh nhân tạo có thể huấn luyện được với quy tắc cập nhật trọng số tự động từ dữ liệu.^[4] Perceptron gây ra làn sóng lạc quan lớn và thu hút đầu tư mạnh từ chính phủ Mỹ. Tuy nhiên, năm 1969, Marvin Minsky và Seymour Papert chứng minh rằng perceptron đơn lớp không thể giải quyết các bài toán phi tuyến cơ bản như hàm XOR, khiến nghiên cứu về mạng thần kinh nhân tạo rơi vào giai đoạn trì trệ kéo dài.^[5]

Mạng thần kinh nhân tạo được hồi sinh vào thập niên 1980 với sự phổ biến hóa của thuật toán lan truyền ngược (backpropagation) bởi David Rumelhart, Geoffrey Hinton và Ronald Williams vào năm 1986.^[6] Thuật toán này cho phép huấn luyện hiệu quả các mạng nhiều lớp bằng cách tính gradient của hàm mất mát ngược từ lớp đầu ra về lớp đầu vào, giải quyết được bài toán XOR và mở ra khả năng xây dựng các mạng sâu hơn như mạng perceptron nhiều lớp (multi-layer perceptron, MLP). Đây là tiền đề kỹ thuật trực tiếp cho toàn bộ học sâu hiện đại.

MẠNG TÍNH CHẬP VÀ HỒI QUY

Năm 1989, Yann LeCun và cộng sự áp dụng lan truyền ngược để huấn luyện mạng tích chập (convolutional neural network, CNN) nhận diện chữ số viết tay trên bưu kiện.^[7] Kiến trúc LeNet-5 hoàn thiện năm 1998 là mạng tích chập đầu tiên được triển khai thực tế ở quy mô lớn — các ngân hàng Mỹ dùng nó để tự động đọc số tài khoản trên séc. CNN khai thác cấu trúc không gian của hình ảnh bằng cách dùng các bộ lọc (filter) trượt qua ảnh thay vì kết nối đầy đủ từng điểm ảnh, giảm đáng kể số tham số và giúp mô hình không bị ảnh hưởng bởi thay đổi vị trí.

Song song với CNN, một nhánh khác của mạng thần kinh nhân tạo phát triển để xử lý dữ liệu tuần tự như văn bản và giọng nói: mạng hồi quy (recurrent neural network, RNN). Năm 1990, Jeffrey Elman giới thiệu kiến trúc RNN nền tảng — còn gọi là Elman network — trong đó lớp ẩn có kết nối vòng lặp trở lại chính nó: đầu ra của lớp ẩn ở bước thời gian trước được đưa trở lại làm một phần đầu vào cho bước tiếp theo, tạo ra một dạng "bộ nhớ" về ngữ cảnh trước đó.^[8] Tuy nhiên, RNN chuẩn gặp vấn đề triệt tiêu gradient (vanishing gradient) khi chuỗi đầu vào dài khiến gradient nhỏ dần qua mỗi bước thời gian khi lan truyền ngược, khiến mô hình gần như không ghi nhớ được các ngữ cảnh quá xa về trước. Năm 1997, Sepp Hochreiter và Jürgen Schmidhuber giới thiệu kiến trúc Long Short-Term Memory (LSTM), giải quyết vấn đề này bằng cơ chế cổng (gate) kiểm soát luồng thông tin được giữ lại hay loại bỏ qua từng bước thời gian.^[9] LSTM trở thành kiến trúc nền tảng cho nhận diện giọng nói và dịch máy trong suốt hai thập kỷ sau. Năm 2014, Kyunghyun Cho và cộng sự đề xuất Gated Recurrent Unit (GRU), đơn giản hóa cơ chế cổng của LSTM từ ba xuống còn hai cổng, nhẹ hơn để huấn luyện và trong nhiều tác vụ cho kết quả tương đương.

Bước ngoặt của học sâu hiện đại gắn liền với cuộc thi ImageNet Large Scale Visual Recognition Challenge (ILSVRC) — một benchmark thường niên dùng bộ dữ liệu hơn 14 triệu ảnh có nhãn của Stanford.^[11] Năm 2012, mô hình AlexNet của Alex Krizhevsky, Ilya Sutskever và Geoffrey Hinton giành chiến thắng với tỉ lệ lỗi top-5 là 15,3%, thấp hơn đối thủ hạng hai gần 11 điểm phần trăm, một khoảng cách chưa từng thấy.^[12] AlexNet về cơ bản là LeNet được mở rộng lớn hơn nhiều, huấn luyện trên GPU và sử dụng hàm kích hoạt ReLU thay vì sigmoid, một hàm đơn giản hơn nhưng hội tụ nhanh hơn và tránh được triệt tiêu gradient. Chiến thắng này khiến toàn bộ cộng đồng nghiên cứu chuyển hướng sang CNN.

Năm 2014, nhóm của Karen Simonyan và Andrew Zisserman tại Oxford giới thiệu VGGNet, đạt tỉ lệ lỗi 7,3% và về nhì tại ILSVRC. Nhưng điểm đáng chú ý không phải là thứ hạng mà là câu hỏi kiến trúc mà kiến trúc này trả lời: mạng càng nhiều lớp thì hiệu suất có tăng không?^[13] VGGNet với 16-19 lớp, chỉ dùng các bộ lọc 3×3 nhỏ xếp chồng lên nhau, cho thấy câu trả lời dường như là có, khi thiết kế đơn giản, nhất quán của nó trở thành tham chiếu kiến trúc cho nhiều năm sau. Còn người chiến thắng năm ấy với tỉ lệ lỗi 6,7%, GoogLeNet (Inception v1) của Google đi theo hướng khác: thay vì tăng chiều sâu, nó giới thiệu module Inception cho phép mỗi lớp học song song ở nhiều kích thước bộ lọc khác nhau, giữ số tham số ở mức thấp hơn VGG nhiều lần do không sử dụng quá nhiều lớp.

Năm 2015, ResNet của Kaiming He và cộng sự tại Microsoft Research giành chiến thắng với tỉ lệ lỗi 3,57%, lần đầu tiên vượt qua ngưỡng lỗi của con người (~5%) trên tập dữ liệu này.^[15] ResNet giải quyết bài toán cốt lõi cản trở việc xây dựng mạng rất sâu: khi số lớp tăng quá nhiều, độ chính xác huấn luyện bắt đầu giảm, không phải do quá khớp mà do gradient dần biến mất qua quá nhiều lớp tương tự như vấn đề xảy ra với RNN. Đây là lý do không phải cứ thêm thật nhiều lớp ẩn cho VGGNet là có thể giải quyết mọi bài toán. Giải pháp mà ResNet đưa ra là kết nối tắt (residual connection): tín hiệu đầu vào của một khối được cộng trực tiếp vào đầu ra của khối đó, tạo ra "đường tắt" cho gradient đi qua. ResNet-152 có tới 152 lớp nhưng vẫn huấn luyện ổn định, một kỳ tích tại thời điểm đó.

TRANSFORMER

Năm 2017, nhóm nghiên cứu tại Google công bố kiến trúc Transformer trong bài báo "Attention Is All You Need", thay thế hoàn toàn cơ chế hồi quy tuần tự bằng cơ chế chú ý (attention mechanism).^[16] Thay vì xử lý chuỗi từng từ một như RNN, Transformer tính toán mối quan hệ giữa mọi cặp vị trí trong chuỗi cùng lúc, cho phép song song hóa hoàn toàn và nắm bắt các kiến thức phụ thuộc từ nhiều bước trước mà không bị triệt tiêu gradient. Transformer nhanh chóng thay thế LSTM trong xử lý ngôn ngữ tự nhiên, và là nền tảng cho toàn bộ các mô hình ngôn ngữ lớn từ GPT đến Gemini.^[17]^[18] Năm 2020, kiến trúc Vision Transformer (ViT) mở rộng cơ chế attention sang thị giác máy tính bằng cách chia ảnh thành các mảnh nhỏ và xử lý như một chuỗi, cho thấy Transformer có thể cạnh tranh và vượt qua CNN trên nhiều tác vụ nhận diện hình ảnh.