Chuyên mục
Đang trực tuyến : | 26141 |
Tổng truy cập : | 57,998 |
Khoa học kỹ thuật và công nghệ
Các nhà khoa học khám phá thời điểm AI thực sự "hiểu" ngôn ngữ (22/09/2025)
Một nghiên cứu trên tạp chí JSTAT mô tả sự thay đổi đột ngột trong chiến lược hiểu văn bản trong quá trình đào tạo mạng thần kinh.
Khả năng ngôn ngữ của các hệ thống trí tuệ nhân tạo ngày nay thật đáng kinh ngạc. Chúng ta hiện có thể tham gia vào các cuộc hội thoại tự nhiên với các hệ thống như ChatGPT, Gemini và nhiều hệ thống khác với sự trôi chảy gần như tương đương với con người. Tuy nhiên, chúng ta vẫn biết rất ít về các quá trình nội bộ trong các mạng lưới này dẫn đến những kết quả đáng chú ý như vậy.
Một nghiên cứu mới được công bố trên Tạp chí Cơ học Thống kê: Lý thuyết và Thực nghiệm (JSTAT) đã giúp giải mã một phần bí ẩn về cách thức hoạt động của mạng thần kinh. Nghiên cứu chỉ ra rằng, khi được đào tạo với lượng dữ liệu nhỏ, mạng thần kinh ban đầu dựa vào vị trí của các từ trong câu để hiểu thông tin. Tuy nhiên, khi hệ thống được tiếp xúc đủ lượng dữ liệu, nó sẽ chuyển đổi đột ngột sang một chiến lược mới: dựa trên ý nghĩa thực sự của từ. Sự thay đổi này diễn ra như một "quá trình chuyển pha" trong các hệ thống vật lý - tức là nó xảy ra rất nhanh chóng sau khi vượt qua một ngưỡng dữ liệu tới hạn nhất định. Những phát hiện này cung cấp những hiểu biết cực kỳ giá trị, giúp chúng ta hiểu rõ hơn về cách các mô hình AI phức tạp này học hỏi và xử lý ngôn ngữ.
Cũng tương tự như cách một đứa trẻ bắt đầu học đọc, một mạng thần kinh khởi đầu bằng việc hiểu các câu dựa vào vị trí của từng từ. Tùy thuộc vào việc từ đó đứng ở đâu, mạng có thể suy luận mối quan hệ giữa chúng (ví dụ: đâu là chủ ngữ, đâu là động từ, đâu là tân ngữ?). Tuy nhiên, khi quá trình đào tạo diễn ra liên tục - giống như mạng "đi học" lâu hơn - một sự thay đổi lớn sẽ xảy ra: ý nghĩa thực sự của từ sẽ trở thành nguồn thông tin chính để mạng hiểu câu.
Nghiên cứu mới giải thích rằng đây chính là cách hoạt động của một mô hình đơn giản hóa của cơ chế tự chú ý (self-attention). Đây là một thành phần cốt lõi của các mô hình ngôn ngữ biến đổi (transformer language models), những mô hình mà chúng ta sử dụng hàng ngày như ChatGPT, Gemini hay Claude. Về bản chất, Transformer là một kiến trúc mạng thần kinh được thiết kế đặc biệt để xử lý các chuỗi dữ liệu (ví dụ như văn bản). Nó tạo thành nền tảng của nhiều mô hình ngôn ngữ hiện đại. Điểm mạnh của Transformer là khả năng hiểu các mối quan hệ phức tạp trong một chuỗi thông tin và sử dụng cơ chế tự chú ý để đánh giá mức độ quan trọng của mỗi từ so với những từ còn lại trong câu.
Hugo Cui, nhà nghiên cứu bậc sau tiến sĩ tại Đại học Harvard và là tác giả chính của nghiên cứu giải thích: "Để đánh giá mối quan hệ giữa các từ, mạng này có thể sử dụng hai chiến lược, một trong số đó là khai thác vị trí của các từ. Chẳng hạng như, ở ngôn ngữ như là tiếng Anh, chủ ngữ thường đứng trước động từ, và động từ lại đứng trước tân ngữ. "Mary eats the apple" (Mary ăn trái táo) là một ví dụ đơn giản của chuỗi này. Cui cho biết: “đây là chiến lược đầu tiên tự động xuất hiện khi mạng được đào tạo. Tuy nhiên, trong nghiên cứu của chúng tôi, chúng tôi nhận thấy rằng nếu quá trình đào tạo tiếp tục và mạng nhận đủ dữ liệu, tại một thời điểm nhất định - một khi ngưỡng được vượt qua - chiến lược đột ngột thay đổi: mạng bắt đầu dựa vào ý nghĩa thay vì vị trí”. "Khi chúng tôi thiết kế công trình này, chúng tôi chỉ đơn giản muốn nghiên cứu xem các mạng sẽ áp dụng những chiến lược nào, hoặc có sự kết hợp của các chiến lược nào. Nhưng những gì chúng tôi tìm thấy có phần đáng ngạc nhiên: dưới một ngưỡng nhất định, mạng chỉ dựa vào vị trí, trong khi trên ngưỡng đó, chỉ dựa vào ý nghĩa".
Cui ví sự thay đổi này như một sự chuyển pha (giống khái niệm của vật lý). Trong vật lý thống kê, người ta nghiên cứu các hệ thống với vô số hạt nhỏ (như nguyên tử, phân tử) để hiểu hành vi chung của chúng. Tương tự, mạng thần kinh - nền tảng của các hệ thống AI hiện đại - cũng bao gồm rất nhiều "nút" hay "tế bào thần kinh" (được đặt tên theo cách hoạt động của não người). Mỗi nút này kết nối với nhiều nút khác và thực hiện các phép tính đơn giản. Trí thông minh của hệ thống AI chính là kết quả của sự tương tác giữa các tế bào thần kinh này, một hiện tượng có thể được phân tích bằng các phương pháp thống kê. Đây là lý do tại sao chúng ta có thể nói về sự thay đổi đột ngột trong hành vi mạng như một sự chuyển pha, tương tự như cách mà nước, trong những điều kiện nhiệt độ và áp suất nhất định, thay đổi từ chất lỏng sang chất khí.
Cui nhấn mạnh, “mặc dù các mạng của chúng tôi được đơn giản hóa so với các mô hình phức tạp mà mọi người sử dụng hàng ngày, nhưng chúng có thể gợi ý cho chúng ta cách để bắt đầu hiểu được các điều kiện giúp một mô hình ổn định với chiến lược học tập này hay chiến lược khác. Hy vọng rằng, kiến thức lý thuyết này trong tương lai có thể được ứng dụng để làm cho việc sử dụng mạng thần kinh trở nên hiệu quả và an toàn hơn".
Nghiên cứu của Hugo Cui, Freya Behrens, Florent Krzakala và Lenka Zdeborová đã được xuất bản trên JSTAT trong số đặc biệt về Machine Learning 2025 và được đưa vào kỷ yếu của hội nghị NeurIPS 2024./.
P.T.T (NASTIS), theo https://www.sciencedaily.com/releases/, 2025
Ngày cập nhật: 11/09/2025
https://www.vista.gov.vn/vi/news/khoa-hoc-ky-thuat-va-cong-nghe/cac-nha-khoa-hoc-kham-pha-thoi-diem-ai-thuc-su-hieu-ngon-ngu-11891.html
- Trung Quốc triển khai robot mới nhiều gấp 10 lần Mỹ (07/10/2025)
- Phương pháp mới giúp laser perovskite đạt hiệu suất kỷ lục (29/09/2025)
- Đột phá bán dẫn: Trung Quốc chế tạo wafer InSe 2D vượt trội hơn silicon (15/09/2025)
- Các nhà khoa học đã tạo ra được vật liệu siêu bền mới vượt trội hơn cả kim loại và... (08/09/2025)
- Tấn công đầu độc dữ liệu: mối đe dọa đối với tính toàn vẹn của hệ thống AI (03/09/2025)