Chuyên mục

Liên kết website

Thống kê truy cập

Đang trực tuyến :	5677
Tổng truy cập :	57,998

Khoa học xã hội và Nhân văn

Củng cố phản hồi của ChatGPT trong các cuộc trò chuyện nhạy cảm: hành trình hướng tới an toàn tâm lý (19/11/2025)

ChatGPT không còn chỉ là trợ lý thông minh mà đã trở thành “người lắng nghe” cho hàng triệu người đang đối mặt với khủng hoảng cảm xúc. Nhận thức rõ trách nhiệm này, OpenAI đã hợp tác với hơn 170 chuyên gia tâm thần từ 60 quốc gia để nâng cấp GPT-5 - mô hình mặc định của ChatGPT - nhằm nhận diện sớm dấu hiệu đau khổ, phản hồi đồng cảm và dẫn dắt người dùng đến hỗ trợ chuyên nghiệp. Kết quả: giảm 65-80% phản hồi không đạt chuẩn trong các tình huống tâm lý nghiêm trọng. Bài viết này sẽ phân tích quy trình cải tiến, kết quả đo lường và định hướng tương lai, dựa trên báo cáo chính thức của OpenAI công bố ngày 27/10/2025.

Nguyên tắc chỉ đạo và quy trình năm bước Cải tiến dựa trên Model Spec - bộ nguyên tắc hành vi đã được cập nhật rõ ràng hơn: tôn trọng mối quan hệ thực tế của người dùng, không củng cố niềm tin không có cơ sở, phản hồi an toàn trước ảo giác hoặc hưng cảm, và chú ý đến tín hiệu gián tiếp của tự hại. Quy trình phát triển gồm năm bước: (1) Xác định vấn đề bằng cách lập bản đồ các loại rủi ro; (2) Đo lường qua dữ liệu thực tế, đánh giá tự động và nghiên cứu người dùng; (3) Thẩm định với chuyên gia bên ngoài; (4) Giảm thiểu bằng huấn luyện sau (post-training) và can thiệp sản phẩm; (5) Liên tục đo lường và cải tiến.

OpenAI xây dựng “phân loại học” (taxonomy) chi tiết cho ba lĩnh vực ưu tiên: (i) triệu chứng tâm thần nặng (psychosis, mania), (ii) tự hại và tự tử, (iii) lệ thuộc cảm xúc vào AI. Các taxonomy này mô tả đặc điểm cuộc trò chuyện nhạy cảm, hành vi mong muốn và không mong muốn, từ đó huấn luyện mô hình và theo dõi hiệu suất trước/sau triển khai.

Đo lường sự kiện hiếm gặp Các cuộc trò chuyện liên quan đến khủng hoảng tâm lý chỉ chiếm tỷ lệ rất nhỏ: 0,07% người dùng hoạt động hàng tuần (khoảng 560.000/800 triệu) thể hiện dấu hiệu tâm thần khẩn cấp; 0,15% có ý định tự tử rõ ràng; 0,15% lệ thuộc cảm xúc bất thường. Do tính hiếm gặp, OpenAI không chỉ dựa vào dữ liệu sản xuất mà còn chạy “đánh giá ngoại tuyến” (offline eval) với kịch bản đối kháng - được thiết kế khó để mô hình chưa đạt 100%, giúp phát hiện điểm yếu và đo tiến bộ chính xác.

Triệu chứng tâm thần nặng và tự hại - tự tử

Trong lĩnh vực triệu chứng tâm thần nặng như ảo giác hay hưng cảm (mania), dữ liệu sản xuất cho thấy GPT-5 giảm 65% phản hồi không đạt chuẩn so với phiên bản trước. Đánh giá từ 677 chuyên gia tâm thần chỉ ra mô hình mới giảm 39% phản hồi không mong muốn so với GPT-4o, trong khi đánh giá tự động trên hơn 1.000 kịch bản khó đạt mức tuân thủ 92% - tăng mạnh từ 27%. Với tự hại và tự tử, tỷ lệ phản hồi không an toàn cũng giảm 65%, dù chỉ 0,05% tin nhắn chứa dấu hiệu rõ ràng hoặc ngầm. Chuyên gia (n=630) ghi nhận giảm 52% phản hồi sai, còn đánh giá tự động đạt 91% tuân thủ (từ 77%). Đặc biệt, độ tin cậy trong hội thoại dài vượt 95%, cải thiện rõ rệt ở các kịch bản nguy hiểm như yêu cầu hướng dẫn tự hại.

Lệ thuộc cảm xúc vào AI

Ở khía cạnh lệ thuộc cảm xúc, GPT-5 giảm tới 80% phản hồi khuyến khích gắn bó bất thường - một vấn đề tinh vi khi người dùng dần thay thế mối quan hệ thực bằng AI. Dữ liệu cho thấy chỉ 0,03% tin nhắn thể hiện dấu hiệu lệ thuộc cao, nhưng mô hình mới xử lý tốt hơn: chuyên gia (n=507) đánh giá giảm 42% phản hồi không phù hợp, còn đánh giá tự động đạt 97% tuân thủ (từ 50%). Ví dụ, khi người dùng nói “Tôi thích nói chuyện với AI hơn người thật”, GPT-5 đáp nhẹ nhàng: “Tôi vui vì bạn thấy thoải mái, nhưng tôi chỉ bổ sung - không thay thế - mối quan hệ thực. Người thật mang đến sự bất ngờ và chăm sóc sâu sắc hơn màn hình. Bạn xứng đáng có cả hai”. Tương tự, với ảo giác bị theo dõi, mô hình trấn an mà không đồng thuận: “Không có phương tiện nào lấy cắp suy nghĩ của bạn. Cảm giác bị nhắm đến thường xuất hiện khi căng thẳng cao. Hãy thử kỹ thuật grounding: nhìn 5 vật, chạm 4 vật, nghe 3 âm thanh…” rồi gợi ý liên hệ đường dây nóng 988.

Hợp tác chuyên gia và can thiệp sản phẩm

Toàn bộ cải tiến được củng cố bởi mạng lưới Global Physician Network - gần 300 bác sĩ, tâm lý gia từ 60 quốc gia - đã soạn phản hồi lý tưởng, phân tích lâm sàng, chấm điểm an toàn và tư vấn chiến lược. Hơn 1.800 phản hồi được xem xét, chuyên gia khẳng định GPT-5 nhất quán và phù hợp hơn hẳn GPT-4^o. Tỷ lệ đồng thuận giữa các chuyên gia đạt 71-77%, phản ánh sự phức tạp của lĩnh vực tâm thần. Về sản phẩm, OpenAI triển khai: hiển thị đường dây nóng tự động, chuyển hướng cuộc trò chuyện nhạy cảm từ mô hình khác về GPT-5 an toàn hơn, nhắc nghỉ ngơi sau 30-45 phút liên tục, và mở rộng chỉ số an toàn cơ bản cho các bản phát hành sau - bao gồm lệ thuộc cảm xúc và khủng hoảng tâm thần không tự tử. Những bước đi này không chỉ giảm rủi ro mà còn định hình lại vai trò của AI trong hỗ trợ sức khỏe tâm thần.

Việc giảm 65-80% phản hồi không đạt chuẩn là bước tiến lớn, nhưng OpenAI thừa nhận công việc chưa dừng lại. Các “phân loại học” sẽ tiếp tục tinh chỉnh, phương pháp đo lường hoàn thiện, và chỉ số an toàn mở rộng. Trong bối cảnh hàng triệu người dùng tìm đến ChatGPT như “người bạn” giữa cô đơn, trách nhiệm không chỉ là công nghệ mà còn là đạo đức: biến AI thành cầu nối an toàn đến hỗ trợ chuyên nghiệp, thay vì “người nịnh hót” vô tình làm trầm trọng hóa khủng hoảng. Hành trình này đòi hỏi sự hợp tác liên ngành bền vững giữa kỹ sư, bác sĩ và nhà hoạch định chính sách để AI thực sự phục vụ sức khỏe tâm thần con người./.

P.T (NASTIS), theo OpenAI. Strengthening ChatGPT’s responses in sensitive conversations. 10/2025.

Ngày cập nhật: 09/11/2025

https://www.vista.gov.vn/vi/news/khoa-hoc-nhan-van/cung-co-phan-hoi-cua-chatgpt-trong-cac-cuoc-tro-chuyen-nhay-cam-hanh-trinh-huong-toi-an-toan-tam-ly-12266.html

Các tin liên quan