Liên kết website
Thống kê truy cập
Đang trực tuyến : 24222
Tổng truy cập : 57,998

Khoa học - Y dược

Công cụ AI mới khám phá sâu "bí ẩn" của bộ gen người (04/09/2025)

Các protein đóng vai trò quan trọng trong việc duy trì sự sống, đảm nhiệm nhiều chức năng cấu trúc và hoạt động khắp cơ thể. Tuy nhiên, những phân tử lớn này đã “che khuất” một phân lớp protein nhỏ hơn gọi là microprotein.

 

Microprotein bị ẩn trong 99% ADN "không mã hóa" và trong những vùng gen rộng lớn, chưa được khám phá cho nên chúng thường bị bỏ qua. Nhưng dù nhỏ bé và khó nắm bắt, tác động của chúng có thể lớn ngang với các protein lớn.

Các nhà khoa học tại Viện Salk hiện sử dụng một công cụ mới mang tên ShortStop để khám phá sâu những bí ẩn của bộ gen và để tìm kiếm microprotein. Với công cụ này, các nhà nghiên cứu có thể phân tích cơ sở dữ liệu di truyền và xác định các đoạn ADN trong bộ gen có khả năng mã hóa microprotein.

ShortStop đang thực sự chiếu một luồng sáng mới vào các bộ dữ liệu hiện có, làm nổi bật những microprotein mà trước đây không thể tìm thấy. Nhóm nghiên cứu tại Viện Salk đã sử dụng công cụ này để phân tích một bộ dữ liệu về ung thư phổi và đã phát hiện ra 210 ứng cử viên microprotein hoàn toàn mới. Đặc biệt, một microprotein nổi bật đã được xác thực, và nó có thể trở thành mục tiêu điều trị tiềm năng trong tương lai.Những phát hiện này đã được công bố trên tạp chí BMC Methods.

Giáo sư Alan Saghatelian, tác giả cao cấp của nghiên cứu tại Salk, chia sẻ: "Hầu hết các protein trong cơ thể chúng ta đều đã được biết đến, nhưng những khám phá gần đây cho thấy chúng ta đã bỏ lỡ hàng ngàn protein nhỏ, ẩn giấu - được gọi là microprotein - được mã hóa bởi các vùng bị bỏ qua trong bộ gen của chúng ta".

Ông nói thêm rằng: "Trong một thời gian dài, các nhà khoa học chỉ thực sự nghiên cứu các vùng  mã hóa protein lớn và bỏ qua phần còn lại là 'DNA rác' ('junk ADN), nhưng giờ đây chúng ta đang hiểu rằng những vùng khác này thực sự rất quan trọng, và các microprotein mà chúng tạo ra có thể đóng vai trò then chốt trong việc điều hòa sức khỏe và bệnh tật".

Tìm hiểu thêm về microprotein

Rất khó để phát hiện và lập danh mục microprotein, chủ yếu là do kích thước của chúng. So với các protein tiêu chuẩn có thể dài từ hàng trăm đến hàng ngàn axit amin, microprotein thường chứa ít hơn 150 axit amin, khiến chúng khó phát hiện hơn bằng các phương pháp phân tích protein tiêu chuẩn.Do đó, thay vì tìm kiếm chính microprotein, các nhà khoa học tìm kiếm các trình tự ADN tạo ra chúng trong các bộ dữ liệu lớn có sẵn công khai.

Các nhà khoa học hiện đã biết rằng một số đoạn DNA nhất định được gọi là khung đọc mở nhỏ (smORFs) có thể chứa các hướng dẫn để tạo ra microprotein. Các phương pháp thử nghiệm hiện tại đã lập danh mục hàng ngàn smORF, nhưng các công cụ này vẫn tốn thời gian và đắt đỏ. Hơn nữa, việc không thể phân tách các microprotein tiềm năng chức năng khỏi các microprotein không chức năng đã cản trở việc khám phá và xác định đặc tính của chúng.

Cách ShortStop hoạt động

Không phải tất cả smORF đều dịch mã thành các microprotein có ý nghĩa sinh học. Các phương pháp hiện có không thể phân biệt giữa các smORF tạo sinh microprotein chức năng và không chức năng. Điều này có nghĩa là các nhà khoa học phải tự mình kiểm tra từng microprotein để xác định xem nó có chức năng hay không.

ShortStop thay đổi triệt để quy trình làm việc này, tối ưu hóa việc khám phá smORF bằng cách phân loại microprotein thành các loại chức năng và không chức năng. Chìa khóa cho việc phân loại hai lớp của ShortStop là cách nó được huấn luyện như một hệ thống học máy.

Quá trình huấn luyện của nó dựa trên một tập dữ liệu kiểm soát âm tính gồm các smORF ngẫu nhiên được tạo bằng máy tính. ShortStop so sánh các smORF tìm thấy với các "mồi nhử" này để nhanh chóng quyết định liệu một smORF mới có khả năng chức năng hay không chức năng.

ShortStop không thể khẳng định chắc chắn liệu một smORF có mã hóa cho một microprotein có liên quan đến sinh học hay không, nhưng hệ thống hai lớp này giảm đáng kể số lượng thí nghiệm. Giờ đây, các nhà nghiên cứu có thể dành ít thời gian hơn để phân loại thủ công các bộ dữ liệu và tránh thất bại trong phòng thí nghiệm.

Khi các nhà nghiên cứu áp dụng ShortStop vào một bộ dữ liệu smORF đã được công bố trước đó, họ đã xác định được 8% là microprotein có khả năng chức năng, ưu tiên chúng để theo dõi mục tiêu. Điều này tăng tốc việc xác định đặc tính microprotein bằng cách lọc ra các trình tự không có khả năng liên quan đến sinh học. ShortStop cũng có thể xác định các microprotein đã bị bỏ qua bởi các phương pháp khác, bao gồm một microprotein đã được xác nhận bằng cách được phát hiện trong các tế bào và mô người.

Brendan Miller, nhà nghiên cứu sau tiến sĩ tại phòng thí nghiệm của Saghatelian và là tác giả chính, cho biết: "Điều khiến ShortStop đặc biệt mạnh mẽ là nó hoạt động với các loại dữ liệu phổ biến, như bộ dữ liệu giải trình tự RNA, mà nhiều phòng thí nghiệm đã sử dụng. Điều này có nghĩa là giờ đây chúng ta có thể tìm kiếm microprotein trên các mô khỏe mạnh và bị bệnh ở quy mô lớn, nó sẽ tiết lộ những hiểu biết mới về sinh học con người và mở ra những con đường mới để chẩn đoán và điều trị các bệnh, như ung thư và bệnh Alzheimer".

ShortStop phát hiện microprotein liên quan đến ung thư phổi

Các nhà nghiên cứu đã sử dụng ShortStop để xác định một microprotein được biểu hiện tăng cao trong các khối u ung thư phổi. Họ đã phân tích dữ liệu di truyền từ các khối u phổi người và mô bình thường liền kề để tạo ra danh sách các smORF chức năng tiềm năng. Trong số các smORF mà ShortStop tìm thấy, có một smORF nổi bật – nó được biểu hiện nhiều hơn trong mô khối u so với mô bình thường, cho thấy nó có thể đóng vai trò là dấu ấn sinh học hoặc microprotein chức năng cho ung thư phổi. Việc xác định microprotein liên quan đến ung thư phổi này chứng tỏ giá trị của ShortStop và học máy trong việc ưu tiên các ứng viên cho nghiên cứu và phát triển liệu pháp trong tương lai.

"Có rất nhiều dữ liệu đã tồn tại mà giờ đây chúng ta có thể xử lý bằng ShortStop để tìm ra các microprotein mới liên quan đến sức khỏe và bệnh tật, từ bệnh Alzheimer đến béo phì và hơn thế nữa. Nhóm của tôi rất giỏi trong việc tạo ra các phương pháp, và với dữ liệu từ các thành viên khác trong khoa Salk, chúng tôi có thể tích hợp các phương pháp này và đẩy nhanh khoa học”, Saghatelian nói./.

P.T.T (NASTIS), theo https://phys.org/news/, 2025

Ngày cập nhật:28/08/2025

https://www.vista.gov.vn/vi/news/khoa-hoc-y-duoc/cong-cu-ai-moi-kham-pha-sau-bi-an-cua-bo-gen-nguoi-11811.html