Việc giải trình tự gen virus SARS-CoV-2 đóng vai trò quan trọng trong việc theo dõi sự tiến hóa và lây lan của virus. Viện Công nghệ Sinh học (CNSH) đã phối hợp với Viện Pasteur TP.HCM và Viện Vệ sinh Dịch tễ Trung ương Hà Nội (NIHE) để xây dựng quy trình kỹ thuật giải trình tự toàn bộ hệ gen virus SARS-CoV-2 bằng công nghệ giải trình tự đoạn dài PacBio, tập trung vào quá trình Sự Tổng Hợp Arn được Thực Hiện.
Quy trình giải trình tự hệ gen virus ARN bao gồm các bước chính:
- Nuôi cấy và tách chiết ARN virus.
- Tổng hợp cDNA sợi đôi từ ARN virus. Hai bước này được thực hiện tại Viện Pasteur TP.HCM và NIHE trong điều kiện phòng sạch an toàn sinh học cấp III.
- Chuẩn bị thư viện DNA để giải trình tự gen.
- Giải trình tự toàn bộ hệ gen virus SARS-CoV-2.
- Lắp ráp de novo hệ gen virus.
- Chú giải và phân tích hệ gen virus.
Bốn bước sau được thực hiện tại Viện CNSH, với thời gian thực hiện khoảng 48 giờ. Điểm nhấn quan trọng là sự tổng hợp ARN được thực hiện ở bước 2, tạo tiền đề cho các bước giải trình tự tiếp theo.
Đề tài đã giải trình tự toàn bộ hệ gen của bốn chủng virus SARS-CoV-2, với chiều dài trên 29500 nucleotide/hệ gen, và chú giải thành công 14 ORF của virus. Hệ gen được lắp ráp thành một contig, không có lỗi đọc hay đoạn trống, và chất lượng giải trình tự đạt Q40 (độ chính xác 99,99%).
Kết quả phân tích cho thấy chủng virus phân lập bởi Viện Pasteur TP.HCM chứa 10 đột biến liên quan đến các gen mã hóa Nsp2, Nsp3, RNA primase, helicase, protein S, và protein N. Ba mẫu virus còn lại do NIHE cung cấp đều có nguồn gốc từ ổ dịch Bệnh viện Bạch Mai, chứa 5 đột biến giống nhau, và một chủng chứa 6 đột biến liên quan đến các gen mã hóa protein Nsp3, RNA primase, protein S và N. Cả bốn chủng virus đều chứa đột biến D614G ở protein S.
Hệ gen bốn chủng virus do Viện CNSH giải trình tự được phân tích so sánh với trình tự các mẫu virus do các đơn vị khác thực hiện. Phân tích dựa trên các trình tự đã được đưa lên cơ sở dữ liệu GISAID cho thấy sự phân biệt rõ rệt của các chủng theo thời gian và địa điểm, cũng như sự có mặt của 6 nhóm phân loại GISAID tại Việt Nam trong năm 2020.
Cây phát sinh chủng loại SARS-CoV-2 tại Việt Nam (1/4/2021), thể hiện sự đa dạng di truyền và các dòng virus xâm nhập, với điểm nhấn là sự tổng hợp ARN được thực hiện để giải trình tự các chủng virus (đóng khung đỏ) so với chuẩn tham chiếu NCBI.
Phân bố của các nhóm virus tại Việt Nam chịu ảnh hưởng lớn của các chủng virus lưu hành trên thế giới. Các chủng được giải trình tự trong nghiên cứu này có những biến đổi giống với các chủng có nguồn gốc châu Âu và Mỹ, lưu hành từ tháng 3/2020. Kết quả phân tích cũng cho thấy chủng do viện Pasteur TPHCM cung cấp nằm trong nhóm GH, còn ba chủng mà viện NIHE cung cấp nằm trong ổ dịch Bạch Mai thuộc nhóm GR.
Kết quả so sánh trình tự hệ gen của các chủng virus lưu hành ở Việt Nam cho đến 1/4/2021 cho thấy sự xuất hiện của đủ 8 nhóm (clade) virus SARS-CoV-2 theo phân loại của GISAID với hàng chục biến thể khác nhau.
Việc ứng dụng thành công kỹ thuật giải trình tự hệ gen đoạn dài của PacBio mở ra khả năng giải trình tự hệ gen virus nhanh, chính xác mà không cần dựa vào trình tự gen tham chiếu quốc tế. Điều này cho phép giải trình tự những đối tượng virus gây bệnh mới trong tương lai, góp phần xác định nguồn gốc virus và số lượng nguồn lây trong các ổ dịch, cung cấp cơ sở khoa học cho việc xây dựng chiến lược phòng chống dịch bệnh hiệu quả. Quá trình này đặc biệt quan trọng trong việc nghiên cứu và theo dõi sự tổng hợp ARN được thực hiện của virus, từ đó hiểu rõ hơn về cơ chế lây lan và biến đổi của chúng.