'ChatGPT phiên bản Việt' và câu chuyện của người tiên phong

Lam Giang Thứ năm, 28/12/2023 - 11:08

Chỉ 9 tháng sau khi ChatGPT ra mắt, đội ngũ kỹ sư VinBigdata (Tập đoàn Vingroup) đã làm chủ hoàn toàn mô hình ngôn ngữ lớn tiếng Việt và chính thức giới thiệu ViGPT - ChatGPT phiên bản Việt đầu tiên dành cho người dùng cuối vào tháng 12/2023. Sản phẩm nhanh chóng gây được tiếng vang trong cộng đồng khoa học công nghệ Việt Nam.

Vào cuối năm 2022, ChatGPT tạo nên một “cú nổ lớn”, mở ra cuộc đua chinh phục AI tạo sinh giữa các các quốc gia và ông lớn trong lĩnh vực công nghệ. Giới công nghệ Việt khi ấy cũng sục sôi mong muốn phát triển những sản phẩm của riêng người Việt để tự chủ về công nghệ, giảm thiểu sự phụ thuộc vào các sản phẩm quốc tế. Tuy nhiên, không phải đơn vị nào cũng đủ khả năng và quyết tâm hiện thực hóa mong muốn ấy như VinBigdata.

“AI tạo sinh là một bài toán khó. Các ông lớn như OpenAI hay Google cũng phải đổ rất nhiều nguồn lực và thời gian vào nghiên cứu mới có thể tạo ra những sản phẩm như chúng ta thấy. Các sản phẩm này đã rất tốt, nhưng thật ra các nhà khoa học cũng vẫn chưa hoàn toàn hiểu cơ cấu hoạt động của nó. Khi nào nó có lỗi, và lỗi sẽ như thế nào ít ai đoán trước được. 

Để phát triển một sản phẩm tương tự ChatGPT dành cho người Việt, trong thời gian ngắn chưa tới một năm, thì rất nhiều thử thách. Nhưng chúng tôi đã lựa chọn "liều" vì một phiên bản ChatGPT tiếng Việt nếu không phải người Việt làm thì ai làm”, GS. Vũ Hà Văn, Giám đốc khoa học VinBigdata cho biết.

'ChatGPT phiên bản Việt' và câu chuyện của người tiên phong
GS. Vũ Hà Văn (Giám đốc Khoa học VinBigdata) chia sẻ: phát triển ViGPT là một lựa chọn liều lĩnh, song cần thiết để giải quyết bài toán đặc trưng của người Việt.

Thực tế, rất ít công ty lựa chọn xây dựng mô hình ngôn ngữ lớn của riêng mình từ đầu. Như GPT 3 của OpenAI có 175 tỷ tham số và được đào tạo trên bộ dữ liệu 45 terabyte và tiêu tốn 4,6 triệu USD. Thậm chí, theo tính toán, số tiền để phát triển GPT 4 có thể lên tới 100 triệu USD. “Với những con số khổng lồ như thế, rất khó để tìm được một công ty nào đủ sức đầu tư cho công nghệ này”, TS. Nguyễn Kim Anh, Giám đốc sản phẩm VinBigdata nói.

Để các doanh nghiệp Việt Nam có thể tiếp cận với công nghệ AI thế hệ mới, với chi phí và hạ tầng tối ưu, VinBigdata lựa chọn một hướng đi hoàn toàn khác biệt, đó là tạo ra một mô hình ngôn ngữ chỉ với 1,6 tỷ tham số, nhưng có khả năng tương đương với những mô hình ngôn ngữ lớn có nhiều tỷ tham số.

'ChatGPT phiên bản Việt' và câu chuyện của người tiên phong 1
Đội ngũ VinBigdata kỳ vọng tạo ra một “trợ lý ảo thông minh” có khả năng hiểu và đưa ra câu trả lời theo ngữ cảnh của người Việt.

“Kết quả cho thấy, với kiến trúc do chính VinBigdata tự phát triển hoàn toàn có thể tối ưu và đẩy nhanh quá trình huấn luyện mô hình ngôn ngữ, giảm chi phí hạ tầng (bao gồm chi phí huấn luyện và chi phí sử dụng), nhưng vẫn đảm bảo chất lượng của mô hình”, TS. Nguyễn Kim Anh cho biết thêm.

Sau khi giải quyết bài toán về kích thước mô hình ngôn ngữ lớn, trong quá trình “thai nghén” ViGPT, sau khi nghiên cứu các mô hình của nước ngoài, đội ngũ VinBigdata còn nhận ra một thử thách khác là “tính ảo giác”, đến từ bản chất cố hữu của mô hình xác suất thống kê.

Theo đó, các mô hình ngôn ngữ lớn trên thế giới thường được huấn luyện bằng các nguồn dữ liệu tiếng Anh. Do đó, mô hình này chưa thực sự hiểu và phản ứng đúng với ngữ cảnh và văn hóa của người Việt. Điều này dẫn đến tình trạng ảo giác (hallucination) khiến mô hình ngôn ngữ lớn “bịa đặt” ra câu trả lời không chính xác.

Để tìm ra lời giải tối ưu trong thời gian ngắn nhất, đội ngũ xử lý ngôn ngữ tự nhiên (NLP) của VinBigdata được chia thành các nhóm nhỏ, cùng phân tích, bàn bạc các ý tưởng khác nhau để tìm hướng đi cuối cùng phù hợp nhất.

“Sau cùng, chúng tôi quyết định phát triển kiến trúc khác so với phần lớn mô hình ngôn ngữ lớn hiện tại, đồng thời tiến hành đào tạo trên bộ 600GB dữ liệu tiếng Việt tinh chỉnh, nhằm tạo ra một “trợ lý ảo thông minh” có khả năng hiểu và đưa ra câu trả lời theo ngữ cảnh của người Việt”, TS. Nguyễn Kim Anh nói thêm.

Khát vọng một hệ sinh thái công nghệ Việt

Theo kết quả đánh giá từ bộ tiêu chuẩn đánh giá năng lực tiếng Việt (VMLU) ViGPT đạt điểm trung bình là 42,24%, đứng thứ hai chỉ sau ChatGPT (48,54%). Kết quả này cho phép ViGPT tìm kiếm thông tin, giải đáp câu hỏi về các chủ đề đặc trưng, đặc thù của Việt Nam một cách nhanh chóng.

Bên cạnh năng lực của trợ lý ảo, điều đội ngũ phát triển mong muốn là tích hợp ViGPT vào các sản phẩm gần gũi, sử dụng hàng ngày, nhằm tạo ra sự thay đổi trong cuộc sống của người Việt. Đó chính là động lực thôi thúc đội ngũ VinBigdata xây dựng một hệ sinh thái các sản phẩm ngôn ngữ và tiếng nói ứng dụng ViGPT - hệ sinh thái “Vi” bao gồm: ViChat, ViVoice, trợ lý ảo ViVi. Các sản phẩm này có thể sử dụng cho đa ngành nghề, từ công nghiệp ô tô, ngân hàng - tài chính, bảo hiểm đến giao thông vận tải và nhiều lĩnh vực khác.

'ChatGPT phiên bản Việt' và câu chuyện của người tiên phong 2
ViGPT sẽ được tích hợp vào nền tảng VinBase 2.0, với các giải pháp ứng dụng AI tạo sinh và hệ tri thức đa ngành nghề, nhằm tăng tốc số hóa doanh nghiệp.

“Khi làm công nghệ, nhất là AI, chúng tôi không chỉ muốn chinh phục những hệ thống hay, phức tạp mà khó nhìn thấy. Chúng tôi muốn tạo ra những sản phẩm hữu hình, có tính ứng dụng cao, mà ở đó, AI là tác nhân trực tiếp tạo ra những thay đổi trong cuộc sống”, Giám đốc sản phẩm VinBigdata khẳng định.

Do đó, phát triển thành công ViGPT mới chỉ là bước đầu tiên trong hành trình đưa công nghệ và dữ liệu “thuần Việt” phục vụ cuộc sống của hàng triệu người dân Việt Nam. Đại diện VinBigdata cho biết, đơn vị này đặt mục tiêu tích hợp ViGPT vào nền tảng trí tuệ nhân tạo đa nhận thức VinBase 2.0, nhằm cung cấp các giải pháp vượt trội cho hệ thống tổ chức, doanh nghiệp ở đa dạng quy mô, ngành nghề.

Trước ViGPT, đội ngũ chuyên gia, kỹ sư trong lĩnh vực công nghệ xử lý ngôn ngữ và tiếng nói VinBigdata đã ghi dấu ấn với việc cho ra mắt ViVi - trợ lý ảo tiếng Việt toàn diện đầu tiên (được ứng dụng và triển khai trên các dòng ô tô điện VinFast, ứng dụng cư dân Vinhomes Resident và sàn thương mại điện tử Vinhomes Online), đồng thời, làm chủ hoàn toàn những công nghệ tiên tiến nhất trên thế giới như Sinh trắc học giọng nói (Voice Biometrics) hay Nhân bản giọng nói (Voice Cloning).

Tất cả những công nghệ này đều được phát triển dựa trên cơ sở dữ liệu 3.500 terabyte, tập trung chủ yếu vào dữ liệu đặc thù của người Việt, do VinBigdata thu thập, phân tích và tinh chỉnh. Mục tiêu sau cùng là làm sao mang công nghệ thế giới, chạm tới cuộc sống Việt, bằng chính dữ liệu và hệ tri thức của người Việt.

ViGPT là “ChatGPT phiên bản Việt" đầu tiên dành cho người dùng cuối được xây dựng dựa trên mô hình ngôn ngữ lớn tiếng Việt (LLM) do VinBigdata phát triển. ViGPT sở hữu những tính năng vượt trội và thiết kế phù hợp nhất với nhu cầu sử dụng của người Việt như sáng tạo nội dung, tìm kiếm thông tin, giải đáp các câu hỏi thường thức mang đặc trưng của Việt Nam. Đăng ký và trải nghiệm ViGPT tại: vigpt.vinbigdata.com

VinBigdata phát triển thành công công nghệ AI tạo sinh

VinBigdata phát triển thành công công nghệ AI tạo sinh

Tiêu điểm -  2 năm
Công ty cổ phần VinBigdata (Tập đoàn Vingroup) ngày 21/8 đã công bố xây dựng thành công mô hình ngôn ngữ lớn tiếng Việt, đặt nền móng cho việc xây dựng các giải pháp tích hợp AI tạo sinh. Sự kiện không chỉ đưa VinBigdata trở thành đơn vị đầu tiên tại Việt Nam làm chủ công nghệ AI tạo sinh mà còn đánh dấu cho những bước phát triển đầu tiên của một “ChatGPT phiên bản Việt”.
VinBigdata phát triển thành công công nghệ AI tạo sinh

VinBigdata phát triển thành công công nghệ AI tạo sinh

Tiêu điểm -  2 năm
Công ty cổ phần VinBigdata (Tập đoàn Vingroup) ngày 21/8 đã công bố xây dựng thành công mô hình ngôn ngữ lớn tiếng Việt, đặt nền móng cho việc xây dựng các giải pháp tích hợp AI tạo sinh. Sự kiện không chỉ đưa VinBigdata trở thành đơn vị đầu tiên tại Việt Nam làm chủ công nghệ AI tạo sinh mà còn đánh dấu cho những bước phát triển đầu tiên của một “ChatGPT phiên bản Việt”.
VinBigdata phát triển thành công công nghệ AI tạo sinh

VinBigdata phát triển thành công công nghệ AI tạo sinh

Tiêu điểm -  2 năm

Công ty cổ phần VinBigdata (Tập đoàn Vingroup) ngày 21/8 đã công bố xây dựng thành công mô hình ngôn ngữ lớn tiếng Việt, đặt nền móng cho việc xây dựng các giải pháp tích hợp AI tạo sinh. Sự kiện không chỉ đưa VinBigdata trở thành đơn vị đầu tiên tại Việt Nam làm chủ công nghệ AI tạo sinh mà còn đánh dấu cho những bước phát triển đầu tiên của một “ChatGPT phiên bản Việt”.

VinBigData ra mắt nền tảng trí tuệ nhân tạo đa nhận thức VinBase

VinBigData ra mắt nền tảng trí tuệ nhân tạo đa nhận thức VinBase

Tiêu điểm -  2 năm

Công ty cổ phần VinBigData (thuộc Tập đoàn Vingroup) vừa ra mắt nền tảng Trí tuệ nhân tạo đa nhận thức toàn diện VinBase, hỗ trợ doanh nghiệp Việt ứng dụng các giải pháp AI và Big Data vào hoạt động sản xuất kinh doanh. Đây là một trong những nền tảng tiên phong tại Việt Nam đưa Trợ lý ảo tới gần hơn với các doanh nghiệp, giúp nâng cao chất lượng dịch vụ và mang đến trải nghiệm tốt hơn cho khách hàng.

[Video] Xe điện tự hành cấp độ 4 do VinBigData phát triển

[Video] Xe điện tự hành cấp độ 4 do VinBigData phát triển

Video -  4 năm

Sau khi nghiên cứu và phát triển, Viện Nghiên cứu dữ liệu lớn VinBigdata (thuộc Tập đoàn Vingroup) đang vận hành thử nghiệm giải pháp xe điện tự hành cấp độ 4 trên đảo Hòn Tre (Nha Trang). Dòng xe này áp dụng công nghệ trí tuệ nhân tạo, kết hợp dữ liệu giữa 2 lidar và 6 camera góc rộng 102 độ để nhận diện vật cản trên đường như người đi bộ, phương tiện, biển báo với độ chính xác cao. Vận tốc trung bình đạt 20 – 25km/h, vận tốc tối đa đạt 30km/h. Đây là vận tốc vượt trội dành cho xe điện chở khác

Mục tiêu tăng trưởng hai con số của Việt Nam: Có nền tảng, dư địa và khả thi

Mục tiêu tăng trưởng hai con số của Việt Nam: Có nền tảng, dư địa và khả thi

Tiêu điểm -  7 giờ

Thủ tướng Phạm Minh Chính khẳng định, kinh tế Việt Nam đã cho thấy đủ sức chống chịu với các cú sốc từ bên ngoài, mục tiêu tăng trưởng hai con số của Việt Nam là có nền tảng, có dư địa và khả thi.

Chấp thuận chủ trương đầu tư cảng hàng không Phan Thiết

Chấp thuận chủ trương đầu tư cảng hàng không Phan Thiết

Tiêu điểm -  7 giờ

Cảng hàng không Phan Thiết sẽ đặt tại phường Mũi Né, với tổng vốn đầu tư dự kiến gần 3.800 tỷ đồng. Dự án sẽ lựa chọn nhà đầu tư theo hình thức đấu thầu.

Cơ hội lịch sử và bài toán tăng tốc của đặc khu Phú Quốc

Cơ hội lịch sử và bài toán tăng tốc của đặc khu Phú Quốc

Tiêu điểm -  10 giờ

Nếu như lần đầu tư cơ sở hạ tầng thứ nhất giúp Phú Quốc có tên trên bản đồ du lịch thì làn sóng đầu tư thứ hai này được kỳ vọng sẽ mang đến một diện mạo hoàn toàn mới cho đặc khu cùng cơ hội bứt phá vươn ra toàn cầu.

Vingroup, EVN, Xuân Cầu sắp khởi công loạt dự án điện tái tạo tỷ đô

Vingroup, EVN, Xuân Cầu sắp khởi công loạt dự án điện tái tạo tỷ đô

Tiêu điểm -  1 ngày

Hàng loạt dự án điện tái tạo quy mô lớn của EVN, Xuân Cầu, Vingroup được lên kế hoạch khởi công cùng ngày 19/12 nhằm chào mừng Đại hội Đảng lần thứ XIV.

Hoà Bình tính xây nhà ở xã hội bên trên đường sắt đô thị

Hoà Bình tính xây nhà ở xã hội bên trên đường sắt đô thị

Tiêu điểm -  1 ngày

Công ty TNHH Hòa Bình vừa công bố kết quả thử tải công trình đường cao tốc và đường sắt đô thị với nhà ở xã hội nằm bên trên.

[Hỏi đáp] Hộ kinh doanh thu về dưới 500 triệu đồng/năm có cần kê khai thuế?

[Hỏi đáp] Hộ kinh doanh thu về dưới 500 triệu đồng/năm có cần kê khai thuế?

Sổ tay quản trị -  1 giờ

Hộ kinh doanh có doanh thu nhỏ dù không phải nộp thuế vẫn phải thông báo doanh thu đúng hạn với cơ quan thuế.

Affina và cách tiếp cận mới với bảo hiểm trong xã hội già hóa nhanh

Affina và cách tiếp cận mới với bảo hiểm trong xã hội già hóa nhanh

Diễn đàn quản trị -  2 giờ

Khi Việt Nam bước vào giai đoạn già hóa nhanh, bảo hiểm không thể chỉ là công cụ chi trả rủi ro. Affina mở ra một cách tiếp cận mới cho an sinh bền vững.

Phốt pho vàng gặp khó, Hóa chất Đức Giang sẽ ra sao?

Phốt pho vàng gặp khó, Hóa chất Đức Giang sẽ ra sao?

Doanh nghiệp -  3 giờ

Thuế xuất khẩu phốt pho vàng tăng từ mức 5% lên 10% vào năm 2026 và 15% vào năm 2027, gây thêm áp lực cho mảng kinh doanh chính của Hóa chất Đức Giang.

Ngắm cao tốc Cần Thơ - Cà Mau trước ngày thông xe kỹ thuật

Ngắm cao tốc Cần Thơ - Cà Mau trước ngày thông xe kỹ thuật

Media -  3 giờ

Dự án cao tốc Cần Thơ – Cà Mau sẽ thông xe kỹ thuật vào ngày 19/12, nhập tuyến cao tốc Bắc – Nam phía Đông từ Lạng Sơn tới Cà Mau.

Cận cảnh tuyến cao tốc Cần Thơ - Cà Mau trước ngày thông xe

Cận cảnh tuyến cao tốc Cần Thơ - Cà Mau trước ngày thông xe

Ống kính -  3 giờ

Theo kế hoạch, dự án cao tốc Cần Thơ – Cà Mau sẽ thông xe kỹ thuật vào ngày 19/12, nhập tuyến cao tốc Bắc – Nam phía Đông từ Lạng Sơn tới Cà Mau.

Những viên 'kẹo đắng' mùa IPO

Những viên 'kẹo đắng' mùa IPO

Tài chính -  4 giờ

Kết quả những thương vụ IPO gần đây đặt ra nhiều câu hỏi về lợi ích của nhà đầu tư khi họ phải cạnh tranh, đấu giá, nộp tiền, bị “giam” tiền cả tháng rồi sau đó thua lỗ khi cổ phiếu lên sàn.

Danh mục phân loại xanh: Vẫn nhiều thách thức nội tại

Danh mục phân loại xanh: Vẫn nhiều thách thức nội tại

Phát triển bền vững -  4 giờ

Với phân loại xanh, doanh nghiệp sẽ phải đối mặt với các thách thức mang tính cấu trúc như nâng cao năng lực nhân sự, yêu cầu dữ liệu và quản trị, theo đại diện Đại học Quản lý Singapore.