Rào cản mới trong phát triển trí tuệ nhân tạo: Dữ liệu trở thành thách thức cốt lõi
Với sự gia tăng nhanh chóng về quy mô và khả năng tính toán của các mô hình trí tuệ nhân tạo, một vấn đề then chốt lâu nay bị bỏ qua đang nổi lên - cung cấp dữ liệu. Hiện tại, ngành AI đang đối mặt với một mâu thuẫn cấu trúc: mô hình và sức mạnh tính toán đã hình thành một hệ thống thị trường trưởng thành, nhưng việc sản xuất, làm sạch, xác minh và giao dịch dữ liệu vẫn ở giai đoạn sơ khai. Trong mười năm tới, trọng tâm phát triển của AI sẽ chuyển từ mô hình và sức mạnh tính toán sang xây dựng cơ sở hạ tầng dữ liệu.
Khó khăn về dữ liệu trong ngành AI
Kể từ cuộc cách mạng học sâu, quy mô tham số của các mô hình AI đã tăng từ hàng triệu lên hàng tỷ, nhu cầu tính toán tăng trưởng theo cấp số nhân. Tuy nhiên, sự gia tăng "dữ liệu hữu cơ" chất lượng cao do con người tạo ra đã gần đạt đến giới hạn. Lấy dữ liệu văn bản làm ví dụ, tổng lượng văn bản chất lượng cao có sẵn trên Internet khoảng 10^12 từ, trong khi việc huấn luyện một mô hình với 100 tỷ tham số cần tiêu tốn khoảng 10^13 từ. Điều này có nghĩa là nguồn dữ liệu hiện có chỉ có thể hỗ trợ việc huấn luyện một số ít mô hình có quy mô tương đương.
Nghiêm trọng hơn, tỷ lệ nội dung lặp lại và chất lượng thấp vượt quá 60%, điều này đã làm giảm nguồn cung dữ liệu hiệu quả. Khi mô hình bắt đầu sử dụng nhiều nội dung được tạo ra bởi AI, "ô nhiễm dữ liệu" dẫn đến sự suy giảm hiệu suất của mô hình đã trở thành mối lo ngại trong ngành. Nguyên nhân của mâu thuẫn này là: Ngành công nghiệp AI lâu nay coi dữ liệu là "tài nguyên miễn phí", chứ không phải là "tài sản chiến lược" cần được nuôi dưỡng cẩn thận.
Dữ liệu trên chuỗi: Tài liệu lý tưởng để huấn luyện AI
Trong bối cảnh này, dữ liệu trên chuỗi của mạng blockchain thể hiện giá trị độc đáo. So với dữ liệu trên internet truyền thống, dữ liệu trên chuỗi có tính xác thực và độ tin cậy tự nhiên:
Tín hiệu ý định thực sự: Dữ liệu trên chuỗi ghi lại hành vi quyết định của người dùng bằng tiền thật, phản ánh trực tiếp sự đánh giá về giá trị của dự án và chiến lược phân bổ vốn.
Chuỗi hành vi có thể truy xuất: Tính minh bạch của blockchain cho phép hành vi của người dùng được theo dõi đầy đủ, hình thành một "chuỗi hành vi" liên tục, giúp AI xây dựng hồ sơ người dùng chính xác.
Truy cập mở: Dữ liệu trên chuỗi được mở cho tất cả các nhà phát triển, có thể truy cập mà không cần xin phép, cung cấp nguồn dữ liệu với rào cản thấp cho việc đào tạo mô hình AI.
Tuy nhiên, dữ liệu trên chuỗi cũng đối mặt với thách thức: chúng tồn tại dưới dạng "nhật ký sự kiện" phi cấu trúc, cần phải trải qua quá trình xử lý phức tạp để có thể được mô hình AI sử dụng. Hiện tại, "tỷ lệ chuyển đổi cấu trúc" của dữ liệu trên chuỗi chưa đến 5%, nhiều tín hiệu có giá trị cao bị chôn vùi trong khối lượng thông tin phân mảnh khổng lồ.
Xây dựng "hệ điều hành thông minh" cho dữ liệu trên chuỗi
Để giải quyết vấn đề phân mảnh dữ liệu trên chuỗi, ngành công nghiệp đang khám phá việc xây dựng "hệ điều hành thông minh trên chuỗi" được thiết kế riêng cho AI. Mục tiêu cốt lõi của các hệ thống này là chuyển đổi các tín hiệu phân tán trên chuỗi thành dữ liệu AI-ready có cấu trúc, có thể xác minh và có thể kết hợp theo thời gian thực. Bao gồm các thành phần chính sau đây:
Tiêu chuẩn dữ liệu mở: Đồng nhất định dạng dữ liệu của các blockchain và giao thức khác nhau, để AI có thể "hiểu" trực tiếp thế giới trên chuỗi.
Cơ chế xác thực phi tập trung: Sử dụng cơ chế đồng thuận blockchain để đảm bảo tính xác thực và toàn vẹn của dữ liệu.
Lớp khả dụng dữ liệu hiệu suất cao: Thông qua việc tối ưu hóa thuật toán và kiến trúc, đạt được xử lý dữ liệu trên chuỗi theo thời gian thực và truyền tải độ trễ thấp.
Giao thức đánh giá dữ liệu: Phát triển mô hình AI tự động đánh giá chất lượng tập dữ liệu, cung cấp tiêu chuẩn định giá cho thị trường giao dịch dữ liệu.
Hướng tới thời đại DataFi
Những nỗ lực này có mục tiêu cuối cùng là thúc đẩy ngành công nghiệp AI bước vào thời đại DataFi - dữ liệu sẽ trở thành "vốn" có thể định giá, giao dịch và gia tăng giá trị. Trong thời đại mới này, dữ liệu sẽ có bốn thuộc tính cốt lõi:
Cấu trúc: Tín hiệu gốc trên chuỗi được chuyển đổi thành dữ liệu có cấu trúc mà AI có thể gọi trực tiếp.
Có thể kết hợp: Dữ liệu từ các nguồn khác nhau có thể tự do kết hợp như các khối Lego, mở rộng ranh giới ứng dụng.
Có thể xác minh: Tính xác thực của dữ liệu có thể được truy nguyên và xác minh thông qua các bản ghi trên blockchain.
Có thể chuyển đổi: Nhà cung cấp dữ liệu có thể chuyển đổi dữ liệu chất lượng cao thành lợi nhuận.
Kết luận: Cuộc cách mạng dữ liệu dẫn dắt kỷ nguyên mới của AI
Sự tiến hóa của AI về bản chất là sự tiến hóa của hạ tầng dữ liệu. Từ sự hữu hạn của dữ liệu do con người tạo ra đến việc khám phá giá trị dữ liệu trên chuỗi, từ tín hiệu phân mảnh đến tài sản có cấu trúc, thế hệ hạ tầng dữ liệu mới đang định hình lại logic cơ bản của ngành công nghiệp AI. Trong kỷ nguyên DataFi sắp tới, dữ liệu sẽ trở thành cầu nối giữa AI và thế giới thực, thúc đẩy sự xuất hiện của các ứng dụng đổi mới.
Khi dữ liệu cuối cùng được trao cho giá trị đúng của nó, AI mới thực sự giải phóng sức mạnh thay đổi thế giới. Các ứng dụng AI thế hệ tiếp theo không chỉ cần các mô hình mạnh mẽ mà còn cần sự hỗ trợ của dữ liệu chất lượng cao, đáng tin cậy. Xây dựng một hệ sinh thái dữ liệu như vậy sẽ là nhiệm vụ cốt lõi của ngành AI trong mười năm tới.
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
23 thích
Phần thưởng
23
7
Đăng lại
Chia sẻ
Bình luận
0/400
SigmaBrain
· 18giờ trước
Xe tang trôi là dựa trên dữ liệu.
Xem bản gốcTrả lời0
BoredWatcher
· 08-08 00:30
Dữ liệu thơm hơn nhiều so với gói thực phẩm.
Xem bản gốcTrả lời0
ChainComedian
· 08-06 13:10
Dữ liệu không đủ, gpt cũng phải đói bụng
Xem bản gốcTrả lời0
airdrop_whisperer
· 08-06 11:21
Chẳng mấy chốc, dữ liệu sẽ trở thành tài sản quý giá nhất.
Xem bản gốcTrả lời0
MeltdownSurvivalist
· 08-06 11:18
Câu chuyện cũ rồi, dữ liệu mới là mấu chốt.
Xem bản gốcTrả lời0
LiquidityHunter
· 08-06 11:17
Cuối cùng vẫn chỉ là ăn dữ liệu, chơi với những rào cản mới.
Xem bản gốcTrả lời0
FarmHopper
· 08-06 11:11
Cỏ, tài nguyên dữ liệu sắp đánh nhau đến cả ngoài đời rồi.
Cung cấp dữ liệu trở thành nút thắt trong sự phát triển của AI, dữ liệu trên chuỗi dẫn dắt kỷ nguyên DataFi mới.
Rào cản mới trong phát triển trí tuệ nhân tạo: Dữ liệu trở thành thách thức cốt lõi
Với sự gia tăng nhanh chóng về quy mô và khả năng tính toán của các mô hình trí tuệ nhân tạo, một vấn đề then chốt lâu nay bị bỏ qua đang nổi lên - cung cấp dữ liệu. Hiện tại, ngành AI đang đối mặt với một mâu thuẫn cấu trúc: mô hình và sức mạnh tính toán đã hình thành một hệ thống thị trường trưởng thành, nhưng việc sản xuất, làm sạch, xác minh và giao dịch dữ liệu vẫn ở giai đoạn sơ khai. Trong mười năm tới, trọng tâm phát triển của AI sẽ chuyển từ mô hình và sức mạnh tính toán sang xây dựng cơ sở hạ tầng dữ liệu.
Khó khăn về dữ liệu trong ngành AI
Kể từ cuộc cách mạng học sâu, quy mô tham số của các mô hình AI đã tăng từ hàng triệu lên hàng tỷ, nhu cầu tính toán tăng trưởng theo cấp số nhân. Tuy nhiên, sự gia tăng "dữ liệu hữu cơ" chất lượng cao do con người tạo ra đã gần đạt đến giới hạn. Lấy dữ liệu văn bản làm ví dụ, tổng lượng văn bản chất lượng cao có sẵn trên Internet khoảng 10^12 từ, trong khi việc huấn luyện một mô hình với 100 tỷ tham số cần tiêu tốn khoảng 10^13 từ. Điều này có nghĩa là nguồn dữ liệu hiện có chỉ có thể hỗ trợ việc huấn luyện một số ít mô hình có quy mô tương đương.
Nghiêm trọng hơn, tỷ lệ nội dung lặp lại và chất lượng thấp vượt quá 60%, điều này đã làm giảm nguồn cung dữ liệu hiệu quả. Khi mô hình bắt đầu sử dụng nhiều nội dung được tạo ra bởi AI, "ô nhiễm dữ liệu" dẫn đến sự suy giảm hiệu suất của mô hình đã trở thành mối lo ngại trong ngành. Nguyên nhân của mâu thuẫn này là: Ngành công nghiệp AI lâu nay coi dữ liệu là "tài nguyên miễn phí", chứ không phải là "tài sản chiến lược" cần được nuôi dưỡng cẩn thận.
Dữ liệu trên chuỗi: Tài liệu lý tưởng để huấn luyện AI
Trong bối cảnh này, dữ liệu trên chuỗi của mạng blockchain thể hiện giá trị độc đáo. So với dữ liệu trên internet truyền thống, dữ liệu trên chuỗi có tính xác thực và độ tin cậy tự nhiên:
Tín hiệu ý định thực sự: Dữ liệu trên chuỗi ghi lại hành vi quyết định của người dùng bằng tiền thật, phản ánh trực tiếp sự đánh giá về giá trị của dự án và chiến lược phân bổ vốn.
Chuỗi hành vi có thể truy xuất: Tính minh bạch của blockchain cho phép hành vi của người dùng được theo dõi đầy đủ, hình thành một "chuỗi hành vi" liên tục, giúp AI xây dựng hồ sơ người dùng chính xác.
Truy cập mở: Dữ liệu trên chuỗi được mở cho tất cả các nhà phát triển, có thể truy cập mà không cần xin phép, cung cấp nguồn dữ liệu với rào cản thấp cho việc đào tạo mô hình AI.
Tuy nhiên, dữ liệu trên chuỗi cũng đối mặt với thách thức: chúng tồn tại dưới dạng "nhật ký sự kiện" phi cấu trúc, cần phải trải qua quá trình xử lý phức tạp để có thể được mô hình AI sử dụng. Hiện tại, "tỷ lệ chuyển đổi cấu trúc" của dữ liệu trên chuỗi chưa đến 5%, nhiều tín hiệu có giá trị cao bị chôn vùi trong khối lượng thông tin phân mảnh khổng lồ.
Xây dựng "hệ điều hành thông minh" cho dữ liệu trên chuỗi
Để giải quyết vấn đề phân mảnh dữ liệu trên chuỗi, ngành công nghiệp đang khám phá việc xây dựng "hệ điều hành thông minh trên chuỗi" được thiết kế riêng cho AI. Mục tiêu cốt lõi của các hệ thống này là chuyển đổi các tín hiệu phân tán trên chuỗi thành dữ liệu AI-ready có cấu trúc, có thể xác minh và có thể kết hợp theo thời gian thực. Bao gồm các thành phần chính sau đây:
Tiêu chuẩn dữ liệu mở: Đồng nhất định dạng dữ liệu của các blockchain và giao thức khác nhau, để AI có thể "hiểu" trực tiếp thế giới trên chuỗi.
Cơ chế xác thực phi tập trung: Sử dụng cơ chế đồng thuận blockchain để đảm bảo tính xác thực và toàn vẹn của dữ liệu.
Lớp khả dụng dữ liệu hiệu suất cao: Thông qua việc tối ưu hóa thuật toán và kiến trúc, đạt được xử lý dữ liệu trên chuỗi theo thời gian thực và truyền tải độ trễ thấp.
Giao thức đánh giá dữ liệu: Phát triển mô hình AI tự động đánh giá chất lượng tập dữ liệu, cung cấp tiêu chuẩn định giá cho thị trường giao dịch dữ liệu.
Hướng tới thời đại DataFi
Những nỗ lực này có mục tiêu cuối cùng là thúc đẩy ngành công nghiệp AI bước vào thời đại DataFi - dữ liệu sẽ trở thành "vốn" có thể định giá, giao dịch và gia tăng giá trị. Trong thời đại mới này, dữ liệu sẽ có bốn thuộc tính cốt lõi:
Cấu trúc: Tín hiệu gốc trên chuỗi được chuyển đổi thành dữ liệu có cấu trúc mà AI có thể gọi trực tiếp.
Có thể kết hợp: Dữ liệu từ các nguồn khác nhau có thể tự do kết hợp như các khối Lego, mở rộng ranh giới ứng dụng.
Có thể xác minh: Tính xác thực của dữ liệu có thể được truy nguyên và xác minh thông qua các bản ghi trên blockchain.
Có thể chuyển đổi: Nhà cung cấp dữ liệu có thể chuyển đổi dữ liệu chất lượng cao thành lợi nhuận.
Kết luận: Cuộc cách mạng dữ liệu dẫn dắt kỷ nguyên mới của AI
Sự tiến hóa của AI về bản chất là sự tiến hóa của hạ tầng dữ liệu. Từ sự hữu hạn của dữ liệu do con người tạo ra đến việc khám phá giá trị dữ liệu trên chuỗi, từ tín hiệu phân mảnh đến tài sản có cấu trúc, thế hệ hạ tầng dữ liệu mới đang định hình lại logic cơ bản của ngành công nghiệp AI. Trong kỷ nguyên DataFi sắp tới, dữ liệu sẽ trở thành cầu nối giữa AI và thế giới thực, thúc đẩy sự xuất hiện của các ứng dụng đổi mới.
Khi dữ liệu cuối cùng được trao cho giá trị đúng của nó, AI mới thực sự giải phóng sức mạnh thay đổi thế giới. Các ứng dụng AI thế hệ tiếp theo không chỉ cần các mô hình mạnh mẽ mà còn cần sự hỗ trợ của dữ liệu chất lượng cao, đáng tin cậy. Xây dựng một hệ sinh thái dữ liệu như vậy sẽ là nhiệm vụ cốt lõi của ngành AI trong mười năm tới.