詳細信息

中國開源大語言模型數(shù)據(jù)集 WuDaoCorpora數(shù)據(jù)集

編輯：來源：華泰證券時間：2023/5/19

WuDaoCorpora 數(shù)據(jù)集：于 2021 年由北京人工智能研究院、清華大學和循環(huán)智能聯(lián)合發(fā) 布。WuDaoCorpora 是北京智源研究院新構建的G質(zhì)量數(shù)據(jù)集，悟道文本數(shù)據(jù)集采用 20 多種規(guī)則從 100TB 原始網(wǎng)頁數(shù)據(jù)中清洗得出終數(shù)據(jù)集，注重隱私數(shù)據(jù)信息的去除，從源頭上避免 GPT-3 存在的隱私泄露風險；包含教育、科技等 50+個行業(yè)數(shù)據(jù)標簽，可以支持多L域預訓練模型的訓練。

【聲明：轉(zhuǎn)載此文出于傳遞更多信息之目的，并不意味著贊同其觀點或證實其描述，文章內(nèi)容僅供參考，如有侵權，請聯(lián)系刪除。】

推薦信息

中國開源大語言模型數(shù)據(jù)集 DuReader數(shù)據(jù)集
DuReader是一個大規(guī)模的開放域中文機器閱讀理解數(shù)據(jù)集,問題和文檔基于百度搜索和百度知道,答案是手動生成的,由200K問題,420K答案和1M文檔組成

中國多模態(tài)大模型數(shù)據(jù)集構建
阿里M6大模型參數(shù)規(guī)模達到 1000 億,構建了最大的中文多模態(tài)預訓練數(shù)據(jù)集 M6-Corpus;百度ERNIE-ViLG大模型參數(shù)規(guī)模達到 100 億

中國三個大語言模型數(shù)據(jù)集構建
百度Plato-XL大模型預訓練語料規(guī)模達千億級 token,模型規(guī)模高達 110 億參數(shù);華為盤古大模型開源了盤古α和盤古α增強版兩個版本

國內(nèi)優(yōu)質(zhì)中文數(shù)據(jù)集的重要來源垂直內(nèi)容平臺
知乎作為問答知識平臺,擁有超過4300萬創(chuàng)作者產(chǎn)生的超過3.5億條優(yōu)質(zhì)中文問答內(nèi)容;垂類內(nèi)容平臺的數(shù)據(jù)可以作為細分領域大模型精確訓練的基礎

國內(nèi)科技互聯(lián)網(wǎng)廠商訓練大模型基于的數(shù)據(jù)基礎
百度文心大模型訓練特有數(shù)據(jù)主要包括萬億級的網(wǎng)頁數(shù)據(jù);阿里通義大模型的訓練數(shù)據(jù)主要來自阿里達摩院;騰訊混元大模型特有的訓練數(shù)據(jù)主要來自微信公眾號

國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的主要原因
高質(zhì)量數(shù)據(jù)集需要巨大資金投入,當前國內(nèi)數(shù)據(jù)挖掘和數(shù)據(jù)治理的力度不足;國內(nèi)相關公司成立較晚,數(shù)據(jù)積累相對國外公司更少

中國AI大模型數(shù)據(jù)集從哪里來
從數(shù)據(jù)來源看,國內(nèi)各行業(yè)數(shù)據(jù)差異化發(fā)展,2021年政府,傳媒,專業(yè)服務,零售等行業(yè)數(shù)據(jù)量占比較高,接近90%的數(shù)據(jù)為非結構化數(shù)據(jù)

語音標注質(zhì)量評估算法優(yōu)缺點
WER算法可以分數(shù)字,英文,中文等情況分別來看;當數(shù)據(jù)量大時,性能會特別差;SER算法對句子的整體性評估要優(yōu),句錯誤率較高

智能運輸機器人

AGV無人運輸機器人-料箱版

AGV無人運輸機器人-標準版

AGV無人運輸機器人-料箱版（鈑金材質(zhì)）

AGV無人運輸機器人-貨架版（鈑金材質(zhì)）

AGV無人運輸機器人-貨架版（亮面不銹鋼材質(zhì)）

AGV無人運輸機器人-開放版

行業(yè)動態(tài)

» AMR企業(yè)未來發(fā)展的建議:加強產(chǎn)學研合作拓展應用領域與場景突破關鍵技術

» 智能無人運輸車AMR選型建議:安全性穩(wěn)定性兼容性成本和可維護性

» 物流企業(yè)自動化搬運項目:117臺XPL搬運機器人用于快運件轉(zhuǎn)運+物料暫存