詳細信息

國內科技互聯網廠商訓練大模型基于的數據基礎

編輯：來源：華泰證券時間：2023/5/19

目前國內科技互聯網頭部企業主要基于公開數據及自身特有數據差異化訓練大模型。具體而言，百度“文心”大模型訓練特有數據主要包括萬億J的網頁數據，數十億的搜索數據和圖片數據等。阿里“通義”大模型的訓練數據主要來自阿里達摩院。騰訊“混元”大模型特有的訓練數據主要來自微信公眾號，微信搜索等出色數據。華為“盤古”大模型的訓練數據出公開數據外，還有 B 端行業數據加持，包括氣象，礦山，鐵路等行業數據。商湯 “日日新”模型的訓練數據中包括了自行生成的 Omni Objects 3D 多模態數據集。

【聲明：轉載此文出于傳遞更多信息之目的，并不意味著贊同其觀點或證實其描述，文章內容僅供參考，如有侵權，請聯系刪除。】

推薦信息

國內缺乏高質量數據集的主要原因
高質量數據集需要巨大資金投入,當前國內數據挖掘和數據治理的力度不足;國內相關公司成立較晚,數據積累相對國外公司更少

中國AI大模型數據集從哪里來
從數據來源看,國內各行業數據差異化發展,2021年政府,傳媒,專業服務,零售等行業數據量占比較高,接近90%的數據為非結構化數據

語音標注質量評估算法優缺點
WER算法可以分數字,英文,中文等情況分別來看;當數據量大時,性能會特別差;SER算法對句子的整體性評估要優,句錯誤率較高

文本標注質量評估算法優缺點
ROUGE算法參考標注越多待評估數據的相關性就越高;METEOR算法評估時考慮了同義詞匹配,提高了評估的準確率;SPICE算法對圖像標注進行評估

圖像標注質量評估算法優缺點
MV算法簡單易用,常用作其他眾包質量控制算法的基準算法;EM算法可以收斂到局部最大化;RY算法將分類器與 Ground-truth 結合起來進行學習

數據清洗缺失數據的處理方法
數據清洗作為數據預處理中至關重要的環節,清洗后數據的質量很大程度上決定了 AI算法的有效性,數據可能存在缺失值,噪聲數據,重復數據等質量問題

數據采集三種常見方式
實時的在線分析系統和分布式并發的離線分析系統;通過網絡爬蟲或網站公開API方式獲取大數據信息;采集的對象包括視頻,圖片,音頻和文本等多種類型

建立數據集的流程數據集產生
數據清洗,由于采集到的數據可能存在缺失值,噪聲數據,重復數據等質量問題; 模型訓練人員會利用標注好的數據訓練出需要的算法模型

智能運輸機器人

AGV無人運輸機器人-料箱版

AGV無人運輸機器人-標準版

AGV無人運輸機器人-料箱版（鈑金材質）

AGV無人運輸機器人-貨架版（鈑金材質）

AGV無人運輸機器人-貨架版（亮面不銹鋼材質）

AGV無人運輸機器人-開放版

行業動態

» AMR企業未來發展的建議:加強產學研合作拓展應用領域與場景突破關鍵技術

» 智能無人運輸車AMR選型建議:安全性穩定性兼容性成本和可維護性

» 物流企業自動化搬運項目:117臺XPL搬運機器人用于快運件轉運+物料暫存

» 工具制造業5G智慧工廠:10+臺潛伏AGV+托盤式叉車用于線邊倉轉運

» 輪胎行業項目:2臺室內平衡重式無人叉車LXP15-B用于半成品、成品自動化出入庫

» 汽車零部件園區無人化物流項目:室外無人駕駛重載AGV用于車間到車間之間的物流運輸

» 汽車行業智能搬運項目:30臺XPL搬運機器人用于產線送料和成品轉運

» 汽車新能源產線智慧物流項目-31臺潛伏AGV應用環汽車總裝車間轉運

» 汽車行業多品類AGV整合項目:叉車AGV、潛伏牽引AGV、舉升AGV、承載式雙車聯動AGV、功能型A

» 乘用車動力總成車間零部件集配項目-9臺承載輥道式AMR,用于動力總成線邊供給

欧美激情中文字幕一区二区-欧美激情在线精品video-欧美激情影院-欧美激情一区二区三区在线-欧美激情一区二区三区视频高清-欧美激情一区二区三区视频

國內科技互聯網廠商訓練大模型基于的數據基礎