詳細(xì)信息 |
中國(guó)AI大模型數(shù)據(jù)集從哪里來(lái) |
編輯: 來(lái)源:華泰證券 時(shí)間:2023/5/18 |
國(guó)內(nèi)各行業(yè)數(shù)據(jù)資源豐富,2021-2026 年數(shù)據(jù)量規(guī)模 CAGR G于,數(shù)據(jù)主要來(lái)源于政 府/傳媒/服務(wù)/零售等行業(yè)。據(jù) IDC,2021-2026 年數(shù)據(jù)量規(guī)模將由 18.51ZB 增長(zhǎng)至 56.16ZB,CAGR 達(dá)到 24.9%,G于平均 CAGR。從數(shù)據(jù)來(lái)源看,國(guó)內(nèi)各行業(yè)數(shù)據(jù)差 異化發(fā)展,2021 年政府、傳媒、專業(yè)服務(wù)、零售等行業(yè)數(shù)據(jù)量占比較G,分別為 30.4%、 13.4%、13.0%、9.6%,其中接近 90%的數(shù)據(jù)為非結(jié)構(gòu)化數(shù)據(jù),這也要求了海量數(shù)據(jù)采集 設(shè)備和軟件的互聯(lián)互通以及互動(dòng)互控。另外隨著智能化轉(zhuǎn)型的深入,制造、交通運(yùn)輸、批 發(fā)、教育等行業(yè)數(shù)據(jù)規(guī)模在未來(lái)也擁有較大的增長(zhǎng)潛力,2021-2026 年數(shù)據(jù)量增長(zhǎng) CAGR 將分別達(dá)到 37.6%、36.1%、37.1%、34.0%。
盡管?chē)?guó)內(nèi)數(shù)據(jù)資源豐富,但由于數(shù)據(jù)挖掘不足,數(shù)據(jù)無(wú)法自由在市場(chǎng)上流通等現(xiàn)狀,出色 中文出色數(shù)據(jù)集仍然稀缺。目前中文出色數(shù)據(jù)仍然稀缺,如 ChatGPT 訓(xùn)練數(shù)據(jù)中中文資料 比重不足千分之一,為 0.0991%,而英文資料占比超過(guò) 92.6%。據(jù)加利福尼亞大學(xué)和 Google 研究機(jī)構(gòu)發(fā)現(xiàn),機(jī)器學(xué)習(xí)和自然語(yǔ)言處理模型使用的數(shù)據(jù)集 50%由 12 家 Top 機(jī)構(gòu)提供, 其中 10 家為美國(guó)機(jī)構(gòu),1 家為德國(guó)機(jī)構(gòu),僅 1 家機(jī)構(gòu)來(lái)自,為香港中文大學(xué)。值得一 提的是,數(shù)據(jù)集與數(shù)據(jù)機(jī)構(gòu)的基尼系數(shù)有升G的趨勢(shì),即數(shù)據(jù)集被少數(shù) Top 機(jī)構(gòu)或特定數(shù) 據(jù)庫(kù)掌控的集中有所增加。
|
【聲明:轉(zhuǎn)載此文出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其描述,文章內(nèi)容僅供參考,如有侵權(quán),請(qǐng)聯(lián)系刪除。】 |
推薦信息 |
語(yǔ)音標(biāo)注質(zhì)量評(píng)估算法優(yōu)缺點(diǎn)
WER算法可以分?jǐn)?shù)字,英文,中文等情況分別來(lái)看;當(dāng)數(shù)據(jù)量大時(shí),性能會(huì)特別差;SER算法對(duì)句子的整體性評(píng)估要優(yōu),句錯(cuò)誤率較高
文本標(biāo)注質(zhì)量評(píng)估算法優(yōu)缺點(diǎn)
ROUGE算法參考標(biāo)注越多待評(píng)估數(shù)據(jù)的相關(guān)性就越高;METEOR算法評(píng)估時(shí)考慮了同義詞匹配,提高了評(píng)估的準(zhǔn)確率;SPICE算法對(duì)圖像標(biāo)注進(jìn)行評(píng)估
圖像標(biāo)注質(zhì)量評(píng)估算法優(yōu)缺點(diǎn)
MV算法簡(jiǎn)單易用,常用作其他眾包質(zhì)量控制算法的基準(zhǔn)算法;EM算法可以收斂到局部最大化;RY算法將分類(lèi)器與 Ground-truth 結(jié)合起來(lái)進(jìn)行學(xué)習(xí)
數(shù)據(jù)清洗缺失數(shù)據(jù)的處理方法
數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理中至關(guān)重要的環(huán)節(jié),清洗后數(shù)據(jù)的質(zhì)量很大程度上決定了 AI算法的有效性,數(shù)據(jù)可能存在缺失值,噪聲數(shù)據(jù),重復(fù)數(shù)據(jù)等質(zhì)量問(wèn)題
數(shù)據(jù)采集三種常見(jiàn)方式
實(shí)時(shí)的在線分析系統(tǒng)和分布式并發(fā)的離線分析系統(tǒng);通過(guò)網(wǎng)絡(luò)爬蟲(chóng)或網(wǎng)站公開(kāi)API方式獲取大數(shù)據(jù)信息;采集的對(duì)象包括視頻,圖片,音頻和文本等多種類(lèi)型
建立數(shù)據(jù)集的流程 數(shù)據(jù)集產(chǎn)生
數(shù)據(jù)清洗,由于采集到的數(shù)據(jù)可能存在缺失值,噪聲數(shù)據(jù),重復(fù)數(shù)據(jù)等質(zhì)量問(wèn)題; 模型訓(xùn)練人員會(huì)利用標(biāo)注好的數(shù)據(jù)訓(xùn)練出需要的算法模型
AI大模型需要什么樣的數(shù)據(jù)集
通過(guò)提升數(shù)據(jù)的質(zhì)量和數(shù)量來(lái)提升整個(gè)模型的訓(xùn)練效果,我們認(rèn)為未來(lái)數(shù)據(jù)成本在大模型開(kāi)發(fā)中的成本占比或?qū)⑻嵘?主要包括數(shù)據(jù)采集,清洗,標(biāo)注等成本
TidyBot家庭服務(wù)機(jī)器人完成房間整理
機(jī)器人在基準(zhǔn)數(shù)據(jù)集中對(duì)看不見(jiàn)的物體實(shí)現(xiàn) 91.2% 的準(zhǔn)確率,TidyBot的真實(shí)移動(dòng)操作器演示了該方法,該操縱器在真實(shí)世界的測(cè)試場(chǎng)景中成功地收起了85.0%的對(duì)象 |
智能運(yùn)輸機(jī)器人 |
AGV無(wú)人運(yùn)輸機(jī)器人-料箱版 |
AGV無(wú)人運(yùn)輸機(jī)器人-標(biāo)準(zhǔn)版 |
AGV無(wú)人運(yùn)輸機(jī)器人-料箱版(鈑金材質(zhì)) |
AGV無(wú)人運(yùn)輸機(jī)器人-貨架版(鈑金材質(zhì)) |
AGV無(wú)人運(yùn)輸機(jī)器人-貨架版(亮面不銹鋼材質(zhì)) |
AGV無(wú)人運(yùn)輸機(jī)器人-開(kāi)放版 |
行業(yè)動(dòng)態(tài) |
咨詢熱線:4006-935-088 / 4006-937-088
客服熱線:
4008-128-728
版權(quán)所有 @ 創(chuàng)澤智能機(jī)器人集團(tuán)股份有限公司 魯ICP備18039973號(hào)-2 運(yùn)營(yíng)中心 / 北京·清華科技園九號(hào)樓 生產(chǎn)中心 / 山東省日照市開(kāi)發(fā)區(qū)太原路71號(hào) |