詳細信息 |
CAIL2018數據集 中國法律數據 |
編輯: 來源:創澤集團 時間:2023/5/19 |
CAIL2018 數據集:于 2018 年由清華大學、北京大學、科學院軟件研究所和司法 大數據研究院聯合發布。CAIL2018是D一個用于判決預測的大規模法律數據集,收錄 了G人民法院公布 260 萬件刑事案件,是現有判決預測工作中其他數據集的數倍。 對判斷結果的注釋也更加詳細和豐富。它由適用的法律條款、指控和刑期組成,根據案件 的事實描述而定。
|
【聲明:轉載此文出于傳遞更多信息之目的,并不意味著贊同其觀點或證實其描述,文章內容僅供參考,如有侵權,請聯系刪除。】 |
推薦信息 |
中國開源大語言模型數據集 WuDaoCorpora數據集
WuDaoCorpora數據集采用 20 多種規則從 100TB 原始網頁數據中清洗得出最終數據集,注重隱私數據信息的去除,支持多領域預訓練模型的訓練
中國開源大語言模型數據集 DuReader數據集
DuReader是一個大規模的開放域中文機器閱讀理解數據集,問題和文檔基于百度搜索和百度知道,答案是手動生成的,由200K問題,420K答案和1M文檔組成
中國多模態大模型數據集構建
阿里M6大模型參數規模達到 1000 億,構建了最大的中文多模態預訓練數據集 M6-Corpus;百度ERNIE-ViLG大模型參數規模達到 100 億
中國三個大語言模型數據集構建
百度Plato-XL大模型預訓練語料規模達千億級 token,模型規模高達 110 億參數;華為盤古大模型開源了盤古α和盤古α增強版兩個版本
國內優質中文數據集的重要來源 垂直內容平臺
知乎作為問答知識平臺,擁有超過4300萬創作者產生的超過3.5億條優質中文問答內容;垂類內容平臺的數據可以作為細分領域大模 型精確訓練的基礎
國內科技互聯網廠商訓練大模型基于的數據基礎
百度文心大模型訓練特有數據主要包括萬億級的網頁數據;阿里通義大模型的訓練數據主要來自阿里達摩院;騰訊混元大模型特有的訓練數據主要來自微信公眾號
國內缺乏高質量數據集的主要原因
高質量數據集需要巨大資金投入,當前國內數據挖掘和數據治理的力度不足;國內相關公司成立較晚,數據積累相對國外公司更少
中國AI大模型數據集從哪里來
從數據來源看,國內各行業數據差異化發展,2021年政府,傳媒,專業服務,零售等行業數據量占比較高,接近90%的數據為非結構化數據 |
智能運輸機器人 |
AGV無人運輸機器人-料箱版 |
AGV無人運輸機器人-標準版 |
AGV無人運輸機器人-料箱版(鈑金材質) |
AGV無人運輸機器人-貨架版(鈑金材質) |
AGV無人運輸機器人-貨架版(亮面不銹鋼材質) |
AGV無人運輸機器人-開放版 |
行業動態 |
咨詢熱線:4006-935-088 / 4006-937-088
客服熱線:
4008-128-728
版權所有 @ 創澤智能機器人集團股份有限公司 魯ICP備18039973號-2 運營中心 / 北京·清華科技園九號樓 生產中心 / 山東省日照市開發區太原路71號 |