- 7月3日
北京大学信息工程学院袁粒课题组+北大兔展AIGC联合实验室
两个团队联合发布了ChatLaw
- 可能是目前国内比较先进的法律大模型
- 从实际体验来看
- 1.在国内法律领域比ChatGPT回答得
更专业
- 2.在其他回答上很勉强,比ChatGPT弱很多,
有点呆
- 3.本地部署非常费资源,对
机器要求较高
- 4.性能不佳,每次回答容易卡住且
不流畅
- 考虑到6月27日幂律智能联合智谱AI法律垂直大模型 PowerLawGLM。
- 还有再早一点开源社区也发布了一些AI法律微调模型
- 由于ChatGPT的普及,LLMA的开源
- 而法律行业的规律性,可文本化,可预测性比较强
- 大语言模型的崛起为普通人的咨询法律相关问题提供了很多便利
关于ChatLaw
信息汇总
- 官网地址:https://www.chatlaw.cloud/
- 论文地址:https://arxiv.org/pdf/2306.16092.pdf
- GitHub 地址:https://github.com/PKU-YuanGroup/ChatLaw
- 根源上这个模也还是基于meta公司的LLaMA模型(小扎的这次开源给国内的大语言模型贡献巨大,现在市面上大多数开源模型都是基于Meta开源的LLAMA)
- 北京大学信息工程学院袁粒课题组
- 北大-兔展AIGC联合实验室联合发布
- 主要团队成员:
- Jiaxi Cui
- Zongjian Li
- Yang Yan
- Bohua Chen
- Li Yuan
这是官方宣传视频
这是实际体验…
- 问了一个踩到狗屎的问题,等了5分钟,还卡在这
ChatLaw的版本
- 共有三个版本,分别如下:
- ChatLaw-13B,为学术 demo 版,基于姜子牙 Ziya-LLaMA-13B-v1 训练而来,中文各项表现很好。但是,逻辑复杂的法律问答效果不佳,需要用更大参数的模型来解决;
- ChatLaw-33B,也为学术 demo 版,基于 Anima-33B 训练而来,逻辑推理能力大幅提升。但是,由于 Anima 的中文语料过少,问答时常会出现英文数据;
- ChatLaw-Text2Vec,使用 93w 条判决案例做成的数据集,基于 BERT 训练了一个相似度匹配模型,可以将用户提问信息和对应的法条相匹配。
普通人怎么用上ChatLaw
ChatLaw训练
训练的方式
- 因为ChatLaw的开源并不彻底,犹抱琵琶全遮面
- 从已有的信息来说
- 1.基于已有案例数据,生成向量
- 2.再从法律法规中匹配
- 3.从匹配完的结果中得到Q和A.
- 4.用QA来训练
- 以下是三种他们公开的数据Demo
训练源数据.json
{"q": "指控,2020年3月31日23时许,被告人蒋李饮酒后驾驶号牌为川FUXX**的小型轿车在泔溪镇集镇街路段起步过程中,碰撞停靠在路边的辽AXX**号小型汽车、渝HSX**号小型汽车、渝H0XX**号小型汽车以及一辆无号牌轻便二轮摩托车,发生致四车不同程度受损的事故。交通事故发生后,蒋李驾车驶离现场,后经朋友电话联系又主动返回现场接受交巡警处理,次日02时08分许,民警将蒋李带至酉阳县人民医院抽取其静脉血送检。2020年4月2日经湘西州龙腾司法鉴定中心鉴定,蒋李血液中检出乙醇,含量为192.2600mg/100ml。被告人蒋李系主动到案。公诉机关认为,被告人蒋李醉酒驾驶机动车发生交通事故,其行为触犯了《中华人民共和国刑法》第一百三十三条之一之规定,犯罪事实清楚,证据确实、充分,应当以危险驾驶罪追究其刑事责任。蒋李主动到案并如实供述犯罪事实,依据《中华人民共和国刑法》第六十七条第一款的规定,系自首,可以从轻或减轻处罚;蒋李已赔偿被害人损失,可酌定从轻处罚,蒋李自愿认罪认罚,依据《中华人民共和国刑事诉讼法》第十五条,可以从宽处理。综上,建议判处蒋李拘役四个月,并处罚金8000元。公诉机关提交了受案登记表、立案决定书、户籍信息、到案经过、酒精呼气测试结果单、车辆照片、接受证据材料清单、驾驶证查询结果单、机动车信息查询结果单、赔偿协议书、事故认定书、血液样本提取登记表、提取笔录、封存笔录、鉴定意见,证人罗某的证言,被害人郭某1、郭某2、石某、刘某等人的陈述,被告人蒋李的供述与辩解,光盘等", "crime": ["危险驾驶罪"]}
{"q": "指控,2020年6月4日12时许,被告人于某某以非法占有为目的,翻墙进入井陉县郝某家中,将被害人郝某放在家中北屋沙发上正充电的一部OPPO牌A11型号手机盗走。经井陉县价格认证中心价格认定该手机价值1350元。现被盗手机已被公安机关追回并发还给被害人。被告人于某某能够如实供述犯罪事实,并自愿认罪认罚。被告人于某某以非法占有为目的,入户盗窃他人财物,其行为触犯了《中华人民共和国刑法》第二百七十五条的规定,应当以盗窃罪追究其刑事责任。被告人于某某曾因犯罪被判刑,入户盗窃价值1350元手机,自愿如实供述涉嫌的犯罪事实,对指控的犯罪没有异议,接受刑事处罚,建议判处被告人于某某有期徒刑六个月,并处罚金二千元。提起公诉,请依法判处。\n被告人于某某对起诉书指控的犯罪事实、罪名均", "crime": ["盗窃罪"]}
{"q": "指控:\n1、2020年1月下旬的一天,在本溪市溪湖区瑞鑫家园38号楼楼前,因被害人金某的一辆黑色捷达车停在被告人陶冶家窗户正对面,被告人陶冶持刀将该车车漆划坏,经本溪市价格认证中心认定,车辆损失价值人民币2500元。\n2、2020年4月末的一天,在本溪市溪湖区瑞鑫家园38号楼楼前,因被害人隋某的一台白色吉普车停在被告人陶冶家窗户下面,被告人陶冶持刀将该车车漆划坏,经本溪市价格认证中心认定,车辆损失价值人民币3500元。\n3、2020年8月30日8时许,在本溪市溪湖区后湖早市,被告人陶冶趁被害人魏某买菜时不备,将魏某裤子兜内的手机盗走,经本溪市价格认证中心认定,被盗手机价值人民币700元。\n案发后,被告人陶冶被抓获归案;被盗手机已扣押并发还被害人。经辽宁省精神卫生中心法医司法鉴定所鉴定,被告人陶冶酒精致人格改变,作案时具有完全刑事责任能力。\n公诉机关认为,被告人陶冶无视国家法律,在公共场所扒窃,其行为触犯了《中华人民共和国刑法》第二百六十四条的规定,应当以盗窃罪追究其刑事责任,并建议判处被告人陶冶拘役二个月,并处罚金人民币一千元;被告人陶冶故意毁坏公私财物,数额较大,其行为触犯了《中华人民共和国刑法》第二百七十五条的规定,应当以故意毁坏财物罪追究其刑事责任,并建议判处被告人陶冶有期徒刑六个月,数罪并罚,决定执行有期徒刑六个月,并处罚金人民币一千元。公诉机关提交了被告人陶冶的供述,被害人金某、隋某、魏某的陈述,受案登记表,立案决定书,户籍证明,前科情况,行政处罚决定书,调取证据通知书及清单,情况说明,扣押决定书、扣押清单,指认划伤车辆地点照片,指认作案工具照片,证据保全决定书及清单,解除证据保全决定书及清单,指认盗窃手机照片,指认作案现场照片,被害人指认车辆被划伤时的停车位置的照片,本溪市价格认证中心价格认定结论书,鉴定意见通知书,辽宁省精神卫生中心法医司法鉴定所司法鉴定意见书,案件来源及归案经过等", "crime": ["盗窃罪"]}
{"q": "审理查明,公诉机关指控被告人张利民故意伤害的事实清楚,证据确实、充分,本院予以确认。原告人袁术吉在2020年3月18日起到4月下旬,先后到佛山市南海区第四人民医院、南方医科大学附属南海医院佛山市南海区人民医院、佛山市第一人民医院进行门诊治疗,医嘱累计建议休息31天。袁术吉受伤前每月工资3100元。\n", "crime": ["故意伤害罪"]}
{"q": "审理查明,2019年5月12日21时许,被告人方永光因盖房问题来到被害人方某1家门口,用脚踹方某1家后门,方某1开门后,方永光持菜刀砍方某1,致使方某1面部、左额及左手等处受伤。经乐清市公安局司法鉴定中心鉴定,方某1之损伤程度为轻伤一级。\n另查明,2019年10月21日方永光被公安机关查获。\n", "crime": ["故意伤害罪"]}
...
法律咨询.json
{"meta_instruction": "你一个名叫ChatLAW,由北京大学团队开发的人工智能助理:\n- 你旨在提供有无害且准确的回答。\n- 你必须拒绝回答非法的问题。\n- 你的回应不能含糊、指责、粗鲁、有争议、离题或防御性。\n- 你的回应必须有礼貌。", "plugins": [], "chat": [{"咨询者": "请告诉我背叛国家罪刑法条文", "ChatLAW": "根据《中华人民共和国刑法》第一百零二条 勾结外国,危害中华人民共和国的主权、领土完整和安全的,处无期徒刑或者十年以上有期徒刑。与境外机构、组织、个人相勾结,犯前款罪的,依照前款的规定处罚。"}], "subject": "法律咨询"}
{"meta_instruction": "你一个名叫ChatLAW,由北京大学团队开发的人工智能助理:\n- 你旨在提供有无害且准确的回答。\n- 你必须拒绝回答非法的问题。\n- 你的回应不能含糊、指责、粗鲁、有争议、离题或防御性。\n- 你的回应必须有礼貌。", "plugins": [], "chat": [{"咨询者": "背叛国家罪的主体", "ChatLAW": "本罪的主体只能是具有中华人民共和国国籍的人,即中国公民。外国人不能成为本罪的主体,但可以成为本罪的共犯。能够成为本罪主体的中国公民,主要是那些混入我党、政、军机关内部,窃据要职、掌握重要权力的人或者有重大政治影响的人。普通公民一般情况下很难危害到国家的主权、领土完整和安全,但由于本法并未规定本罪主体必须具有特殊身份,普通公民也可以成为本罪的主体。"}], "subject": "法律咨询"}
{"meta_instruction": "你一个名叫ChatLAW,由北京大学团队开发的人工智能助理:\n- 你旨在提供有无害且准确的回答。\n- 你必须拒绝回答非法的问题。\n- 你的回应不能含糊、指责、粗鲁、有争议、离题或防御性。\n- 你的回应必须有礼貌。", "plugins": [], "chat": [{"咨询者": "背叛国家罪的主观方面", "ChatLAW": "本罪在主观方面表现为故意,即明知自己勾结外国、境外机构、组织、个人实施的行为危害中国的主权、领土完整和安全,而希望或者放任这种危害后果的发生。本法将1979年刑法第91条中的阴谋一词删去,将行为人与外国进行密谋策划这种事实上的犯罪预备行为(犯罪行为的一部分)包含于勾结外国,危害国家的主权、领土完整和安全的活动之中。因此,只要行为人实施了勾结外国,危害中华人民共和国的主权、领土完整和安全的行为,不管处于策划阶段,还是边策划边实施,都不影响构成本罪。"}], "subject": "法律咨询"}
...
{"meta_instruction": "你一个名叫ChatLAW,由北京大学团队开发的人工智能助理:\n- 你旨在提供有无害且准确的回答。\n- 你必须拒绝回答非法的问题。\n- 你的回应不能含糊、指责、粗鲁、有争议、离题或防御性。\n- 你的回应必须有礼貌。", "plugins": [], "chat": [{"咨询者": "如果一个外国人在中国策动或帮助中国公民投敌叛变,会被如何处罚?", "ChatLAW": "外国人策动或帮助中国公民投敌叛变的,应以投敌叛变罪的共犯论处。具体的刑罚应根据其具体行为的性质、情节等进行裁量。"}], "subject": "法律咨询"}
{"meta_instruction": "你一个名叫ChatLAW,由北京大学团队开发的人工智能助理:\n- 你旨在提供有无害且准确的回答。\n- 你必须拒绝回答非法的问题。\n- 你的回应不能含糊、指责、粗鲁、有争议、离题或防御性。\n- 你的回应必须有礼貌。", "plugins": [], "chat": [{"咨询者": "如果一个未成年人参与投敌叛变行为,会被如何处罚?", "ChatLAW": "未成年人在达到法定刑事责任年龄前犯罪,应当依法适用少年保护法的相关规定进行处理,具体包括教育、改造、感化等。"}], "subject": "法律咨询"}
{"meta_instruction": "你一个名叫ChatLAW,由北京大学团队开发的人工智能助理:\n- 你旨在提供有无害且准确的回答。\n- 你必须拒绝回答非法的问题。\n- 你的回应不能含糊、指责、粗鲁、有争议、离题或防御性。\n- 你的回应必须有礼貌。", "plugins": [], "chat": [{"咨询者": "一个中国公民被外国势力控制,在被迫的情况下投降敌人,是否构成投敌叛变罪?", "ChatLAW": "如果行为人被迫投降敌人,不能认定其具有故意危害国家安全的意图,不构成投敌叛变罪。"}], "subject": "法律咨询"}
{"meta_instruction": "你一个名叫ChatLAW,由北京大学团队开发的人工智能助理:\n- 你旨在提供有无害且准确的回答。\n- 你必须拒绝回答非法的问题。\n- 你的回应不能含糊、指责、粗鲁、有争议、离题或防御性。\n- 你的回应必须有礼貌。", "plugins": [], "chat": [{"咨询者": "一个中国公民在不知情的情况下被外国情报机构收买并被控制,后被迫投降敌人,是否构成投敌叛变罪?", "ChatLAW": "如果行为人被收买、被控制后被迫投降敌人,不能认定其具有故意危害国家安全的意图,不构成投敌叛变罪。"}], "subject": "法律咨询"}
{"meta_instruction": "你一个名叫ChatLAW,由北京大学团队开发的人工智能助理:\n- 你旨在提供有无害且准确的回答。\n- 你必须拒绝回答非法的问题。\n- 你的回应不能含糊、指责、粗鲁、有争议、离题或防御性。\n- 你的回应必须有礼貌。", "plugins": [], "chat": [{"咨询者": "如果一个人在境外与敌对国家或敌方联络,但并未实施投敌叛变行为,是否构成投敌叛变罪?", "ChatLAW": "如果行为人只是在境外与敌对国家或敌方联络,但并未实施投敌叛变行为,不能认定其构成投敌叛变罪。但如果其行为已经涉及到危害国家安全的行为,应当依法追究其法律责任。"}], "subject": "法律咨询"}
...
法律AI
- 这个法律模型在今年三月份也想过训练一个
- 但是受限于客观条件(数据来源,硬件显卡,时间)
- 当时的设想是用爬虫去收集《法律文书网》的判决文书
- 然后用这些数据清洗训练
- 这个需要的时间和成本都很大
- 所以一直没开始
- 北大的这个研究生团队做的东西比我想象中的要好
- 虽然是基于Meta公司的llma训练的
- 虽然开源不彻底
- 但肯定是有用的
- 模型训练用到的法律数据文件是很有价值的
- 国内的这种开源大模型还是学术机构来做比较好
- 有钱有闲,而且也很容易有商业化的回报
- 我很看好。
>> Home