Doccano Ubuntu部署
Doccano Ubuntu 服务器部署
回归本质 不理解的东西不要加
安装最新版doccano12345678910111213141516# 更改docker镜像源(在文件中配置)nano /etc/docker/daemon.json# 拉取镜像docker pull doccano# 启动容器docker container create --name doccano \ -e "ADMIN_USERNAME=admin" \ -e "ADMIN_EMAIL=admin@qq.com" \ -e "ADMIN_PASSWORD=qy123456" \ -v doccano-db:/data \ -p 8000:8000 doccano/doccano # 启动doccanodocker container start doccano
配置镜像源使用nano进行编辑,类似与vim,刚上手比较难
crtl + x 退出编辑
ctrl +o 保存
ctrl + k 删除一整行
1234567891011121 ...
Project Design
Question
图片的使用场景是两个地方(回答用户问题的时候将图片作为一个佐证,第二个就是作为语料进行训练)
一般的图片处理流程大概是:生成图片描述
123456789101112131415161718192021222324252627282930SaaS平台功能模块 项目管理、账号管理、人员管理平台的功能模块是哪些?前端展示路径,调取路径Knowledge Hub(知识库)ESG相关新闻不用付费法律法规付费AI Lab律师、会计师使用合规小工具工作流文件(中小企业)每一个议题Agent都是一个单独的服务小的模块、工具ESG合规工具后面的一个用户问答设想:用户问了一个问题,能够根据问题索引到对应的一些语料,会有翻译,会有标签,会有图片佐证先使用gemini画出一个前端出来,在前端做一些代码的更新问下SteveESG365平台的代码是否已经在码云上了gitee 或者Gitlab上了代码人员秘钥管理 → 公众号推文植入,原有功能模块优化 → 系统上线每天更新语料内容 让业务负责人抽查 语料无误才能使用语料的标签1.0版本管理 更新迭代留存
模型微调数据标准格式
双引号匹 ...
LLM2Agent
企业级AI应用的样貌一个成功的企业级ESG Agent产品,最终形态应该更像一个 “永不疲倦的初级ESG顾问团队”:
7x24小时工作,随时处理全球最新的监管动态和企业数据。
内嵌了顶尖咨询公司的方法论,保证输出质量的专业性和一致性。
具备严格的交叉校验流程,确保结果的准确可靠。
能够通过用户反馈不断进化,越来越懂客户的行业和特定需求。
交付的是可直接用于决策的商业洞见,而不仅仅是一堆冷冰冰的数据。
Agent 产品化战略本文档旨在解答两个核心商业命题:
交付侧:如何通过架构设计减少后期的咨询与运维人力投入?
价值侧:如何让 ESG Agent 摆脱“大号工作流”的标签,成为不可或缺的企业级应用?
如何摆脱后期人力(咨询、维护)?你想传统的 AI 交付后期往往都是通过“Prompt 工程师驻场”要解决这个问题,系统机制必须一开始就不用人去负责。(很少有公司能做到。。。)
不要让 AI 试图回答所有问题,也不要让人工去检查所有输出。比如用户上传了垃圾数据,AI 生成了幻觉报告,客户投诉,咱们需要人去看日志,或者检查哪一部分出现错误了。
那不如一开始就将“运维压力”转移回“用户侧的 ...
Jason Working Note
(从文件切分 → 数据集标注/微调数据集构建 → 模型选型 → 模型微调 →Agent Workflow架构 → Agent自动生成报告)
1 MarkDown语义分段 切分 数据清洗 不一定要用Dify 可以使用LangChain框架来处理
2 检索召回 Prompt 技术细节
3 微调模型应用场景:写报告 评估报告的分数(先搞语料 搞完后再去决定用大or小模型)
4 爬虫最好用Firecrawl去抓取 否则法律 服务器IP被封
数据/语料标注根据具体任务选择合适的数据格式:
1234567简单任务:使用基础的instruction-input-target格式复杂分析:使用结构化的输出格式多任务学习:在metadata中标注任务类型质量保证:添加数据验证和清洗步骤
数据集如何构建的?
首先是文本提取,通过对多源异构数据进行文本解析,然后对提取到的文本内容进行清洗与预处理(提取错了直接扔掉,或者编写一些特定的逻辑进行文本清洗),然后对语义进行切分,最后通过自动标注(基于规则/模型)进行辅助标注,或者借助Doccano平台人工进行标注。
然后使用大模 ...
Fine-Tuning-Note
Day021、说一下LoRA的原理?LoRA假设模型在适配新任务时,其权重的更新(ΔW)具有低内在秩(intrinsic low rank),因此可以将这个更新矩阵分解为两个更小的、可学习的矩阵A和B的乘积(即 ΔW = A × B)。在微调过程中,冻结原始模型的绝大部分参数,转而在PLM的特定线性层(如自注意力机制中的 Q、K、V 投影层和前馈网络)旁边,并行地注入一对小的、可训练的低秩分解矩阵。通过只训练这些低秩矩阵,LoRA就能让模型学习到新任务的知识,同时保持了原始模型的强大泛化能力,并极大地节省了计算资源和存储开销。
2、说一下LoRA的优缺点
优点:
只训练极少参数,相对全量微调的存储和训练成本低。
效果接近全参数微调,且保留原模型能力。
不同任务的 LoRA 模块可插拔,便于多任务部署。
缺点:
LoRA 本质是用低秩分解逼近权重更新矩阵,这对参数空间的表达能力有限制,可能无法拟合某些复杂任务所需的高秩变化。
LoRA 通常加在 attention 的投影矩阵(Wq/Wv)上,但不同任务可能对位置敏感,选择不好会影响性能。
相对来说,如果预训练模 ...
Fine-Tuning
P01_大模型微调的主要方式【掌握】1、大模型Prompt-Tuning方法1.1 NLP任务四种范式
第一范式:基于传统机器学习模型
第二范式:基于深度学习
第三范式:基于预训练模型+fine-tuning
第四范式:预训练模型+Prompt+预测
1.2 Fine-Tuning(微调)Fine-Tuning基本思想:使用小规模的特定任务文本继续训练预训练语言模型。
Fine-Tuning问题:
所需的Fine-Tuning量取决于预训练语料库和任务特定语料库之间的相似性。如果两者相似,可能只需要少量的Fine-Tuning,如果两者不相似,则可能需要更多的Fine-Tuning,并且效果不明显。
成本高
Prompt-Tuning的基本思想:通过添加模板的方法将任务目标转化为与预训练目标相似的形式(如MLM),避免引入额外的参数的同时,最大化利用模型的预训练知识。
Prompt-Tuning主要解决传统Fine-Tuning方式的两个痛点:
**降低语义偏差:**预训练任务主要以MLM为主,而下游任务则重新引入新的训练参数,因此两个阶段目标差异较大。因此需要解决Pre-Tr ...
Agent
P01_项目技术一、Function Call 函数调用
1 什么是Function Call【理解】概念:大模型基于具体任务,智能决策何时需要调用某个函数,同时返回符合函数参数的 JSON对象。
能力获得的方式:基于训练来得到的,所以并不是所有大模型都具有Function Call能力。
优势:信息实时性、数据局限性、功能扩展性。
2 Function Call 工作原理【理解】主要步骤:
用户(client)发请求提示词,chat server将提示词和可以调用的函数发送给大模型
GPT模型根据用户的提示词,判断是用普通文本还是函数调用的格式回复我们的服务(chat server)
如果是函数调用格式,那么chat server就会执行这个函数,并且将结果返回给GPT
然后模型使用提供的数据,用连贯的文本响应。
3 Function Call 使用方式3.1 自定义tool结构【熟悉】代码:
1234567891011121314151617181920212223242526272829303132333435363738394041424344454647484950515 ...
Agent-Note
Day011、什么是Function Call?概念:大模型基于具体任务,智能决策何时需要调用某个函数,同时返回符合函数参数的 JSON对象。
能力获得的方式:基于训练来得到的,所以并不是所有大模型都具有Function Call能力。
优势:信息实时性、数据局限性、功能扩展性。
2、Function Call 工作原理是什么?主要步骤:
用户(客户端)发送请求和提示词,聊天服务器(Chat Server)将该提示词以及当前可调用的函数列表一并发送给大模型。
大模型根据提示词的内容和上下文,判断应生成普通文本回复,还是以函数调用的格式进行响应。
如果模型决定调用函数,它会返回一个包含函数名称和参数的结构化调用指令;聊天服务器接收到该指令后,执行对应的函数,并将函数的实际执行结果返回给大模型。
模型再根据函数返回的数据,将其整合并生成一段自然、连贯的文本作为最终回复,返回给用户。
3、Function Call的使用方式123456789101112131415161718192021222324252627282930313233343536373839404142434445 ...
RAG
P01_RAG系统项目介绍1 背景介绍【了解】
业务:IT教育的答疑项目
技术:RAG【知识库+LLM】
2 RAG相关介绍【掌握】2.1 RAG概念通⽤的基础⼤模型存在一些问题:
幻觉问题,LLM有时会在回答中⽣成看似合理但实际上是错误的信息
LLM的知识不是实时的,模型训练好后不具备自动更新知识的能力,会导致部分信息滞后
LLM领域知识是缺乏的,大模型的知识来源于训练数据,这些数据主要来自公开的互联网和开源数据集,无法覆盖特定领域或高度专业化的内部知识
RAG是一种将大规模语言模型(LLM)与外部知识源的检索相结合,以改进问答能力的工程框架。 它使用来自私有或专有数据源的信息来辅助文本生成,从而弥补LLM的局限性,特别是在解决幻觉问题和提升时效性方面。
2.2 RAG作用
缓解LLM“幻觉”问题 : LLM在生成文本时有时会“一本正经地胡说八道”,即生成听起来合理但实际上不准确或捏造的信息,这被称为“幻觉”。RAG通过提供外部事实依据,显著减少了这种幻觉现象,让LLM的输出更具 事实性 和 可靠性 。
获取最新信息 :LLM的训练数据通常是静态的,这意味着它们无法获取到训练截 ...
LLM大模型基础
大语言模型LLM一种通过学习大量的文本来预测整个序列或者下一个词的概率,从而理解和生成自然语言的模型。
大模型发展历程基于规则与概率:这类模型主要依赖于人工设计的规则和统计方法。如N-gram模型通过计算词语出现的频率来预测下一个词,但存在稀疏性问题,无法很好地处理未见过的词语组合。
神经网络语言模型引入词向量:NNLM利用神经网络,将词语映射成连续的向量(词嵌入),从而捕捉词语间的语义关系。这解决了稀疏性问题,并能更好地理解上下文。然而,NNLM通常需要针对特定任务进行端到端训练。
预训练语言模型:预训练 + 微调以Transformer架构为核心,PLM(如BERT、GPT-½)通过在海量文本上进行无监督预训练来学习通用语言知识,然后针对下游任务进行微调。这极大提高了模型的泛化能力和任务表现。
大预言模型:规模化与涌现能力,LLM(如GPT-¾、PaLM)在PLM的基础上,进一步扩大模型规模(参数量、数据量),从而展现出涌现能力,可以执行多样的任务,如问答、摘要、代码生成等,甚至不需要微调(in-context learning)。
阶段
代表技术
特点
基于规则与统计 ...










