TQ System
Day011、什么是知识图谱?概念:知识图谱是以图的形式来表示实体和实体之间关系的语义网络。
节点:实体、概念
边:关系(外部)、属性(内部)
类型有两种:
实体-关系-实体【通常的说法!!】
实体-属性-属性值
2、项目的技术架构图是怎样的?
数据获取
业务数据:比较规范,一般可以直接使用构建知识图谱
采集数据:形式各异,需要进行清洗和信息抽取工作
信息抽取【核心】
工作:实体抽取、关系抽取、属性抽取
方法:规则匹配、机器学习、深度学习
知识融合
任务:消除冗余、解决冲突、统一表达、知识扩展
技术:指代消解、实体消岐、知识融合(实体对齐、关系对齐)
知识加工
工作:质量评估
图谱搭建
工作:将三元组导入到数据库中
图谱应用
工作:搭建问答系统
3、项目用到了哪些工具?
Doccano(多卡诺)是一种用于文本标注的开源工具,支持多种常见的文本标注任务,如命名实体识别、文本分类、关系抽取等。
Flask 是一个轻量级的 Python Web 框架,它的核心作用是帮助开发者快速构建 Web 应用程序和 API,实现使用URL对函数进行调用 。
Gun ...
Jason Project Demo
b9a2f359a78cc900c6b7b98b312f9de96cddd5fc648725463b269d9e0920823010a16f67b672fb9aa33a00369fc2440082033f3d879376c5c800e98d9ed2e9ebad44dd4c488fca18f56170be0b18b6bc03b58879b7a7255e7e870f3b51c879e01138878f411a4fc3b435990ad55d0d0c9ccbef215b513888d148221d896ffce437a42298530010c061562d72551bc52997cabc8afdba7fa9460417e86b2fe2020f2780fdba3d8c20593bd455f3cbce32acb6e24b200a1ad3c4e487555f6b38fab8c994e0bb27ff944834f063ef9c972c51f90467ec4a3b26ab01bb2b332b708a61da3aad6ccc5f157a0f444b84cb480d881917b2ba4c3ea87 ...
算法公式推导
Latex公式语法传送门
机器学习ID3是采用信息增益作为特征选择度量,而C4.5采用信息增益率、CART基尼指数。
信息熵:$$Ent(D^v) = -\sum_{i=1}^{k}p_i\log_{b}(p_i)$$信息增益(信息熵 - 条件熵):$$g(D,A)=H(D)-H(D|A)$$即:$$Gain(D,a) = Ent(D) - \sum_ {v=1}^{V}{\frac{\left| D^{v} \right|}{\left| D \right|}Ent(D^{v})}$$信息增益率 (信息增益/特征熵):$$\begin{aligned}\text{Gain_Ratio}(D, a) &= \frac{\text{Gain}(D, a)}{IV(a)} \\end{aligned}$$其中,特征熵可以这样理解就是只在本特征(列)中求不同类型特征的熵:$$IV(a)=-\sum_{v=1}^{V}\frac{\left|D^{v}\right|}{|D|}\log_{2} ...
Jason Interview Note
b9a2f359a78cc900c6b7b98b312f9de940487e4c71e5686237aba8cea487ffb86968489818f4f0bc992b2b962786632db594096ffcd643bb959bbe967af06855a530c7929c9273dd8f81030f38bd2639ef0cd6dc35a801d916e3225f6a6a0932aa98d19bf0bd0cde88ed7b953e8535d9c1093d8194cfedc5970eaa5337916579cdfa74e069d9538c8c16d787874e4d27397aa2a395cec62a18518b404638ed0722661484dea55b0c5049d47b3255d9f5b4e021174380a4f88f4cb26c0da5c76f7546f1de06eccecf56ea3b550951bb7028ee16ad1245779cb59c6207c582ed0b6d3be3cdf669857aece5047d04450583dbbd6e718ba026ce9 ...
NLP自然语言处理
NLP
NLP的全称是Natuarl Language Processing,中文意思是自然语言处理,是人工智能领域的一个重要方向。
文本预处理
文本预处理,就是再数据送给模型之前,要做的工作。一般拿到数据,要根据任务组织样本$x$,$y$。比如对于分类任务,标签$y$是几分类、是否样本均衡、样本$x$长度分布如何。所以文本语料的数据分析一般是先要做的工作
文本预处理基本方法分词
将连续的字序列按照一定的规范重新组合成词序列的过程
作用:词作为语言语义理解的最小单元, 是人类理解文本语言的基础
安装方式
取决于你的解析器(interpreter)的位置.但最终应该离不开Anaconda这个工具包,所以要先切换虚拟环境.
12conda activate aipip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple/
使用方式
模式
⭐️全模式:将句子中所有可以组成词的词语都扫描出来, 速度非常快,但可能会出现歧义
1jieba.cut("语句", cut_all=Tru ...
数据结构
数据结构算法单链表
链表代码前置知识:
cur.next = new_node:代表current的next指针指向新节点
链表有数值域和链接域
代码实现:节点类
包含两个属性:
item:数值域(元素域)
next :地址域(链接域) 不是他的地址,而是他的下一个节点地址
123456# 自定义SingleNode类,表示节点类class SingleNode: # 初始化属性 def __init__(self, item): self.item = item # 元素域(数值域) self.next = None # 链接域(地址域)
代码实现:链表类
该部分代码包含一个属性
head 表示头结点 指向链表的第一个节点
多个行为:
is_empty(self) :链表是否为空
length(self):判断链表长度
traverse(self):遍历整个链表
add(self,item) :给链表头部添加元素
append(self,item):链表尾部添加元素
insert(self,item): ...
深度学习
深度学习和机器学习的区别
深度学习和机器学习-面试题(●’◡’●)
问:什么样的资料集不适合用深度学习?
(1)数据集太⼩,数据样本不⾜时,深度学习相对其它机器学习算法,没有明显优势。
(2)数据集没有局部相关特性,⽬前深度学习表现⽐较好的领域主要是图像/语⾳/⾃然语⾔处理等领域,
这些领域的⼀个共性是局部相关性。图像中像素组成物体,语⾳信号中⾳位组合成单词,⽂本数据中单词
组合成句⼦,这些特征元素 的组合⼀旦被打乱,表示的含义同时也被改变。对于没有这样的局部相关性的
数据集,不适于使⽤深度学习算法进⾏处 理。
深入理解机器学习和深度学习
深度学习与机器学习的差别
不需要人工特征工程
特征工程+分类/回归 使用一个网络来完成
优点
精确度高,性能好,效果好
拟合任意非线性的关系
框架多,不需我们自己造轮子
缺点
黑箱,可解释性差
网络参数多,超参数多
需要大量的数据进行训练,训练时间长,对算力有较高要求
小数据集容易过拟合
PyTorch深度学习框架PyTorch是什么
PyTorch官网
GPU:一个超级快的数学计算器。(显卡)
CU ...
Github之Push问题解决方案
错误复现
6.07日,于晚上10点多通过git提交代码,试了几次都不行,没有分支冲突,但是发现报错如下:
于是乎开始了一番操作:
分析报错看来是443端口的问题,应该是https服务出现了问题
查看是否使用了代理
使用了,于是乎将Clash关掉
又说我没有权限,github你药剂吧干啥啊
重新按照流程生成一遍ssh秘钥,然后填到github上(流程复杂,耗时
ssh-keygen -t rsa -b 4096 -C “xxx@163.com“(填自己的邮箱)
eval “$(ssh-agent -s)”
ssh-add ~/.ssh/id_rsa
打开~/.ssh/rsa.pub,复制公钥到github
没有用
问题排查⭐️
ping github.com(怎么回事,ping自己主机头上了)
ssh -T git@github.com(还是自己主机
查看hosts配置文件(没有github.com的配置项
ssh -v git@github.com查看ssh访问github日志
查看文件
ok!收 ...
机器学习
AI人工智能
讲到AI人工智能首先得从图灵测试开始说起:
图灵测试就是:测试者与被测试者(一个人和一台机器)隔开的情况下,遍过一些装置(如键盘)向被测试者随意提问。多次测试(一般为5min之内),如果有超过30%的测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能。
当有人骂你是人机的时候,你不要骂过去,你要说你还没通过图灵测试(这样别人就听不懂了doge)。
人工智能的分类通讯、感知与行动是现代人工智能的三个关键能力
与此对应的三个技术领域分别是
计算机视觉(CV)
计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。物体检测和人脸识别是其比较成功的研究领域。
自然语言处理(NLP):在NLP领域中,将覆盖文本挖掘/分类、机器翻译和语音识别
语音识别:是指识别语音(说出的语言)并将其转换成对应文本的技术。相反的任务(文本转语音/TTS)也是这一领域内一个类似的研究主题。
文本挖掘:主要是指文本分类,该技术可用于理解、组织和分类结构化或非结构化文本文档。其涵盖的主要 ...






.png)



