数据分析环境搭建
Python数据分析三剑客
MATLAB曾在2020年被禁用?想当年,陈刀仔从20块赢到3700万…不好意思走错片场了
话说,Python数据分析已经成为现代数据科学的核心工具之一,在众多Python库中,Pandas, Matplotlib和NumPy无疑是数据分析领域的三剑客。
Pandas:数据处理与分析的瑞士军刀
Matplotlib:古希腊掌管数据可视化的王
NumPy:科学计算的基础库
因此:Pandas+Matplotlib+NumPy = MATLAB[doge]
Jupyter安装&使用Jupyter是什么?
JupyterLab is the latest web-based interactive development environment for notebooks, code, and data. Its flexible interface allows users to configure and arrange workflows in data science, scientific computing, computation ...
Blog Deployment for MacOs
Hexo环境搭建
由于咱之前搞过,这里就不多bb了,只是弄一些重要的步骤就行。
开始之前说明一下npm淘宝源自24年年初就不能使用了:https://registry.npm.taobao.org
切换成npm源: https://npmmirror.com/
12345# 查看自己使用的npm源npm config get registry# 切换成npm国内高速源npm config set registry https://npmmirror.com/
一、配置SSH-Key在本机的shell上执行如下代码,生成本机的秘钥:
1ssh-keygen
将上述生成的key拷贝到github上:主页 –> SSH and GPG keys –> New SSH key
二、配置本地环境
参考Hexo官方教程:https://hexo.io/zh-cn/docs/
注意:
如果是Mac或者Linux就不需要安装带图形化界面的Node和Git了,用Shell直接下载即可。
在Mac下可能会涉及到权限控制、安全性等导致出现问题,sudo能解决大部分问题。
跟网上有很多教 ...
【Linux】FTP服务器搭建
FTP服务器搭建FTP安装前置步骤安装ftp软件(已安装的话就不用再安装了,可以使用rpm -qa | grep vsftpd命令检测)
rpm -ivh /media/cdrom/Packages/vsftpd-3.0.2-28.el7.x86_64.rpm
注意: 上述版本号会根据ISO文件的版本不同有所区别,Tab补全就行了。
启动vsftpd服务,并设为开机自启
systemctl start vsftpd
查看21端口:
netstat -ntl | grep 21
设为开机自启:
systemctl enable vsftpd
浏览器访问ftp://ip_or_hostname
如果连接超时,说明开启了防火墙,需要关闭防火墙服务并关闭开机自启:
systemctl stop firewalld
systwmctl disable firewalld
如果连接需要账号密码:
vim /etc/vsftpd/vsftpd.conf
FTP设置用户名密码一、创建新的Linux系统用户在添加FTP用户之前,需要先在Linux系统中创建一个新的系统用 ...
HBase(全)
:happy:实时计算基础内容:
1、NoSql数据库(Hbase)
2、Kafka大数据领域最火最常用的消息队列
3、Spark StructuredStreaming(结构化流)
:happy:HBase基础内容
HBase基础简介
HBase集群搭建
HBase数据模型
HBase基于shell操作
HBase基于Python操作
HBase产生背景计算机时代
传统的关系型数据库管理系统(Relational Database Management System,RDBMS)早在20世纪70年代已经出现,并且帮助无数的公司和机构实现了给定问题的解决方案,时至今日,RDBMS仍旧非常有用。
实现增删改查
mysql(百万)
oracle(千万)
互联网时代
RDBMS在设计和实现商业应用方面扮演了一个不可或缺的角色(至少在可预见的未来仍旧如此)。只要用户需要保留用户、产品、会话、订单等信息,就会采用一些存储后端为前端应用服务器提供持久化数据的服务。这种结构非常适合有限的数据量,但对于数据急剧增长的情况,这种结构就显得力不从心了。
数据量和业务量飞速增长,出现了很多RDB ...
Document
b9a2f359a78cc900c6b7b98b312f9de96cddd5fc648725463b269d9e0920823089d86d4d08e3dd9ab12a3023a2d3c58e9054b2a3399f79cc4ed4a30bf3acb7eb9805c04a965eaedd1efef7973e59a5778d97f8b541ed8bc61be946a03ee697e5fde0feada78c33f1bcf33ab029465d1abd7f0e6bbc3b99a1600f45508f13381e49c05269809524e8d0bb2b4315a973f11540a7c068b0a491d04339fe2be5a0fdba8c8a90b76348f4dee9cc133c54c6e13b9e4ae066d5b50ffd068314395685deb7099826892dca2a3e4bc39ba1807ff371db897ac1956828fe41970da2850896fa4f960435ac078cef03b9b97f7b62a40e590680c556676c0 ...
大数据集群环境搭建
一、VMware的安装
注意:本文档演示的是12版本的,所有版本都是一样的!
First step: 运行“VMware_workstation_full_12.5.2.exe”(或者其他版本)
Second step:引导页面,直接点击下一步
Third step: 同意许可,然后继续点击下一步
Forth step: 选择VMware安装位置,然后点击下一步
Sixth step: 用户体验设置,建议全部取消勾选,然后点击下一步
Fifth step: 根据个人喜好选择,然后点击下一步
Seventh step: 点击安装
Eighth step: 等待安装完成,然后点击许可证
Ninth step: 自己在百度搜索一个vmware12密匙,粘贴复制,然后点击输入
Last step: 安装完成
二、虚拟机安装操作创建虚拟机
添加linux的iso镜像文件
开启虚拟机, 进行安装
正在校验, 可直接选择esc退出, 或者等待一会也是OK的
直到出现以下界面,开始选择语言:
结束后 , 点击重启, 然后进入系统, 到此, ...
大数据集群环境搭建(CDH版)
CDH集群搭建文档一、环境要求1.操作系统1.1 软件依赖
Python 2.7+,不支持Python 3(安装HUE需要)
perl
python-psycopg2 2.5.4+(安装HUE需要)
iproute package
RHEL7:iproute-3.10
RHEL6:iproute-2.6
说明:通常这部分依赖环境操作系统已经自带,不需要手动安装。
1.2 系统版本
RHEL系列:6.10,6.9,6.8,7.2,7.3,7.4,7.5
SELS:12 SP3,12 SP2
Ubuntu系列:16.04 LTS
1.3 文件系统
ext3
ext4
XFS
S3
Kudu仅支持ext4和XFS文件系统。
不支持NFS和NAS存储。
1.4 文件访问记录(挂载磁盘需要配置)
Cloudera建议禁用该项功能,可以提升磁盘性能。
配置/etc/fstab文件:
1/dev/sdb1 /data1 ext4 defaults,noatime 0 0
不重启即生效命令:
1mount -o remount /data1
1.5 nproc配置
配 ...
ElasticSearch(全)
Elastic Stack
Elastic Stack是一套构建在开源基础之上,可以让我们安全可靠地采集任何来源、任何格式的数据,并且实时地对数据进行搜索、分析和可视化工具链。
ELK技术栈从上面这段定义可以看出Elastic Stack的几个特点:采集、转换、搜索、分析、可视化,这些功能分别由ElasticSearch、Kibana、Beats、Logstash这几个组件来实现。
数据搜索
精准查询
查询数据表中name等于张三的数据
select * from user where name = ‘张三’
模糊查询
查询数据表中name中包含张三
select * from user where name like ‘%张三%’
关联查询
查询数据表中任何列中可能包含张三的数据
select * from user where name like ‘%张三%’ or address like ‘%张三%’ or ……..
搜索查询
想要查询任何列跟张三有关系的数据,张哥 三叔 张三哥哥
当你不确定查询条件时,我们会使用搜索
全文检索全文检索是指:
通 ...
DolphinScheduler(全)
DolphinScheduler任务调度器DS基本介绍
DolphinScheduler是apache旗下一款顶级的工作流调度系统, 早期是由国内易观公司开发, 在2019年贡献给apache, 并成为apache旗下顶级项目, 主要作用: 实现工作流的调度操作 与 oozie是同类型的软件, 只不过比ooize提供了更加友好的操作界面, 可以直接通过界面对工作流进行完整的配置 启动 监控等相关的工作
安装DS
1- 将提供的DS的安装包拷贝到项目环境的_04_software 目录下
2- 将安装包拖拽到node1的 /export/software下
3- 进行解压操作, 并配置软连接
12345cd /export/softwaretar -zxf apache-dolphinscheduler-incubating-1.3.5-dolphinscheduler-bin.tar.gz -C /export/server/cd /export/server/ln -s apache-dolphinscheduler-incubating-1.3 ...
Kafka(全)
:happy:消息队列什么是消息队列
队列:是一种先进先出的数据结构
消息队列:是由生产者将数据从一端放入消息队列,由消费者按顺序从另一端进行取出使用
消息队列的应用场景
消息队列在实际应用中包括如下四个场景:
应用解耦:多应用间通过消息队列对同一消息进行处理,避免调用接口失败导致整个过程失败;
异步处理:多应用对消息队列中同一消息进行处理,应用间并发处理消息,相比串行处理,减少处理时间;
限流削峰:广泛应用于秒杀或抢购活动中,避免流量过大导致应用系统挂掉的情况;
消息驱动的系统:系统分为消息队列、消息生产者、消息消费者,生产者负责产生消息,消费者(可能有多个)负责对消息进行处理
消息队列的两种模式点对点模式
每个消息只能被一个消费者消费,一个生产者相当于对应一个消费者
消息被消费之后就删除
一对一
发布订阅模式
每个消息可以被多个消费者消费
消息被消费后不会被删除
一对多
常见的消息队列产品
:happy:Kafka的简介Kafka的基本介绍
Apache Kafka is an open-source distributed event streaming ...
