kafka 原理详解
kafka 原理详解
|
kafka 简析前言对于一家网络公司来说,可能有大量的数据产生,例如用户登录、浏览、点击等等事件,或者系统内部的服务调用、错误信息、服务器负载等等日志信息。这些数据可以用于搜索相关、推荐系统、广告相关等等,然而这些数据很多时候是和应用耦合在一起的。同时这些额外的日志数据,可能数据量比本身应用的数据还
Hive 快速入门
Hive 快速入门
|
简介Hive 是基于 Hadoop 的一个数仓工具,基于存储在 HDFS 上的结构化的数据文件提供类似 SQL 的查询功能,本质上是将 SQL 转化为 MapReduce/Spark 任务执行,从而提取到需要的数据。提出 Hive 的主要原因是:手动编写分布式的查询任务门槛较高,实现复杂,导致基于大
LSM-Tree
LSM-Tree
|
什么是 LST-TreeLSM-Tree 全称 Log-Structured Merge Tree,该树用于优化写入密集型的操作,解决了传统的 B 树或 B+ 树进行频繁写入时产生的性能问题。其充分利用了磁盘顺序写的速度远高于随机写的速度,并通过内存 + 磁盘的多层合并,提高了大规模数据的写入性能。
HTTP 各版本简述(1.1/2/3)
HTTP 各版本简述(1.1/2/3)
|
HTTP 1.0HTTP 1.0 实际上作为最原始的版本,并没有使用多久就被 HTTP 1.1 代替了,后续实际上普遍认为 HTTP 1.1 是第一个广泛使用的 HTTP 版本。原始的 HTTP 由于没有长连接,也就是每个 HTTP 请求都是单独的 TCP 连接,这就会导致在请求多个小文件时延迟较高
HTTP 如何加密?
HTTP 如何加密?
|
为什么需要加密简单来说,HTTP 协议的内容是通过明文传递的,任何中间人都可以看到完整的信息,由此就导致了两种攻击:被动窃听攻击,报文的信息可以被抓包获取,从而泄露信息;主动攻击:中间者可以修改 HTTP 协议的内容,从而给客户端或服务端发送伪造的信息。所以需要一个机制来对 HTTP 的内容进行加密
Raft 详解
Raft 详解
|
共识算法Raft 是一种共识算法,共识算法是一种在分布式系统中非常重要的算法,他允许在一个节点集合中,即使某些节点挂了,对外的服务仍然还是一致的。最经典的模型是拜占庭问题,假设现在有几个将军和他们的军队围攻一个城市,这些将军必须通过传令兵来通信。他们需要对攻击还是撤退达成一致的决定,只有半数以上的军
MapReduce 详解
MapReduce 详解
|
前言MapReduce 作为谷歌三剑客之一,在分布式系统领域有非常重要的作用,他带来 Map-Reduce 的分布式任务处理框架推动了分布式系统的发展。对于 MapReduce,其可以简单概括为两个步骤,第一个是 Map,第二个是 Reduce。Map 的操作在于把原始巨大的任务打碎拆散,方便多个计
The Google File System 详解
The Google File System 详解
|
什么是 GFS?GFS 全称为 Google File System,是一个分布式的文件系统,GFS 实际上是部署在分布式的环境中,但是提供的文件服务好像就在单机上运行一样。程序员不需要知道分布式的任何细节,就像使用本地文件一样读取或写入在分布式环境上储存的文件。GFS 为大型数据密集型的应用提供了
归一化那些事
归一化那些事
|
归一化那些事为什么要归一化?在对神经网络训练的过程中,未归一化的数据可能会导致陡峭的优化曲面,导致其在优化参数的过程中对学习率敏感,从而难以收敛,也就难以训练。举个简单的例子,如果数据有两个特征维度,其中一个其值在 0-1 之间,另一个在 0-10000 之间,为了优化第一个特征,显然其学习率应该低
Attention 直观理解
Attention 直观理解
|
什么是 Attention?通常很多教程或教材会告诉你,Attention 就是一种注意力,它可以让你关注更应该关注的,而忽略那些不应该关注的,Attention 通常代表某种兴趣点或关联性,Attention 机制使得模型会更关注有关联性的特征。但是这种表达非常抽象,即使是用了比喻的方法,仍然不好