文/Robin
本站推广
币安是全球领先的数字货币交易平台,提供比特币、以太坊、BNB 以及 USDT 交易。
币安注册: https://accounts.binancezh.pro/cn/register/?ref=11190872
邀请码: 11190872
【知乎问题】
oracle的exadata好像全球销量并不高。现在国内很多厂商喊着去IOE和基础架构国产化的口号一窝蜂推出所谓的“大数据一体机”,我对数据分析不是很了解,请问在大数据一体机的实质是什么?大数据分析领域这种一体机真的有市场吗?兼容多种数据库,能够达到从O向非O数据库平滑过渡的技术含量很高吗?谢谢!
【我的回答】
1.回答问题之前概述下大数据一体
继续阅读 »
文/Robin
本站推广
币安是全球领先的数字货币交易平台,提供比特币、以太坊、BNB 以及 USDT 交易。
币安注册: https://accounts.binancezh.pro/cn/register/?ref=11190872
邀请码: 11190872
Table of Contents
{:toc}
0x00 背景
A 业务日增 1500W 数据,采用 MySQL 分区存储。该分区表按照时间分区,每天一个分区。随着时间的推移,单表数据越来越多,占用空间越来越大,由此带来如下的不便:第一,单机磁盘容量有限,需要定期清理历史数据;第二,MySQL 对子查询、复杂查询支持不友好,在庞大的数据量下性能急剧下降,导致前
继续阅读 »
目录
Table of Contents
{:toc}
文/Robin
本站推广
币安是全球领先的数字货币交易平台,提供比特币、以太坊、BNB 以及 USDT 交易。
币安注册: https://accounts.binancezh.pro/cn/register/?ref=11190872
邀请码: 11190872
问题描述
生产库中一张表的数据10亿级别,另一张表数据100亿级别,还有其他表的数据也是相当地庞大。入职之前不知道这些表有那么大的数据量,于是习惯了使用count(*)来统计表的记录数。但这一执行就不得了,跑了30多分钟都没出结果,最后只有取消查询。后来采取了另一种办法查询记录数。首先说明下解决的办法,使
继续阅读 »
知道可能面对的困难和痛苦,在死亡的恐惧中不断挣扎,而仍然能战胜自己,选择这条道路,才是真正的勇气。
—— 《明朝那些事》
作者简介:涂子沛,知名信息管理专家,曾居美国硅谷,现任阿里巴巴副总裁。毕业于华中科技大学、中山大学和卡内基梅隆大学。赴美留学之前,曾在省、市、县几级政府的不同部门磨砺10年,做过职业程序员,担任过公安边防巡逻艇的指挥官,也从事过政府统计工作。在美期间,先后担任软件公司的数据仓库程序员、数据部门经理、数据中心主任、亚太事务总监、首席研究员等职务。除了工作、写作,还热心公益,曾任中国旅美科技协会匹兹堡分会主席,现任中国旅美科技协会副主席,上海真爱梦想公益基金会理事。著有《大数据》、《数据之巅》。
凡是属于最多数
继续阅读 »
最近邻居
解题思路:
1. 使用JDK中的Point2D类,该类定义了坐标系空间中的一个点
2. Point2D是一个抽象类,但是在该类内部定义了静态的Double类,并且Double继承自Point2D
3. 可以通过Double的构造方法来实例化空间中的某个点
4. 将所有的输入数据全部实例化并存放在一个Point2D.Double的数组中
5. 对该数组进行暴力破解,计算其中任意两个点之间的距离,时间复杂度为$O(n^2)$,并保留下最小的两个点的编号,且编号小的在前
Java算法实现:
```java
import java.awt.geom.Point2D;
import java.util.Scanner;
/*
继续阅读 »
Bloom Filter是由Bloom在1970年提出的一种快速查找算法,通过多个hash算法来共同判断某个元素是否在某个集合内。可以用于网络爬虫的url重复过滤、垃圾邮件的过滤等等。
它相比hash容器的一个优势就是,不需要存储元素的实际数据到容器中去来一个个的比较是否存在。
只需要对应的位段来标记是否存在就行了,所以想当节省内存,特别适合海量的数据处理。并且由于省去了存储元素和比较操作,所以性能也比基于hash容器的高了很多。
但是由于bloom filter没有去比较元素,只通过多个hash来判断唯一性,所以存在一定的hash冲突导致误判。误判率的大小由hash函数的个数、hash函数优劣、以及存储的位空间大小共同决定。
继续阅读 »
08月31日,正式从原单位离职,到现在已经4个月了,博客也从离职以来没有怎么更新,一直想记录一下离职这段时间的一些想法,所以随便写点什么,更新下博客也好。
其实真正有离职想法是在年初4月份时,记得是去大荔在媳妇家,一个人在房间里写简历,简历没有正式写完,回西安以后就搁浅了,那时候是觉得待遇太低,应该换份工作了,但是也比较喜欢公司的技术氛围,比较自由随性,没有下决心投简历。直到7月份,又冒出离职的想法,然后公司又突然安排我去北京出差,接手一个大数据相关的项目,当时觉得既然是新领域,那学习下也好,就买了2本书,微信读书也及时补了下大数据相关知识。到北京和用户沟通后,大致明白这个项目不是我想的那样,原本就想离职的想法就更加坚定了。
继续阅读 »
InfluxDB是一个时序型数据库,主要用于存储时序型相关的数据,例如实时的温度、湿度,计算机的CPU使用率、内存使用率等。时序型数据的一些主要特点有:
写入平稳,持续写入
写入多,读取少
写入的数据几乎不会更新
数据量大,数据具有时效性
需要多精度的查询
……
继续阅读 »
Drill:大数据的交互式分析
简介
Drill是开源世界中“交互式”的数据分析系统。目标是可以组建超过10000台机器的集群,并且可以在秒级处理PB级别或者万亿条数据。Hadoop作为大数据处理的事实标准,设计目标是实现大数据处理的高吞吐量。MapReduce处理一个数据,需要分钟级的时间。而业界对交互式的低延迟的数据分析和挖掘提出了新的需求,Google的Dremel希望将处理时间缩短到秒级。当前Dremel已经为Google的bigquery提供服务。Drill作为Google Dremel的开源实现,并非Hadoop的替代品,只是其补充。和Dremel一样,Drill可以高效的处理嵌套式数据格式。此外,Drill加入了额
继续阅读 »
在开发过程中很容易遇到去多张表查询数组组合成一个对象的场景。
有两种方案:
一条大sql直接搞定
把大sql拆分成多条小sql,在程序代码里面再组装对象
more
下面分别分析下各自的优缺点:
大sql
优点:一目了然,程序代码简洁,只需要建立一个连接,在数据量小的情况下效率会高很多。
缺点:在数据量大的情况下响应慢,可能一条大SQL就把整个数据库堵死。垂直拆分情况下sql改动会很大。
多条小sql
优点:在数据量大的情况下效率高。对垂直拆分友好。
缺点:程序代码会变得异常啰嗦,难以维护。
各有利弊,要权衡使用场景。
如果在表数据量巨大的情况下或者数据字段比较有可能做垂直切分的情况下建议或者在做报表这种耗时操
继续阅读 »