2015-07-20 veryyoung
tomcat-redis-session-manager 用tomcat默认的方式来管理session是很有问题的,比如项目重启tomcat,用户会话就会丢失,这样用户体验非常糟糕。应用只要稍微上点规模或者需要多机负载,这是必须做的工作了。 web server自带解决方案有2: tomcat有自带的session共享方式cluster,多个tomcat实时复制session。缺点是服务器之间会频繁的进行数据同步,如果在不同机器上网络开销会非常大,而且数据同步会有延迟的,这可能导致数据不一致,还有缺点就是session在每台机器都保有一份,太浪费资源了! ngnix有基于ip hash转发的策略,用这个来保证每个IP每次 继续阅读 »
2014-03-15 Robin Wen
文/Robin 本站推广 币安是全球领先的数字货币交易平台,提供比特币、以太坊、BNB 以及 USDT 交易。 币安注册: https://accounts.binancezh.pro/cn/register/?ref=11190872 邀请码: 11190872 环境 SQL Server 2012 + CentOS 6.3 问题描述 只具有生产库的登录、查询、创建临时表权限,缺失导入数据(比如Excel文件、txt文档、sql脚本等等)权限,需要创建临时表,插入测试数据。 问题模拟 由于生产库的数据是敏感数据,并且数据量非常大,当然不能提供出来。这里只是对这个问题进行一个模拟。数据量少和数据量大操作方法是一样的 继续阅读 »
2018-02-26 Alex Sun
1. 训练/开发/测试集 (1)划分比例: 数据量不大(例如1W条数据)的情况下,可以按照6:2:2进行划分 大数据(例如100W条数据)情况下,可以按照98%,1%,1%进行划分 (2)数据分布 不同数据集应该遵循同样的数据分布。例如图片识别,一部分图片是从网上抓取的,一部分是自己实际拍摄的。那么各个数据集都应当包含这两种图片,并且比例大致相同。 继续阅读 »
2015-10-28 白若水
背景 在如今的大数据时代,多核 cpu 的发展,如何利用多核,提升计算能力,成为程序开发中一个很重要的话题。随之衍生了专为多核而生的语言,比如说 Golang 和 Erlang 。曾浮光掠影的看过 Golang 的多核编程,关于它的取得 cpu 核数,背后的概念而感叹。而 Csharp 作为一个一直走在时代前沿的语言,在 .NET 4.0 后引入了 System.Threading.Tasks 提供了对多核的支持。 继续阅读 »
2014-02-27 Lingxian Kong
业界动态 2.10号,大数据公司Hortonworks和Red Hat建立战略合作伙伴关系,Red Hat会将Hortonworks Data Platform (HDP) 接入自己的存储产品,并且HDP也会与Red Hat Enterprise Linux OpenStack Platform整合以降低成本。 http://www.redhat.com/about/news/press-archive/2014/2/hortonworks-and-red-hat-deepen-strategic-alliance 全球领先的智能互联系统嵌入式软件提供商风河®公司近日宣布,风河已经成为OpenStack基金会的企业赞助商。作 继续阅读 »
2015-02-09 walter lee
1.简介 infobright是一个基于MySQL的数据仓库系统,内部是没有索引,采用的Knowledge Grid来组织数据。基本特征如下: 查询性能高:百万、千万、亿级记录数条件下,同等的SELECT查询语句,速度比MyISAM、InnoDB等普通的MySQL存储引擎快5~60倍  存储数据量大:TB级数据大小,几十亿条记录  高压缩比:理论上是40:1,在我们的项目中为10:1,极大地节省了存储空间  基于列存储:无需要物化视图、复杂的数据分区策略、索引  适合复杂的分析性SQL查询:SUM, COUNT, AVG, GROUP BY 没有特殊的数据仓库摸(比如星形模型、雪花模型)要求 和众多的BI套件相容,比如Penta 继续阅读 »
2017-03-07 Lim Geng
没图片太单调,用啥图呢,思考片刻选择了这幅图 数据绑定的本质 实现数据绑定的本质就是Setter+change事件,前者Setter用于在数据模型变化时更新UI,后者change事件,用于在UI变化时更新数据模型,来看个大某: Demo1 ```js // 数据模型 var data = { text: 'Hello World' }; // UI元素 var input = document.getElementById('input'), label = document.getElementById('lbl'); // Setter Object.defineProperty(data, 'tex 继续阅读 »
2014-11-01 Xie Jingyi
在学习数论时我们都知道:只用2的幂次可以组合出所有的正整数。这便是二进制的魅力——状态简单而又变化万千。 引子 实际算法中,常常有一些线性的但数据量特别大的问题,如区间求和、求最小值等。很多时候,为了把时间复杂度从$O(n^2)$甚至更高的地方降下来,我们需要对数据进行一些预处理,以提高计算的速度。在这其中,有很大一部分是来自二进制运算特点的启发。 目录 树状数组 RMQ LCA&树上倍增 继续阅读 »
2014-12-07 Robin Wen
Table of Contents {:toc} 文/Robin 本站推广 币安是全球领先的数字货币交易平台,提供比特币、以太坊、BNB 以及 USDT 交易。 币安注册: https://accounts.binancezh.pro/cn/register/?ref=11190872 邀请码: 11190872 问题 现想建立一个数据中心,包括运维采集信息、业务数据、其他业务数据等,建立一个集群搞定,数据量大,写入非常多,查询也非常多。请教。 我应该建什么样的集群合适,面对高并发,扩展性等问题。是否有什么建议,谢谢。 我考虑cluster,因为可以添加很多节点,这样各种业务的各种数据,我可以分布到节点上去,把他们查询比较 继续阅读 »
2016-04-15 Borg
Regularization 上周已经讲了overfitting,那么当我们所有的数据量特别大的时候,即使有很多个特征模型也很难overfit。 继续阅读 »