2014-08-30 Xiaosong Gao
iOS系统及第三方应用都会使用Keychain来作为数据持久化存储媒介,或者应用间数据共享的渠道。 所以Keychain数据库是Hacker们最关注的数据源头之一。 不知道是算幸运还是不幸,导出Keychain数据库数据的工具早已非常完善,下载地址:Keychain Dumper传送门 继续阅读 »
2017-02-22 Lu Huang
本文主要参考的是 kaldi-asr.org,主要介绍我们在使用 kaldi 的时候可能用到的数据处理的脚本以及相关文件的信息。 简介 在运行完 kaldi 提供的例子之后,也许你想用自己的数据来建立一个系统,本节主要介绍如何准备自己的数据。请确保你使用的是例程脚本是最新的脚本。在本文中,你可以参考这些例子中有关数据准备的脚本。在每一个例子的根目录有一个 run.sh,该文件一般在开头会有若干行和数据准备有关的操作。比如在 RM 的例子中有: local/rm_data_prep.sh /export/corpora5/LDC/LDC93S3A/rm_comp || exit 1; utils/prepare_lang.sh 继续阅读 »
2016-12-09 Lingxian Kong
前段时间一直在忙team的项目,在我们基于OpenStack的公有云(Catalyst Cloud)上部署Swift服务。由于历史原因,我们的公有云之前提供的对象存储是基于Ceph Object Gateway(RGW),所以我们已经有大量的用户在Ceph上存储的数据,并且每天都会有更新,总容量有十几个T。我在这个项目中的任务就是完成数据迁移。在Ceph集群之外,我们部署了独立的Swift集群,所以准确的说,我们需要做的是数据拷贝,而并非数据迁移。 继续阅读 »
2017-05-12 Eric Wang
在用最基本的JDBC拉取数据的时候,由于拉取的是海量数据,所以程序跑了一段时间之后报java.lang.OutOfMemoryError: Java heap space,这个错误很简单,也很好解决,网上一搜一大把,只需要设置ResultSet获取数据模式为row-by-row,但是总结多数的解决方案是如下两种: ① 以PreparedStatement为例,需要设置四个参数 java preparedStatement = connection.prepareStatement(formatSql, ResultSet.TYPE_FORWARD_ONLY, ResultSet.CONCUR_READ_ONLY); prepared 继续阅读 »
2018-02-26 Alex Sun
1. 训练/开发/测试集 (1)划分比例: 数据量不大(例如1W条数据)的情况下,可以按照6:2:2进行划分 大数据(例如100W条数据)情况下,可以按照98%,1%,1%进行划分 (2)数据分布 不同数据集应该遵循同样的数据分布。例如图片识别,一部分图片是从网上抓取的,一部分是自己实际拍摄的。那么各个数据集都应当包含这两种图片,并且比例大致相同。 继续阅读 »
2013-11-21 veryyoung
【数据结构类】实现一个对链表排序的算法,C`C++可以使用std∶∶list Java使用LinkedList 要求先描述算法,然后再实现,算法效率尽可能高效。 基本思想: 快速排序(Quicksort)是对冒泡排序的一种改进。由C. A. R. Hoare在1962年提出。它的基本思想是:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列。 算法过程 设要排序的数组是A[0]……A[N-1],首先任意选取一个数据(通常选用第一个数据)作为关键数据,然后将所有比它小 继续阅读 »
2016-02-03 ruki
Bloom Filter是由Bloom在1970年提出的一种快速查找算法,通过多个hash算法来共同判断某个元素是否在某个集合内。可以用于网络爬虫的url重复过滤、垃圾邮件的过滤等等。 它相比hash容器的一个优势就是,不需要存储元素的实际数据到容器中去来一个个的比较是否存在。 只需要对应的位段来标记是否存在就行了,所以想当节省内存,特别适合海量的数据处理。并且由于省去了存储元素和比较操作,所以性能也比基于hash容器的高了很多。 但是由于bloom filter没有去比较元素,只通过多个hash来判断唯一性,所以存在一定的hash冲突导致误判。误判率的大小由hash函数的个数、hash函数优劣、以及存储的位空间大小共同决定。 继续阅读 »
2016-06-27 zzyhappyzzy
数据的传输和获取,通常会涉及到数据的压缩和解压等操作 more 如果现在有这么个需求 1、从服务器下载的图片,根据图片的二进制数据流决定图片的格式,你会怎么办? (数据截取) 2、需要将用户每天24小时的生活状态传到服务器,然后可以按年/月/周/天取出并统计、展示等,你会怎么办?(字节数组) 对于上面的问题,我们就必须考虑数据结构,并实现压缩和解压等操作 下面给予一个简单的示例,希望有所启示 ```objc //打包 int tmpSize = 10; Byte *tmpBuffer = malloc(sizeof(Byte)*tmpSize); for (int i = 0;i 继续阅读 »
2016-07-26 朱晓辉
说到JSON数据NSLog输出,大家可能并不陌生,在向服务器数据请求时,会经常用到,但Xcode的JSON输出并不怎么美丽 字段""缺失 数组输出为( ) unicode编码中文没有自动显示为中文 大部分情况下copy打印的JSON数据到JSON在线格式化工具,都报错,格式化不了 其实有些第三方插件也可以解决这个问题,现在给大家分享一个比较简单的解决方法,几行代码的扩展就可以解决这个问题. 继续阅读 »
2018-05-24 Piasy
分析完应用上层的视频采集、渲染、编码之后,原本我是打算把完整的 WebRTC 带到 Flutter 的世界里,形成 FlutterRTC 的,但后来仔细想想,这件事没多大意思,做出来了也不能产生多大价值,所以我决定调头深入底层。 本篇算是真正深入底层的第一篇,让我们深究一下之前没有深究的话题:视频数据 native 层之旅,以及 WebRTC 对视频数据的处理。最近对 iOS 上层的分析也不算白费,毕竟在 iOS 平台深入底层,无论是编译还是调试都更方便。 继续阅读 »