分类: bigdata

使用HanLP增强Elasticsearch分词功能

hanlp-ext 插件源码地址:https://github.com/hualongdata/hanlp-ext Elasticsearch 默认对中文分词是按“字”进行分词的,这是肯定不能达到我们进行分词搜索的要求的。官方有一个 SmartCN 中文分词插件,另外还有一个 IK 分词插件使用也比较广。但这里,我们采用 HanLP 这款 自然语言处理工具 来进行中文分词。 Elasticsear

使用Ambari2.5(HDP2.6)搭建大数据环境

本文介绍在 CentOS 7 环境下使用 Ambari2.5 (HDP2.6) 搭建大数据环境。 推荐使用如下脚本将 Ambari/HDP 相关软件包下到本地后配置 yum 源安装,在线安装速度太慢会经常遇到包找不到情况。 12345wget -c http://public-repo-1.hortonworks.com/ambari/centos7/2.x/updates/2.5.1.0/amb

Cassandra设置

操作系统修改操作系统的TCP keepalive 1sudo /sbin/sysctl -w net.ipv4.tcp_keepalive_time=60 net.ipv4.tcp_keepalive_intvl=60 net.ipv4.tcp_keepalive_probes=5 集群机制一致性哈希 Gossip协议:用于在环内节点之间传播Cassandra状态信息 Snitch:支持多个数据

Hive与Spark

Spark与Hadoop安装见此:安装Spark1.5与Hadoop2.6 注意:Spark官方提供的二进制发行版是不支持hive的,需要自行编译。 安装hive12wget -c http://mirrors.aliyun.com/apache/hive/hive-1.1.1/apache-hive-1.1.1-bin.tar.gztar apache-hive-1.1.1-bin.tar.

Spark实战:工程实践

工欲善其事,必先利其器。 (本文是基于 sbt 来配置 Spark 开发的工程化,支持 Scala/Java 编程语言。Python 和 R 用户需要使用其它方式来实现工程化。) 今天谈谈Spark开发中的工程化问题。我们都知道Spark程序是在集群上跑的,需要把程序打包后使用 $SPARK_HOME/bin/spark-sumibt 到Spark集群上。 在开发、测试时,每次代码修改后都打包、提

Cassandra升级更新

今天需要把集群安装的 cassandra 2.2.4 升级到 cassandra 2.2.5 ,这里记录下升级步骤。 (升级脚本见:https://gist.github.com/yangbajing/12461fcab190689f2499) 升级的主意事项和限制条件需求条件 Cassandra 2.0.x and 2.1.x: 需要 JRE 7 或更高版本(推荐JDK) Cassandra

安装Spark1.5.2与Hadoop2.6.2

适用于 Hadoop 2.9 build spark 1.5.212./dev/change-scala-version.sh 2.11./make-distribution.sh --name hadoop2.6-scala2.11 --tgz -Phadoop-2.6 -Pyarn -Phive -Phive-thriftserver -Dscala-2.11 1.6+可以添加:-Pspark

Cassandra用户认证

Cassandra默认是不需要用户名和密码登录的,这样其实并不安全。 修改配置文件:conf/cassandra.yaml 启动用户名密码登录: 12authenticator: PasswordAuthenticatorauthorizer: CassandraAuthorizer 重新启动Cassandra,再次使用 bin/cqlsh 登录会提示 AuthenticationFailed(‘

Mongodb 3.x 用户认证

Mongodb 3.x 的用户认证和 2.x 方式不一样,创建用户的语法已由 addUser 成成 createUser 了。 创建账号首先不使用 --auth 参数启动Mongodb, 1/opt/local/mongodb/mongodb-3.0/bin/mongod -f /opt/local/mongodb/etc/mongod.conf 此时登陆Mongodb并执行 show dbs 命

Elasticsearch初步使用

集群安装安装一个两个结节的简单集群,其中一个Master,一个Slave。两台机器的网络分别是: 12192.168.31.101 sc-007192.168.31.48 scdev-001 Master配置 123456789cluster: name: sc0node: name: sc-007 master: truenetwork: host: 192.168.31.101d