Coder Social home page Coder Social logo

log_storage_and_proccessing's People

Contributors

blankatom avatar

Watchers

 avatar  avatar

log_storage_and_proccessing's Issues

数据搜索 1

使用HBASE的API实现条件查询功能.
例如:“访问时间在1点到2点之间且URL属于百度的网页”等,即能够支持根据六个字段的一个或多个字段内容,使用不同条件(关键字或数值范围)进行联合搜索。具体内容如下:

  1. 根据开始时间和结束时间搜索这段时间内的访问记录。输入信息为开始时间和结束时间,用‘|’字符隔开)
  2. 根据用户ID搜索该用户的访问记录。输入信息为一个或多个用户ID,用‘|’字符隔开 (输入多个用户ID时,要求记录匹配其中任意一个用户的均满足条件)。
  3. 根据关键字搜索含有该关键字的用户查询词记录。输入信息为一个或多个关键字,用‘|’字符隔开 (输入多个关键字时,要求记录匹配其中任意一个关键字的均满足条件)。
  4. 根据关键字(如baidu)等搜索相关网站的URL访问记录,输入信息为一个或多个关键字,用‘|’字符隔开 (输入多个关键字时,要求记录匹配其中任意一个关键字的均满足条件)。
  5. 实现以上四个条件任意组合的联合搜索。四个条件之间用’+’字符隔开 (联合搜索要求所有条件同时满足)
  6. 要求有条件输入界面,用命令行或UI界面均可。

数据清洗

实现一个程序。
从HDFS读取一个文本文件,文本中的存储的是一天的日志数据,每行作为一条记录,分为访问时间,用户ID,查询词,返回结果排名,顺序号,URL这六个字段(列),存入HBASE。
例如:

00:00:00	2982199073774412 	[360安全卫士]	 8 3	download.it.com.cn/softweb/software/firewall/antivirus/20067/17938.html

数据搜索2.3

用户使用频率统计:
统计每个用户一天内的搜索次数

数据搜索 2.2

时段流量统计:
以hh:mm:ss格式输入起始时间和结束时间,统计这段时间之内的总搜索次数、各个查询词搜索次数,各个网站的访问量。其中网站访问量为根据URL统计网站访问,属于同一个网站的URL算在同一个网站上.
如women.sohu.com/20070508/n249762812.shtml,s.sohu.com/20080220/n255256097.shtml,peng.blog.sohu.com等不同的sohu网页都统计为sohu网站的访问次数。

数据搜索 2.1

基于大数据计算技术的条件查询:使用mapreduce框架或RDD算子,实现类似于HBASE的六个字段条件搜索。

数据搜索 2.4

访问行为统计:
根据该页面在搜索结果中的排名(第4字段),统计不同排名的结果被访问的情况。如排名第一的结果被访问次数,排名第二的结果被访问次数……

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.