百度软件工程师笔试题和面试题答案大全(二)

更新时间:2023-07-11 05:27:04文/高考志愿库

  3、一个大的含有50M个URL的记录,一个小的含有500个URL的记录,找出两个记录里相同的URL。

  回答:

  首先使用包含500个url的文件创建一个hash_set。

  然后遍历50M的url记录,如果url在hash_set中,则输出此url并从hash_set中删除这个url。

  所有输出的url就是两个记录里相同的url。

  4、海量日志数据,提取出某日访问百度次数最多的那个IP。

  回答:

  IP地址最多有2^32=4G种取值可能,所以不能完全加载到内存中。

  可以考虑分而治之的策略,按照IP地址的hash(IP)%1024值,将海量日志存储到1024个小文件中。每个小文件最多包含4M个IP地址。

  对于每个小文件,可以构建一个IP作为key,出现次数作为value的hash_map,并记录当前出现次数最多的1个IP地址。

  有了1024个小文件中的出现次数最多的IP,我们就可以轻松得到总体上出现次数最多的IP。

  5、有10个文件,每个文件1G,每个文件的每一行都存放的是用户的query,每个文件的query都可能重复。如何按照query的频度排序?

  回答:

  1)读取10个文件,按照hash(query)%10的结果将query写到对应的文件中。这样我们就有了10个大小约为1G的文件。任意一个query只会出现在某个文件中。

  2)对于1)中获得的10个文件,分别进行如下操作

  -利用hash_map(query,query_count)来统计每个query出现的次数。

  -利用堆排序算法对query按照出现次数进行排序。

  -将排序好的query输出的文件中。

  这样我们就获得了10个文件,每个文件中都是按频率排序好的query。

  3)对2)中获得的10个文件进行归并排序,并将最终结果输出到文件中。

  6、蚂蚁爬杆问题

  有一根27厘米长的细木杆,在第3厘米,7厘米,11厘米,17厘米,23厘米这五个位置上各有一只蚂蚁,木杆很细,不能同时通过两只蚂蚁,开始时,蚂蚁的头朝向左还是右是任意的,他们只会朝前走或掉头,但不会后退,当两只蚂蚁相遇后,蚂蚁会同时掉头朝反方向走,假设蚂蚁们每秒钟可以走1厘米的距离。求所有蚂蚁都离开木杆的最小时间和最大时间。

  答案:

  两只蚂蚁相遇后,各自掉头朝相反方向走。如果我们不考虑每个蚂蚁的具体身份,这和两只蚂蚁相遇后,打个招呼继续向前走没有什么区别。

  所有蚂蚁都离开木杆的最小时间为

  max(min(3,27-3),min(7,27-7), min(11,27-11), min(17,27-17),min(23,27-23))=11

  所有蚂蚁都离开木杆的最大时间为

  max(max(3,27-3),max(7,27-7), max(11,27-11), max(17,27-17),max(23,27-23))=24

  7、当在浏览器中输入一个url后回车,后台发生了什么?比如输入url后,你看到了百度的首页,那么这一切是如何发生的呢?

  回答:

  简单来说有以下步骤:

  1、查找域名对应的IP地址。这一步会依次查找浏览器缓存,系统缓存,路由器缓存,ISPDNS缓存,根域名服务器。

  2、向IP对应的服务器发送请求。

  3、服务器响应请求,发回网页内容。

  4、浏览器解析网页内容。

  当然,由于网页可能有重定向,或者嵌入了图片,AJAX,其它子网页等等,这4个步骤可能反复进行多次才能将最终页面展示给用户。

  8、判断两棵树是否相等,请实现两棵树是否相等的比较,相等返回1,否则返回其他值,并说明算法复杂度。

  数据结构为:

  [cpp] view plaincopytypedef struct TreeNode

  {

  char c;

  TreeNode *leftchild;

  TreeNode *rightchild;

  }TreeNode;

  函数接口为:int CompTree(TreeNode* tree1,TreeNode* tree2);

  注:A、B两棵树相等当且仅当RootA->c==RootB-->c,而且A和B的左右子树相等或者左右互换相等。

  递归方法:

  [cpp] view plaincopybool CompTree(TreeNode *tree1, TreeNode *tree2)

  {

  if(tree1 == NULL && tree2 == NULL)

  return true;

  if(tree1 == NULL || tree2 == NULL)

  return false;

  if(tree1->c != tree2->c)

  return false;

  if( (CompTree(tree1->leftchild, tree2->leftchild) && CompTree(tree1->rightchild, tree2->rightchild)) || CompTree(tree1->leftchild, tree2->rightchild) && CompTree(tree1->rightchild, tree2->leftchild))

  return true;

  }

  时间复杂度:

  在树的第0层,有1个节点,我们会进行1次函数调用;

  在树的第1层,有2个节点,我们可能会进行4次函数调用;

  在树的第2层,有4个节点,我们可能会进行16次函数调用;

  ....

  在树的第x层,有2^x个节点,我们可能会进行(2^x)^2次函数调用;

  所以假设总节点数为n,则算法的复杂度为O(n^2)。

  腾讯面试题:求一个论坛的在线人数,假设有一个论坛,其注册ID有两亿个,每个ID从登陆到退出会向一个日志文件中记下登陆时间和退出时间,要求写一个算法统计一天中论坛的用户在线分布,取样粒度为秒。

  回答:

  一天总共有3600*24=86400秒。

  定义一个长度为86400的整数数组intdelta[86400],每个整数对应这一秒的人数变化值,可能为正也可能为负。开始时将数组元素都初始化为0。

  然后依次读入每个用户的登录时间和退出时间,将与登录时间对应的整数值加1,将与退出时间对应的整数值减1。

  这样处理一遍后数组中存储了每秒中的人数变化情况。

  定义另外一个长度为86400的整数数组intonline_num[86400],每个整数对应这一秒的论坛在线人数。

  假设一天开始时论坛在线人数为0,则第1秒的人数online_num[0]=delta[0]。第n+1秒的人数online_num[n]=online_num[n-1]+delta[n]。

  这样我们就获得了一天中任意时间的在线人数。

中国点击率最高的一篇文章 !