网络文章@202406


SpaceX 对复杂系统工程的启发

从组织系统视角,技术组织最大的特点是自然性和开放性,它给SpaceX带来了以下复杂度:

SpaceX的组织顶层设计:采取单一目标(the singular goal)、技术公司风格(tech-style organization),追求扁平化和速度(flat and fast)。

提供高可靠性的太空运载(highly reliable space transportation)是SpaceX成立的唯一目的,这一愿景使得组织成员的目标与利益得到统一。

====================

SpaceX通过六大哲学(central philosophy)显式化地定义了这些行为规范。

#1 系统导向的文化:目标是设计和集成安全可靠的系统。

SpaceX is a systems oriented culture whose goal is the engineering and integration of reliable and safe systems.

#2 职责高于过程:以正确和高效地做事为唯一指导。

SpaceX operates on the philosophy of Responsibility - no engineering process in existence can replace this for getting things done right, efficiently.

#3 权衡设计:在大系统工程和快速原型间取得平衡。

There is an important balance between heavy up front systems engineering and rapid prototyping to reduce systems risk - tipping point heavily dependent on organizational agility, cost of iteration, and the ability to trade lower level requirements.

#4 敏捷反馈:通过更多的设计—构建—测试迭代以从经验中学习。

Because we can design-build-test at low cost (21st century infrastructure) we can afford to learn through experience rather than consuming schedule attempting to anticipate all possible system interactions.

#5 测试驱动:设计可测试的系统。

Design a testable system and test what you fly!

#6 分级测试:包括集成分级和测试前置。

Test rigorously and at multiple levels of integration - including right before service.

=======================

**大量集成与仿真测试工具**是关键投资项,帮助SpaceX极大地加速了后期潜在问题的发现。

SpaceX的分级测试与传统软硬件的分级测试有许多不同:


Linus 强势拍板合入: BPF 赋能调度器终成正果

看看社区大佬对这种可插拔系统的担忧是什么

[!NOTE]

I'm still hating the whole thing with a passion.

As can be seen from the wide-spread SCHED_DEBUG abuse; people are, in general, not interested in doing the right thing. They prod random numbers (as in really, some are just completely insane) until their workload improves and call it a day.

There is not a single doubt in my mind that if I were to merge this, there will be Enterprise software out there that will mandate its own BPF sched thing, or else it won't work.

They will not care, they will not contribute, they might even pull a RedHat and only share the code to customers.

We all loose in that scenario. Not least me, because I get the additional maintenance burden.

I also don't see upsides to merging this. You all can play with schedulers out-of-tree just fine and then submit what actually works.

So, since you wanted it in writing, here goes:

NAK

我依然非常讨厌整个事情。

从广泛滥用 SCHED_DEBUG 可以看出,人们通常不关心做正确的事情。他们会随意调整一些数字(有些真的完全是胡来的),直到他们的工作负载有所改善,然后就算完成了。

毫无疑问,如果我合并这个补丁,企业软件将会要求自己的 BPF 调度器,否则就无法工作。

他们不会在意,也不会贡献代码,甚至可能像 RedHat 那样只把代码分享给客户。

在这种情况下,我们所有人都会输。尤其是我,因为这会增加额外的维护负担。

我也看不到合并这个补丁的好处。你们完全可以 out-of-tree 的方式开发调度器,然后提交那些真正有效的东西。

所以,既然你们想要书面回复,那就这样吧:

NAK(不予接受)

最后可以看到关于这个问题,应该是在linux summit线上线下都讨论过许多次了,linus最后也拍板了。从最开始提交到最后合入差不多花费了2年时间,其实整个代码并不多大约就是20k左右。

[!NOTE]

I honestly see no reason to delay this any more. This whole patchset was the major (private) discussion at last year's kernel maintainer summit, and I don't find any value in having the same discussion (whether off-list or as an actual event) at the upcoming maintainer summit one year later, so to make any kind of sane progress, my current plan is to merge this for 6.11.

老实说,我认为没有理由再拖延了。这整个补丁集是去年内核维护者峰会上的主要(私人)讨论,我认为在一年后即将到来的维护者峰会上进行相同的讨论(无论是列表外还是实际活动)没有任何价值,所以为了取得任何理智的进展,我目前的计划是将其合并到 6.11 中。


(48) "Stop Rate Limiting! Capacity Management Done Right" by Jon Moore - YouTube

比较通俗易懂地解释排队理论,更好地理解系统负载和应对策略。

Pasted-Image-20240603130939.png


中文互联网正在加速崩塌 - 视点·观察 - cnBeta.COM

(46) 【限时公开】中文互联网正在加速崩塌 | 历史信息的消亡 | 是否还有挽救方法 | 究竟什么原因造成 - YouTube

为什么会出现这种情况呢?我猜想,主要原因可能是两个:

一是经济原因。

网站的存在,需要服务器、需要带宽、需要机房、需要人员运维,还有很多杂七杂八的监管和维护费用,这些都是成本。如果是有战略价值(例如需要向外展示公司想要展示的信息),或者有短期流量价值(例如还时不时有较多的人上来看),同时公司账上也不差钱,那么还会有动力去维持。

但是如果公司在商业上走了弯路,没钱了,整个网站就会直接死掉。例如人人网就是典型代表。

即便公司还有钱,从运营的角度来看,如果一个网页一年到头都没有几个人来点击,对公司来说,就成了一笔负担,从经济上最理性的方法,就是直接关掉。搜狐、网易早年的内容大量丢失,以及以天涯论坛为代表的BBS集体消亡,都是这个原因。

二是监管原因。

总体而言,互联网信息的监管,是从无到有,从宽到严,从严到更严的过程。以前可以合法存在的内容,后来不符合监管要求了;或者是以前可以灰色存在的内容,后来被定义为黑色了。这些内容都会直接被咔嚓掉。

还有一些是随着时代的变化,舆论的两极分化越来越极端,以前“只道是平常”的内容,在后来的舆论环境中显得非常尖锐、敏感,尽管不违法,但是可能激化矛盾,形成混乱,监管方也有可能会要求处理掉。

除了官方部门之外,愤怒的网友,也时时充当着舆论监管员的角色。他们会翻出十几年前某人无意中说的某句话,揪着不放,把人网暴至“社会性死亡”。

但监管上最重要的影响,还不是监管部门的处理或愤怒网友的攻击,而是它们会造成公司与个人的“自我审查”。

因为谁也不知道,网站上存在的哪一条内容,某人曾说过的哪一句话,会不会在若干年后,给当事人带来灭顶之灾。最好的办法,就是直接把这些潜在的“定时炸弹”全部清除,也就是把网站关掉或者把内容全部删除。