第166章 解析小C的初步成果
书迷正在阅读:童心星球大冒险、大航海时代之自由之翼、大唐:开局李世民流落荒岛、大宋之从假太监开始、大唐:无双皇子,被李二偷听心声、转生成蜘蛛又怎样、道君的冲喜小厨娘、鬼帝绝宠废材嫡小姐、汉末称王、合集世界的萌王
一种。 ??如果资源足够,苏航大可以像谷歌一样,上亿的数据集砸下去,然後硬生生炼出一个自然语言识别程序。 ??就像是 ??如果数据集更加规范有序,进一步让程序能够自动生成文章也不是不行。 ??但是小C明显不是这样的。 ??当初小C所有的数据不过是字典词典和一些书籍,对了,还有团团和主流媒体的文章等等。 ??数据量少,而识别相契合度高,说明小C有着更加先进的算法。 ??尤其是自然语言有着大量的隐性信息。 ??汉语尤其如此。 ??比如,这是什麽意思? ??根据不同的语气就有不同的解读方式。 ??所以,对於模糊的汉语识别是非常困难的。 ??但是,理解诗词韵味对小C而言也许有些困难,但是结合语境理解自然语言的含义却是不在话下。 ??通过对小C的代码分析,苏航大概摸索清楚了小C的“逻辑”。 ??数据的价值不仅取决於量,还取决於质。 ??就像有些人可以见微知着,数据量虽少,但是却能够通过分析发挥更大的作用。 ??纯粹的用大量数据进行“筛选”,用淘汰的方式来选择合适的拟合路径,对算力的浪费是极大的。 ??小C则不一样。 ??在收集到数据後,首先建立了特殊的读写数据库。 ??就像是小学生学组词造句一样,小C也把每一个汉字给建立了知识图谱。 ??让数据变成了结构化的知识! ??与其说是数据库,不如说是知识库。