笔趣阁H - 原创同人 - 学习使我富裕在线阅读 - 第166章 解析小C的初步成果

第166章 解析小C的初步成果

一种。

    ??如果资源足够,苏航大可以像谷歌一样,上亿的数据集砸下去,然後硬生生炼出一个自然语言识别程序。

    ??就像是

    ??如果数据集更加规范有序,进一步让程序能够自动生成文章也不是不行。

    ??但是小C明显不是这样的。

    ??当初小C所有的数据不过是字典词典和一些书籍,对了,还有团团和主流媒体的文章等等。

    ??数据量少,而识别相契合度高,说明小C有着更加先进的算法。

    ??尤其是自然语言有着大量的隐性信息。

    ??汉语尤其如此。

    ??比如,这是什麽意思?

    ??根据不同的语气就有不同的解读方式。

    ??所以,对於模糊的汉语识别是非常困难的。

    ??但是,理解诗词韵味对小C而言也许有些困难,但是结合语境理解自然语言的含义却是不在话下。

    ??通过对小C的代码分析,苏航大概摸索清楚了小C的“逻辑”。

    ??数据的价值不仅取决於量,还取决於质。

    ??就像有些人可以见微知着,数据量虽少,但是却能够通过分析发挥更大的作用。

    ??纯粹的用大量数据进行“筛选”,用淘汰的方式来选择合适的拟合路径,对算力的浪费是极大的。

    ??小C则不一样。

    ??在收集到数据後,首先建立了特殊的读写数据库。

    ??就像是小学生学组词造句一样,小C也把每一个汉字给建立了知识图谱。

    ??让数据变成了结构化的知识!

    ??与其说是数据库,不如说是知识库。