图说心语——一款交互型故事学习应用

type

status

date

slug

summary

一、程序简介

“图说心语”(ImagiTale)是一款针对儿童教育领域的应用，旨在通过游戏化和互动化的方式，激发儿童对讲故事的兴趣，提高儿童的表达能力和想象力。我们的程序利用了最新的人工智能技术，如语音识别、自然语言处理、图像生成和声音合成等，为儿童提供了一个有趣而富有挑战性的故事创作平台。我们的程序可以根据不同年龄段和水平的儿童，提供不同难度和主题的故事素材，让儿童在讲述故事的过程中，获得及时而有效的反馈和指导。

1.1 程序概要及架构

该程序以Swift为主要开发语言，使用SwiftUI进行用户界面的设计，并使用讯飞SDK实现语音与文本的互相转化，用openai的gpt相关API实现对话文本生成。我们的程序既需要有能够吸引儿童注意力的美观的界面，又有各种强大且复杂的技术需要进行逻辑上的管理，同时我们在未来还将实现与数据库的互联，以存储用户数据等信息。基于以上考虑，我们决定采用三层架构设计：表现层(UI)、业务逻辑层(BLL)、数据访问层(DAL)。

表示层(UI) ，位于三层构架的最上层。与用户（即儿童）直接接触，实现软件与用户的直接信息交换，如获取儿童讲故事的语音等，以及进行消息事件的处理。 业务逻辑层(BLL)，实现数据处理和数据传递，接收表示层传来的各种儿童直接反馈的信息，如一段讲故事语音，通过内部强大的处理工具进行处理，同时交由情感分析模型进行分析与反馈，最后再将反馈的结果呈递给表示层；同时，该层也负责对数据库数据进行访问与修改。 数据访问层(DAL)，实现数据的增加、删除、修改、查询等操作，并将操作结果反馈到BLL层。BLL处理的数据来自数据库存储的信息或表示层获得的用户信息，其将用户界面收集过来的数据经过业务逻辑层的功能处理后传送到数据库，而从数据库获取的数据，经过业务逻辑层处理后再呈现给用户界面。因此业务逻辑层是中间层，起到承上启下的作用。经典三层架构的调用关系是：UI调用BLL，BLL调用DAL。而UI与DAL是不可直接相互调用，它们之间相互隔离。这种基于“高内聚，低耦合”理念的三层架构，使得开发人员分工更明确，可以让开发人员的精力更专注于应用系统核心业务逻辑的分析、设计和开发，加快项目的进度，提高了开发效率，有利于项目的升级和维护工作。为了实现三层架构，我们采用面向对象的编程思想，将实现视图功能的类与实现业务逻辑功能的类分开，方便程序的开发与维护。在视图类中，主要进行程序界面的显示以及涉及到相应的业务逻辑的类的调用，同时将直接获得的用户数据传给相关业务逻辑类；在业务逻辑类中，程序通过调用各种功能强大的模块来实现程序的各种具体功能，如语音与文字的互相转换、情感分析、关键词提示等等。

1.2 程序调用模块

1.2.1 外部库/依赖相关说明

OpenAI - OpenAI社区Swift框架。Chatgpt可以识别并自动生成对话，是一款非常强大的可以轻松实现实时聊天的工具。因此，可以在我们的项目中应用chatgpt，使对话的生成更高效更便于儿童理解。同时其也可以与我们实验室自研的情感模型相结合，生成更有感情、更符合儿童理解习惯和成长的对话。同时由于openai提供了chatgpt的接口，使chatgpt在项目中的使用更加便捷。